【Open AIの画像生成AI】DALL-E 3の始め方・使い方

「DALL-E 3はどこで利用できるの？」
「無料でDALL-E 3を試してみたい」

このような場合には、この記事の内容が参考になります。
この記事では、DALL-E 3の始め方・使い方を説明しています。

本記事の内容

DALL-E 3とは？
DALL-E 3の始め方
ChatGPTにおけるDALL-E 3の使い方
BingにおけるDALL-E 3の使い方

それでは、上記に沿って解説していきます。

DALL-E 3とは？

DALL-E 3とは、OpenAIが開発した画像生成AIになります。
2023年10月時点では、同シリーズの最新版です。

大きな特徴としては、ChatGPT（GPT）との統合になります。
プロンプトの解釈やその表現が、ChatGPTベースにあると言われています。

実際に触ってみると、そのことを強く感じます。
例えば、「AI 失業」をイメージにした画像があるとします。

検索すれば、そのような画像が出てきます。
良い感じのモノは、大抵有料ですけどね。

その中から、「荷物を持った人間をロボットが見送っている」というような画像を選びます。
それをChatGPTに読み込ませて、プロンプトにしてもらいます。

その方法は、次の記事で説明しています。

その結果は、次のプロンプトになります。

Digital illustration of a young man holding a box with personal belongings, looking downhearted, while a friendly robot with antennas on its head gestures a goodbye wave in a simplistic office environment, with a minimalistic style, on a light blue background

まずは、このプロンプトをStable Diffusion XL（SDXL 1.0）で用いてみましょう。
人気と実力を備えたモデルを2つ利用します。

たまに当たりが出るのに賭けるという感じです。
まだまだ、Stable Diffusionはこのようなイメージ図には弱い印象があります。

それに対して、DALL-E 3は次のような結果となっています。

ほぼ完ぺきです。
正直、有料の元画像すら上回っているかもしれません。

個人的には、このプロンプトの表現力（解釈含む）がDALL-E 3の最大の特徴だと考えています。
そして、それはChatGPT（GPT）をベースにしているからなのでしょう。

以上、DALL-E 3について説明しました。
次は、DALL-E 3の始め方を説明します。

DALL-E 3の始め方

DALL-E 3の始め方は、現状では二つあるようです。

ChatGPT （PlusとEnterpriseの有料顧客向け）
Bing

ChatGPTに関しては、2023年10月に提供されると言われています。
しかし、2023年10月2日時点（ChatGPT Plusで確認）ではまだ利用できません。

Bingについては、Image Generatorというサービスで利用可能になっています。
いつもOpen AIのサービスより早くMicrosoftのサービスに新機能が実装されますよね。

そのような契約になっているのでしょうか？
それとも、単純にサービスに実装する開発力の差なのでしょうか？

まあ、Webサービスにおいてなら、Microsoftの方が圧勝になりますからね。
とりあえず、よくわかりませんがBing上ならすでに利用可能ということです。

以上、DALL-E 3の始め方を説明しました。
以下では、それぞれのサービスにおける使い方を説明します。

ChatGPTにおけるDALL-E 3の使い方

DALL-E 3が利用可能になると、次のように表示されるようになります。

作成方法は、プロンプトに画像生成用のprompt（区別のため）を入力するだけでOK。

「遅刻して焦っているチワワ」
サイズ：1024×1024

上記のように入力すると、次のように表示されます。

しばらく待つと、次のように画像が表示されるようになります。

生成する画像のサイズを指定することが可能です。
現状では、次の3サイズのみに対応しています。

“1024×1024″（正方形）
“1792×1024″（横長）
“1024×1792″（縦長）

テキストで入力する以外に、JSON形式で画像生成の指示が可能です。
その際に設定できるパラメータは、以下となります。

各パラメータの説明は、以下。

1. **prompts**: 
2つの異なるテキストプロンプトを指定しています。
1つ目は「雪の中を歩く赤い傘を持った女性」、2つ目は「夕焼けの海辺で遊ぶ子供たち」となっています。

2. **size**: 生成する画像の解像度を"1024x1024"（正方形）として指定しています。

3. **seeds**: 各プロンプトに対するseed値として、12345と67890を指定しています。
これにより、1つ目のプロンプトにはseed値12345を、2つ目のプロンプトにはseed値67890を使用して画像が生成されます。

このようにChatGPTは回答していますが、現状でseedsは機能していません。
ただし、設定があってもエラーなどにはなりません。

{
  "prompts": [
    "雪の中を歩く赤い傘を持った女性",
    "夕焼けの海辺で遊ぶ子供たち"
  ],
  "size": "1024x1024",
  "seeds": [12345, 67890]
}

なお、上記のようにプロンプトに入力した場合は次のような画像が生成されます。

seedsが機能しているなら、全く同じ画像が生成されることになるのでしょう。
しかし、現状では似たような画像が生成されるだけだと思います。

BingにおけるDALL-E 3の使い方

Bing Image Creator

無料で AI 搭載の Bing Image Creator と Bing ビデオクリエーターを使用すると、数秒の内に、言葉から見事なビジュアルの魅力的なビデオを生み出すことができます。DALL-E と Sora が、画像や動画の迅速かつ簡単な生成を実現します。

上記にアクセスして、「参加して作成」ボタンをクリックします。

そうすると、マイクロソフトのサービスでよく見る次のログイン画面が表示されます。

ログインします。
おそらく、アカウントを持っているはずです。
アカウントがない場合は、作成しましょう。

ログインできたら、次のような画面が表示されます。

使い方としては、プロンプトを入力して「作成」ボタンを押すだけです。
プロンプトの構文は、以下のように説明されています。

日本語のプロンプトを利用できます。
ChatGPTベースであれば、言語の壁を超えることはできるでしょう。
ただ、ChatGPTは英語を用いた方が返答の質は良いと言われています。

それと同じように、画像生成のプロンプトも英語の方が良いのかもしれません。
少しでも質の高いモノを求めるなら。

ここでは、日本語でプロンプトを入力します。

作成中には、ヒントが出てきます。
ゲームのローディング中にあるような表示ですね。

処理が完了すると、4枚の画像が表示されます。
一度の処理で4枚の画像を生成する仕様のようです。
（※プロンプトによっては1枚の画像の場合がありますが、その規則性は不明）

画像生成は、これで終了です。
処理時間は、30秒もかかっていないという感じです。

何も難しいところはありませんね。
さすが、万人向けのWebサービスとなっています。

ただ、一つ注意点があります。
稲妻のアイコンの値ですが、ブーストと呼ぶようです。

1回の処理で1つ消費される仕様となっています。
初回ログイン時には、100のブーストが付与されています。

この値がなくなると、画像生成の処理時間が一気に遅くなります。
最大で5分ほどになるという説明もあります。

とにかく、遅くなることは確実でしょう。
ブーストは、Microsoft Rewardsで補充可能となっています。

Microsoft Rewardsは、画面内の次のアイコンをクリックして確認できます。

ちなみに、私はMicrosoft Rewardsの値が635あるようです。
これが、多いのか少ないのかはわかりません。

なお、ブーストは週単位で100ポイントが付与されるようです。
その代わりに、繰り越し加算はされない仕様と思われます。