【DeepFloyd IF】Imagenベースの画像生成AI

【DeepFloyd IF】Imagenベースの画像生成AI 機械学習

「DeepFloyd IFとは?」
「新しい画像生成AIについて知りたい」

このような場合には、この記事の内容が参考になります。
この記事では、Imagenベースの画像生成AI「DeepFloyd IF」について解説しています。

本記事の内容

  • DeepFloyd IFとは?
  • Imagenとは?
  • DeepFloyd IFにおけるImagenはimagen-pytorch
  • DeepFloyd IFは家庭用PCで動くのか?

それでは、上記に沿って解説していきます。

DeepFloyd IFとは?

DeepFloyd IFとは、DeepFloydが開発している画像生成AIのことです。
DeepFloydは、Stability AI社に存在する開発チームとなります。

2022年11月にTwitter上で、DeepFloydのアカウントが作成されています。
https://twitter.com/deepfloydai

このアカウントは、DeepFloyd IFで生成した画像を投稿しています。
また、Hugging Face上でも公式ページが用意されています。
https://huggingface.co/DeepFloyd

ただし、現状では何も登録はされていません。

おそらく、これは公式でしょう。
参加メンバーのTwitterアカウントには、それらしき情報が記載されています。

このDeepFloydが開発している「IF」には、次の特徴があります。

  • プロンプトの適切な反映
  • 1024 x 1024サイズの高品質画像
  • テキスト(文字)の正確な出力
  • 自然な画像の出力

とにかく、DeepFloyd IFはStable Diffusionの数段上のレベルだと言われています。
それは、投稿されている画像からもわかります。

そうは言っても、Stable Diffusionでもこのレベルの画像は生成可能です。
モデルとプロンプト次第で何とでもなります。

しかし、どうしてもテキストだけはダメです。
このサンプル画像のように、Stable Diffusionではテキストを表示できないのです。

したがって、DeepFloyd IFの最大のウリはテキスト表示だと感じます。
あくまで、まだサンプル画像を見るしかできない段階の感想です。

実際に画像を生成してみたら、全然違う意見を言っているかもしれません。
プロンプトの反映に関しては、自分で試さないと本当のところはわかりませんからね。

では、なぜDeepFloyd IFはこのような芸当が可能なのでしょうか?
そして、Stable Diffusionよりも数段上と言われるのでしょうか?

それは、採用している技術のImagenにあります。

以上、DeepFloyd IFについて説明しました。
次は、Imagenについて説明します。

Imagenとは?

Imagenとは、Googleが開発した画像生成AIのことです。
Stable Diffusionと同じく、テキストから画像を生成することができます。

Imagenは、これらの画像生成技術の中では圧倒的なパフォーマンスを示しています。

Stable Diffusionは、LDMに該当すると考えてもよいでしょう。
Diffusion Models(拡散モデル)という点では、以下の3つは同類と言えます。

  • DALL-E2
  • Stable Diffusion(LDM)
  • Imagen

そのような状況で、なぜImagenはこれほどまでのパフォーマンスを出せるのでしょうか?
その要因の一つには、大規模言語モデルがあると言われています。

その大規模言語モデルは、T5-XXLになります。

google/t5-v1_1-xxl · Hugging Face
https://huggingface.co/google/t5-v1_1-xxl

T5-XXLのモデル容量は、約45GBです。
こんな大きなモデルを利用したら、プロンプトの理解力も上がりますよね。

そんなGoogleの最終兵器的なImagenは、公開されていません。
その論文が公開されただけです。

ソースを公開してしまうと、ヤバいとGoogleは考えたのでしょう。
でも、DeepFloyd IFではImagenの技術が用いられています。

以上、Imagenについて説明しました。
次は、DeepFloyd IFにおけるImagenはimagen-pytorchを説明します。

DeepFloyd IFにおけるImagenはimagen-pytorch

DeepFloyd IFにおけるImagenは、imagen-pytorchであると言われています。
imagen-pytorchとは、Lucidrains氏が開発したリポジトリです。

Lucidrains氏は、論文をもとにソースコードを作り出す謎の天才技術者になります。
そのLucidrains氏によって、ImagenがPyTorchベースで開発されました。

それが、imagen-pytorchということです。
GitHub上のページは、以下。

GitHub – lucidrains/imagen-pytorch
https://github.com/lucidrains/imagen-pytorch

上記ページにおいては、次のような記述が確認できます。

日本語だと、次のようになります。

スポンサーになっていただいたStabilityAI様、その他のスポンサー様

Stability AI社がLucidrains氏にDeepFloyd IF開発への協力を依頼したと噂されています。
噂レベルであるため、真相はわかりません。

ただ、Todoは順調にクリアされている状況です。

2023年1月18日時点で、62個中41個がクリアされています。
バージョン管理も細かく行われています。

まあ、Lucidrains氏はDeepFloyd IFに協力しているのでしょうね。

以上、DeepFloyd IFにおけるImagenはimagen-pytorchを説明しました。
最後に、DeepFloyd IFは家庭用PCで動くのかどうかについて説明します。

DeepFloyd IFは家庭用PCで動くのか?

DeepFloyd IFは、どれくらいのスペックを必要とするのでしょうか?

最低でもGPUメモリ 24GBは必要という話もあります。
推論でそれだけ必要なら、RTX 3090か4090ぐらいしか選択肢はありません。

当初はそうだとして、すぐに必要メモリは下がると思います。
DreamBoothも出た当初は、40GBのVRAMが必要と言われていました。

しかし、今では10GB以下の環境でもDreamBoothは動くようになりました。
実際、そうなっていかないと普及はしていかないと思います。

それと同じように、DeepFloyd IFについても必要VRAMは下がるはずです。

以上、DeepFloyd IFは家庭用PCで動くのかを説明しました。

タイトルとURLをコピーしました