「DeepFloyd IFとは?」
「新しい画像生成AIについて知りたい」
このような場合には、この記事の内容が参考になります。
この記事では、Imagenベースの画像生成AI「DeepFloyd IF」について解説しています。
本記事の内容
- DeepFloyd IFとは?
- Imagenとは?
- DeepFloyd IFにおけるImagenはimagen-pytorch
- DeepFloyd IFは家庭用PCで動くのか?
それでは、上記に沿って解説していきます。
DeepFloyd IFとは?
追記 2023年4月29日
DeepFloyd IFのモデルが、公開されました。
DeepFloyd IFとは、DeepFloydが開発している画像生成AIのことです。
DeepFloydは、Stability AI社に存在する開発チームとなります。
2022年11月にTwitter上で、DeepFloydのアカウントが作成されています。
https://twitter.com/deepfloydai
![](https://self-development.info/wp-content/uploads/2023/01/image-46.png)
このアカウントは、DeepFloyd IFで生成した画像を投稿しています。
また、Hugging Face上でも公式ページが用意されています。
https://huggingface.co/DeepFloyd
ただし、現状では何も登録はされていません。
![](https://self-development.info/wp-content/uploads/2023/01/image-47.png)
おそらく、これは公式でしょう。
参加メンバーのTwitterアカウントには、それらしき情報が記載されています。
![](https://self-development.info/wp-content/uploads/2023/01/20230117185830.jpg)
このDeepFloydが開発している「IF」には、次の特徴があります。
- プロンプトの適切な反映
- 1024 x 1024サイズの高品質画像
- テキスト(文字)の正確な出力
- 自然な画像の出力
とにかく、DeepFloyd IFはStable Diffusionの数段上のレベルだと言われています。
それは、投稿されている画像からもわかります。
![](https://self-development.info/wp-content/uploads/2023/01/output-21.jpg)
そうは言っても、Stable Diffusionでもこのレベルの画像は生成可能です。
モデルとプロンプト次第で何とでもなります。
しかし、どうしてもテキストだけはダメです。
このサンプル画像のように、Stable Diffusionではテキストを表示できないのです。
したがって、DeepFloyd IFの最大のウリはテキスト表示だと感じます。
あくまで、まだサンプル画像を見るしかできない段階の感想です。
実際に画像を生成してみたら、全然違う意見を言っているかもしれません。
プロンプトの反映に関しては、自分で試さないと本当のところはわかりませんからね。
では、なぜDeepFloyd IFはこのような芸当が可能なのでしょうか?
そして、Stable Diffusionよりも数段上と言われるのでしょうか?
それは、採用している技術のImagenにあります。
以上、DeepFloyd IFについて説明しました。
次は、Imagenについて説明します。
Imagenとは?
Imagenとは、Googleが開発した画像生成AIのことです。
Stable Diffusionと同じく、テキストから画像を生成することができます。
Imagenは、これらの画像生成技術の中では圧倒的なパフォーマンスを示しています。
![](https://self-development.info/wp-content/uploads/2023/01/1111111.jpg)
Stable Diffusionは、LDMに該当すると考えてもよいでしょう。
Diffusion Models(拡散モデル)という点では、以下の3つは同類と言えます。
- DALL-E2
- Stable Diffusion(LDM)
- Imagen
そのような状況で、なぜImagenはこれほどまでのパフォーマンスを出せるのでしょうか?
その要因の一つには、大規模言語モデルがあると言われています。
その大規模言語モデルは、T5-XXLになります。
google/t5-v1_1-xxl · Hugging Face
https://huggingface.co/google/t5-v1_1-xxl
T5-XXLのモデル容量は、約45GBです。
こんな大きなモデルを利用したら、プロンプトの理解力も上がりますよね。
そんなGoogleの最終兵器的なImagenは、公開されていません。
その論文が公開されただけです。
ソースを公開してしまうと、ヤバいとGoogleは考えたのでしょう。
でも、DeepFloyd IFではImagenの技術が用いられています。
以上、Imagenについて説明しました。
次は、DeepFloyd IFにおけるImagenはimagen-pytorchを説明します。
DeepFloyd IFにおけるImagenはimagen-pytorch
DeepFloyd IFにおけるImagenは、imagen-pytorchであると言われています。
imagen-pytorchとは、Lucidrains氏が開発したリポジトリです。
Lucidrains氏は、論文をもとにソースコードを作り出す謎の天才技術者になります。
そのLucidrains氏によって、ImagenがPyTorchベースで開発されました。
それが、imagen-pytorchということです。
GitHub上のページは、以下。
GitHub – lucidrains/imagen-pytorch
https://github.com/lucidrains/imagen-pytorch
上記ページにおいては、次のような記述が確認できます。
![](https://self-development.info/wp-content/uploads/2023/01/image-48.png)
日本語だと、次のようになります。
スポンサーになっていただいたStabilityAI様、その他のスポンサー様
Stability AI社がLucidrains氏にDeepFloyd IF開発への協力を依頼したと噂されています。
噂レベルであるため、真相はわかりません。
ただ、Todoは順調にクリアされている状況です。
![](https://self-development.info/wp-content/uploads/2023/01/image-49.png)
2023年1月18日時点で、62個中41個がクリアされています。
バージョン管理も細かく行われています。
![](https://self-development.info/wp-content/uploads/2023/01/image-50.png)
まあ、Lucidrains氏はDeepFloyd IFに協力しているのでしょうね。
以上、DeepFloyd IFにおけるImagenはimagen-pytorchを説明しました。
最後に、DeepFloyd IFは家庭用PCで動くのかどうかについて説明します。
DeepFloyd IFは家庭用PCで動くのか?
DeepFloyd IFは、どれくらいのスペックを必要とするのでしょうか?
最低でもGPUメモリ 24GBは必要という話もあります。
推論でそれだけ必要なら、RTX 3090か4090ぐらいしか選択肢はありません。
当初はそうだとして、すぐに必要メモリは下がると思います。
DreamBoothも出た当初は、40GBのVRAMが必要と言われていました。
しかし、今では10GB以下の環境でもDreamBoothは動くようになりました。
実際、そうなっていかないと普及はしていかないと思います。
それと同じように、DeepFloyd IFについても必要VRAMは下がるはずです。
以上、DeepFloyd IFは家庭用PCで動くのかを説明しました。