Stable Cascadeによる画像生成をweb UI(GUI)で試す

Stable Cascadeによる画像生成をweb UI(GUI)で試す 画像生成

「Stable Cascadeをとにかく試したい!!」
「web UIによりStable Cascadeで画像を生成したい」

このような場合には、この記事の内容が参考になります。
この記事では、Stable Cascadeを好きなだけ自由に試す方法を解説しています。

本記事の内容

  • Stable Cascadeとは?
  • Stable Cascadeの導入
  • Stable Cascadeの動作確認

それでは、上記に沿って解説していきます。

Stable Cascadeとは?

Stable Cascadeは、Würstchenアーキテクチャを基に構築されたモデルです。
他のアーキテクチャとの主な違いは、より小さな潜在空間で動作することです。

これにより、推論の実行速度が速くなり、トレーニングのコストが削減されます。
Stable Cascadeは、1024×1024の画像を24×24に圧縮できる圧縮係数42を実現し、
高品質な再構築を保ちながら、高効率での使用に適しています。

要するに、小さい画像で学習や推論を行うことができるということです。
それでいて、より高品質な画像を生成できると言われています。

それが実現可能なのは、3ステージを用いた仕組みにあるようです。

技術的に興味のある方は、「Würstchen」の論文などを探ってみてください。

Stable Cascadeの導入

Stable Cascadeは、結局SDXLとの比較が重要になります。
SDXLと比べて、どうなのかということです。

Stable Cascade - a Hugging Face Space by multimodalart
Enter a description, and the app will create images based on your text. You can adjust settings like size, seed, and guidance scale to refine the output.

Stable Cascadeは、上記のデモで確認できます。
ただ、Hugging Face上のデモはあてになりません。

すぐにエラーで動かなくなったり、非公開になったりします。
そのため、上記のデモをローカル環境に導入しましょう。

そうすれば、好きなだけStable Cascadeを検証することができます。
個人的には、早くFooocusに搭載されて欲しいです。

現状では、このデモを導入して使うのが最も無難と言えます。
導入の際は、仮想環境の利用をオススメします。

では、まずモノをクローンすることからです。

git clone https://huggingface.co/spaces/multimodalart/stable-cascade

ダウンロードできたら、ディレクトリを移動しておきます。

cd stable-cascade

ここで、次のファイルを確認できると思います。

requirements.txt

git+https://github.com/kashif/diffusers.git@diffusers-yield-callback
accelerate
safetensors
transformers

PyTorchに関する記載はありませんね。
PyTorchは、自分でインストールする必要があります。

GPU版のPyTorchが必須です。

最新版でも問題ありません。
次のコマンドでWindowsに最新版PyTorch(GPU版)をインストールできます。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

PyTorchがインストールできたら、requirements.txtに以下を記載します。

gradio[oauth]

追加した状態で、次のコマンドを実行。

pip install -r requirements.txt

処理が完了したら、導入自体はOKです。

Stable Cascadeの動作確認

デモのweb UIを起動させます。
起動させるコマンドは、以下。

python app.py

おそらく、次のエラーが出るはずです。

ModuleNotFoundError: No module named 'spaces'

これは、デモのプログラムがHugging FaceのSpacesで動く前提になっているからです。
そのため、その前提となっている箇所を無効にしましょう。

「app.py」内における次の箇所をコメントにします。

これで、デモを起動できるようになります。
起動に成功すると、モデルのダウンロードが始まります。

このモデルのダウンロードに時間が、かなりかかります。
約13GBほどです。

コンソールに次のように表示されたら、起動成功と言えます。

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.

ブラウザで「http://127.0.0.1:7860」します。
デモと同じ画面を確認できます。

とりあえず、「Example」を選択して、適当にプロンプトを書き替えます。

次のように書き換えて、「Run」ボタンをクリック。

An astronaut riding a blue dog

結果として、次の画像が作成されました。

このときのGPU使用量は、以下。

かなりGPUが利用されることがわかります。

タイトルとURLをコピーしました