Stable Cascadeによる画像生成をweb UI（GUI）で試す

「Stable Cascadeをとにかく試したい！！」
「web UIによりStable Cascadeで画像を生成したい」

このような場合には、この記事の内容が参考になります。
この記事では、Stable Cascadeを好きなだけ自由に試す方法を解説しています。

本記事の内容

それでは、上記に沿って解説していきます。

Stable Cascadeとは？

Stable Cascadeは、Würstchenアーキテクチャを基に構築されたモデルです。
他のアーキテクチャとの主な違いは、より小さな潜在空間で動作することです。

これにより、推論の実行速度が速くなり、トレーニングのコストが削減されます。
Stable Cascadeは、1024×1024の画像を24×24に圧縮できる圧縮係数42を実現し、
高品質な再構築を保ちながら、高効率での使用に適しています。

要するに、小さい画像で学習や推論を行うことができるということです。
それでいて、より高品質な画像を生成できると言われています。

それが実現可能なのは、3ステージを用いた仕組みにあるようです。

技術的に興味のある方は、「Würstchen」の論文などを探ってみてください。

Stable Cascadeは、結局SDXLとの比較が重要になります。
SDXLと比べて、どうなのかということです。

Stable Cascadeは、上記のデモで確認できます。
ただ、Hugging Face上のデモはあてになりません。

すぐにエラーで動かなくなったり、非公開になったりします。
そのため、上記のデモをローカル環境に導入しましょう。

そうすれば、好きなだけStable Cascadeを検証することができます。
個人的には、早くFooocusに搭載されて欲しいです。

現状では、このデモを導入して使うのが最も無難と言えます。
導入の際は、仮想環境の利用をオススメします。

では、まずモノをクローンすることからです。

git clone https://huggingface.co/spaces/multimodalart/stable-cascade

ダウンロードできたら、ディレクトリを移動しておきます。

cd stable-cascade

ここで、次のファイルを確認できると思います。

requirements.txt

git+https://github.com/kashif/diffusers.git@diffusers-yield-callback
accelerate
safetensors
transformers

PyTorchに関する記載はありませんね。
PyTorchは、自分でインストールする必要があります。

GPU版のPyTorchが必須です。

最新版でも問題ありません。
次のコマンドでWindowsに最新版PyTorch（GPU版）をインストールできます。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

PyTorchがインストールできたら、requirements.txtに以下を記載します。

gradio[oauth]

追加した状態で、次のコマンドを実行。

pip install -r requirements.txt

処理が完了したら、導入自体はOKです。

デモのweb UIを起動させます。
起動させるコマンドは、以下。

python app.py

おそらく、次のエラーが出るはずです。

ModuleNotFoundError: No module named 'spaces'

これは、デモのプログラムがHugging FaceのSpacesで動く前提になっているからです。
そのため、その前提となっている箇所を無効にしましょう。

「app.py」内における次の箇所をコメントにします。

これで、デモを起動できるようになります。
起動に成功すると、モデルのダウンロードが始まります。

このモデルのダウンロードに時間が、かなりかかります。
約13GBほどです。

コンソールに次のように表示されたら、起動成功と言えます。

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.

ブラウザで「http://127.0.0.1:7860」します。
デモと同じ画面を確認できます。

とりあえず、「Example」を選択して、適当にプロンプトを書き替えます。

次のように書き換えて、「Run」ボタンをクリック。

An astronaut riding a blue dog

結果として、次の画像が作成されました。

このときのGPU使用量は、以下。

かなりGPUが利用されることがわかります。