【Stable Diffusion】ディズニー風の画像を作成するモデル

【Stable Diffusion】ディズニー風の画像を作成するモデル 機械学習

「デイズニー風の画像を作成したい」
「Stable Diffusionでファインチューニングされたモデルを利用したい」

このような場合には、Mo Di Diffusionがオススメです。
この記事では、Mo Di Diffusionを用いた画像生成について解説しています。

本記事の内容

  • Mo Di Diffusionとは?
  • Mo Di Diffusionの利用方法
  • Mo Di Diffusionの動作検証

それでは、上記に沿って解説していきます。

Mo Di Diffusionとは?

Mo Di Diffusionとは、デイズニー風の画像が作成できるStable Diffusionのモデルになります。
公式ページでは、ゲームキャラをディズニー風にした画像が紹介されています。

確かに、ディズニーに出てきそうなキャラに見えます。
このMo Di Diffusionは、DreamBoothを使って学習したようです。

DreamBoothについては、次の記事で説明しています。

DreamBoothを使えば、大量の画像を必要とせずにファインチューニングが可能です。
そのため、それほど大量の画像を用いずにMo Di Diffusionは作成されたと思われます。

キャラだけではなく、自動車や風景も対象にできるようです。

なお、昔懐かしいディズニーを求めている場合は次の記事をご覧ください。

以上、Mo Di Diffusionについて説明しました。
次は、Mo Di Diffusionの利用方法を説明します。

Mo Di Diffusionの利用方法

Stable Diffusionを動かせる環境が、必要です。
Google Colabではなくローカル環境で動かす場合は、次の記事が参考になります。

Stable Diffusionが動くなら、公式に載っているコードでMo Di Diffusionを利用できます。

from diffusers import StableDiffusionPipeline
import torch

model_id = "nitrosocke/mo-di-diffusion"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a magical princess with golden hair, modern disney style"
image = pipe(prompt).images[0]

image.save("./magical_princess.png")

ポイントは、「modern disney style」をプロンプトに含むことです。
それ以外は、普通にStable Diffusionを利用するのと変わりません。

また、GPUに余裕があれば、「float16」は「float32」でもよいでしょう。

初めてMo Di Diffusionを利用する場合は、モデルのダウンロードが始まります。
そのファイル容量が、全部で5.1GBほどです。

そのため、ディスク容量の空きには十分に注意しましょう。
モデルの保存先については、Windowsの場合は次の記事内で説明しています。

上記記事内の「モデルのダウンロードについて」という箇所をご覧ください。

以上、Mo Di Diffusionの利用方法を説明しました。
次は、Mo Di Diffusionの動作検証を説明します。

Mo Di Diffusionの動作検証

動作検証と言っても、大袈裟なことではありません。
Mo Di Diffusionを用いて、作成できた画像を載せているだけです。

人を対象にする場合は、世界レベルの有名人である必要がありますね。
それは、Mo Di Diffusionと言うよりはStable Diffusionにおける問題になります。

アニメやゲームのキャラは比較的容易にディズニー風になります。
もちろん、これも世界的に知名度がないとダメでしょう。

それに対して、実在する人物はなかなか難しいところがあります。
3等身のキャラになる確率は、結構低いです。
もしかしたら、プロンプトを工夫すればその確率を上げることができるのかもしれません。

結局のところ、対策としては試行回数を重ねるしかないでしょう。
そもそも、Stable Diffusion自体がそういうモノと言えます。

なお、「modern disney style」をプロンプトに含めなければ普通に画像が生成されます。
普通にとは、ディズニー風ではない画像ということです。

上の画像が、Mo Di Diffusionを利用した場合と利用しない場合の比較画像になります。
プロンプトは、「a dog」がベースです。

このプロンプトに「modern disney style」を付加するかどうかの違いになります。
画像作成の際に、SEEDを固定しています。

こうやって比較すると、確かにディズニー風の効果を確認しやすいです。

以上、Mo Di Diffusionの動作検証を説明しました。

タイトルとURLをコピーしました