【Stable Diffusion】謎のモデルによるアート写真画像の生成

【Stable Diffusion】謎のモデルによるアート写真画像の生成 機械学習

「シンプルなプロンプトで簡単に綺麗な画像を生成したい」
「アート写真のような画像を簡単に作成したい」

このような場合には、photorealistic-fuen-v1がオススメです。
この記事では、photorealistic-fuen-v1について解説しています。

本記事の内容

  • photorealistic-fuen-v1とは?
  • photorealistic-fuen-v1の利用方法
  • photorealistic-fuen-v1の動作検証

それでは、上記に沿って解説していきます。

photorealistic-fuen-v1とは?

アート写真のような画像だと思いませんか?
そこまで言わなくても、単純にハイレベルな画像ではないでしょうか?

馬の画像以外は、「cyber city」「forest」「river」だけで生成しています。
ゴチャゴチャと呪文のようにプロンプトを長くする必要がありません。
それでいて、これだけの綺麗な画像を作成できるのです。

こんなことを簡単にできるのが、photorealistic-fuen-v1というモデルになります。
photorealistic-fuen-v1は、Stable Diffusion v1.5をベースにファインチューニングされています。

公式ページは、Hugging Face上に次のページがあります。

claudfuen/photorealistic-fuen-v1 · Hugging Face
https://huggingface.co/claudfuen/photorealistic-fuen-v1

しかし、現時点では何も説明がありません。
それなのに、ダウンロード数が3万オーバーです。

「photorealistic-fuen」をGoogleやTwitterで検索しても、それらしきモノは何も出てきません。

また、Redditでも何もヒットしない状況です。

つまり、謎のモデルと言えます。
ただ、モデル所有者のTwitterアカウントがHugging Face上で登録されていました。

どうやら、この方は次のサービスの創設者らしいです。
プロフィールに記載されています。

Noonshot: Launch an NFT shop in minutes.
https://www.noonshot.com/

サービス内容は、日本語だと以下となります。

コード不要で数分でカスタムWeb3サイト/ショップを立ち上げられます。
競合他社に差をつけましょう。NFTの販売、プライベートマーケットプレイスの開設、トークンゲートページの構築など。

しかし、サービスの利用が現段階ではできません。
順番待ちしないとダメとのことです。

したがって、現状ではこれ以上の情報はありません。
今後は、情報が出てくるかもしれません。

ここからは、完全に仮説です。
photorealistic-fuen-v1は、Noonshotというサービス内でのみ情報があるのかもしれません。

NFTを販売できるようなことが記載されていました。
このことから、NFT作成支援のためにphotorealistic-fuen-v1が配布されている可能性が考えられます。

Hugging Face上に設置してあるのは、Diffusersで簡単に利用できるからという理由です。
これもあくまで推測に過ぎません。

以上、photorealistic-fuen-v1について説明しました。
次は、photorealistic-fuen-v1の利用方法を説明します。

photorealistic-fuen-v1の利用方法

Stable Diffusionを動かせる環境が、必要です。
Google Colabではなくローカル環境で動かす場合は、次の記事が参考になります。

Stable Diffusionが動くなら、次のコードでphotorealistic-fuen-v1を利用できます。

from diffusers import StableDiffusionPipeline
import torch

model_id = "claudfuen/photorealistic-fuen-v1"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "<fuenPhoto> animal in the jungle"
image = pipe(prompt).images[0]

image.save("./test.png")

ポイントは、「 <fuenPhoto> 」をプロンプトに含むことです。

初めてphotorealistic-fuen-v1を利用する場合は、モデルのダウンロードが始まります。
そのファイル容量は、全部で3.97GBほどです。

上記コードを実行すると、test.pngが作成されます。

test.png

なお、当初は「 <fuenPhoto> 」をプロンプトに含むことがわかりませんでした。
「 <fuenPhoto> 」がない場合、若干綺麗な画像という感じになります。

「こんな程度で3万ダウンロードはあり得ない・・・」
このように疑いながら、以下ページの各ファイルを確認しました。

claudfuen/photorealistic-fuen-v1 at main
https://huggingface.co/claudfuen/photorealistic-fuen-v1/tree/main

ここに「args.json」というファイルが、あります。
このファイルに、次のように記載されています。

また、同じ階層には「samples」というディレクトリが存在しています。

「samples」において、画像を4枚確認できます。

画像は、次のようなモノになります。

「 <fuenPhoto> 」を含むと、このような画像が作成できることは確認済みです。
このように、検証して答え合わせをしている状況になります。

あくまで、結果論で「 <fuenPhoto> 」が効果的だと言っているに過ぎません。

以上、photorealistic-fuen-v1の利用方法を説明しました。
次は、photorealistic-fuen-v1の動作検証を説明します。

photorealistic-fuen-v1の動作検証

photorealistic-fuen-v1は、ハイレベルな画像を生成してくれます。
このモデルでセレブの画像を生成したら、さぞかしいいモノができるのだろうと思いませんか?

画像生成における鉄板セレブであるキアヌ・リーヴスとエマ・ワトソンを作成してみました。
しかし、結果は想定外の結果となりました。。。

その結果は、ここから確認できます。
グロではないですが、個人的に気持ち悪いのでnoteにアップしています。

こんな形でセレブの画像生成をブロックするのは、初めて見ました。
ブロック対象となるセレブの顔画像を学習させているのでしょうかね?

人間の顔画像自体をブロックしている可能性は、低いと言えます。
その証拠に、「man」や「woman」ではブロックされずに画像が生成されます。

「手」に関しては、他のモデルよりは上手く描画している方だと思います。
あと、日本人女性を綺麗に描けるのでしょうか?

簡単なプロンプトで描くことが可能です。
しかし、顔が崩れる確率が高いように感じます。

綺麗な日本人女性を描くなら、次のようなモデルの方が打率は高いでしょう。

正直、photorealistic-fuen-v1については謎が多いです。
今後、非公開になる可能性も否定できません。

動作検証をしてみた感じでは、他のモデルと結合するのも面白いと思います。
手をそこそこ上手く描画できるのは、武器になるはずです。

以上、photorealistic-fuen-v1の動作検証を説明しました。

タイトルとURLをコピーしました