HelloWorld4.0は、blip+clipによるタグ付けからGPT4Vによるタグ付けへの進行形バージョンです。
まず、用語を整理しておきましょう。
blipについては、以下の記事を参考にしてください。
clipについては、次の記事で説明しています。
GPT4Vとは、GPT-4Vのことになります。
ChatGPTで課金しないと利用できない機能です。
言う間でもなく、GPT-4Vによるタグ付けの方が優秀です。
HelloWorld4.0では、GPT-4Vによるタグ付けトレーニングセットが前バージョンより倍になっています。
4000枚から8000枚に倍増しているということです。
そして、進行形ということで、まだまだ真価を発揮しているわけではないともアピールされています。
バージョンアップすればするほど、GPT-4Vによるタグ付けの効果は出ると言うことです。
では、HelloWorld4.0を利用する価値はないのでしょうか?
いやいや、手出力恐怖症の方は是非とも使ってみてください。
他のモデルと違って、手が出力されることに怯えなくて済みます。
SDXLで最も人気のあるJuggernaut XLも、かなり手を綺麗に出すようにはなっています。
HelloWorld4.0はそれを上回っているかもという感覚です。
あくまで、主観なんで数値的な裏付けはありません。
そうは言っても、まだまだ手が破綻することはあります。
ただ、その破綻具合や破綻率が全然マシと言えます。
あと、同じ顔の再現率が高いように感じるのですよね。
同じようなことを他のモデルで試しても、なかなかここまでは同じようにはなりません。
あと、HelloWorld4.0はアジア人の出力も得意としているようです。
アジア人の出力と言えば、個人的にBRAシリーズには期待しています。
でも、なかなかSDXL版が出ません。
そのこともあり、HelloWorld SDXLをもっと追いかけてみようと考えています。