「GPT-4Vで『Sorry, I cannot help with that.』とすぐに言われてしまう・・・」
「NSFWな画像を説明するテキストを自動出力したい」
このような場合には、この記事の内容が参考になります。
この記事では、GPT-4Vで拒否されるコンテンツを画像分析する方法を解説しています。
本記事の内容
- GPT-4Vによるコンテンツ制限
- Fuyu-8Bによる制限なしの画像分析
それでは、上記に沿って解説していきます。
GPT-4Vによるコンテンツ制限
GPT-4Vに画像をアップロードした際、このように返答されたことがありませんか?
NSFWのコンテンツであるなら、それはまだ理解できます。
そして、海外のセレブと言われる人々もアウトです。
これもわかります。
同じように、日本の芸能人の写真もアウトになることがあります。
日本の有名人まで判別できるのが、単純にスゴイと感じます。
さらには、パブリックドメインの画像ですらNGとなります。
トランプ元大統領とバイデン大統領の画像が、両方とも拒否されます。
これは、政治的要素がコンテンツポリシーに含まれるからなのでしょうかね。
そうだとしても、GPT-4VはNGが多過ぎます。
それでもGPT-4Vは便利であるため、利用しています。
ただ、次のような画像すらもNGにするのはどうかと思います。
この画像は、基本的には自由に利用して良いはずです。
https://www.pexels.com/ja-jp/photo/458766/
そして、おそらくこの女性は政治には無関係でしょう。
ただ、この画像はネット上に溢れかえっています。
著作権フリーで良い写真のため、多くのサイトで利用されています。
おそらく、このことから有名人・著名人と判定されているのかもしれません。
そうではなく、もしかしたらGPT-4Vの基準ではNSFWコンテンツに該当している可能性もあります。
ただ、本当のところはわかりません。
とにかく、この画像もGPT-4VではNGになるという事実があります。
以上、GPT-4Vによるコンテンツ制限について説明しました。
次は、Fuyu-8Bによる制限なしの画像分析を説明します。
Fuyu-8Bによる制限なしの画像分析
Fuyu-8Bは、オープンソース的(厳密にはオープンソースではない)なGPT-4Vと言えます。
Fuyu-8Bについては、次の記事でインストール方法含めて説明しています。
ここでは、上記記事内で説明しているツールを利用します。
ツールを起動したら、「Image Captioning」タブを開きます。
まずは、GPT-4Vで拒否された画像をアップロードします。
このとき、「Enable detailed captioning」にもチェックを入れます。
そして、「Generate Caption」ボタンをクリックします。
そうすると、画像の説明が「Output」に出力されます。
The image features a beautiful young woman with brown hair, wearing an orange blouse, and posing for the camera. She is leaning on a couch, with her chin resting on her hand and resting her elbow on her shoulder. The woman is wearing an elegant pair of earrings, adding a touch of sophistication to her
次は、これもGPT-4Vに拒否されたトランプ元大統領を試します。
The image features a man wearing a suit and tie, standing in front of an American flag. He is smiling and appears to be in a good mood. The background features another American flag, which can be seen behind the man.
説明の中に、「トランプ」という固有名詞は含まれていません。
一応、NSFWコンテンツも試しておきます。
結果は、以下で確認できます。
https://note.com/self_development/n/nb9e7dfe4a0ed
このように、Fuyu-8Bでは何でも対象にすることが可能です。
以上、Fuyu-8Bによる制限なしの画像分析を説明しました。