GPT-4Vで拒否されるコンテンツを画像分析する方法

「GPT-4Vで『Sorry, I cannot help with that.』とすぐに言われてしまう・・・」
「NSFWな画像を説明するテキストを自動出力したい」

このような場合には、この記事の内容が参考になります。
この記事では、GPT-4Vで拒否されるコンテンツを画像分析する方法を解説しています。

本記事の内容

GPT-4Vによるコンテンツ制限
Fuyu-8Bによる制限なしの画像分析

それでは、上記に沿って解説していきます。

GPT-4Vによるコンテンツ制限

GPT-4Vに画像をアップロードした際、このように返答されたことがありませんか？
NSFWのコンテンツであるなら、それはまだ理解できます。

そして、海外のセレブと言われる人々もアウトです。
これもわかります。

同じように、日本の芸能人の写真もアウトになることがあります。
日本の有名人まで判別できるのが、単純にスゴイと感じます。

さらには、パブリックドメインの画像ですらNGとなります。
トランプ元大統領とバイデン大統領の画像が、両方とも拒否されます。

これは、政治的要素がコンテンツポリシーに含まれるからなのでしょうかね。
そうだとしても、GPT-4VはNGが多過ぎます。

それでもGPT-4Vは便利であるため、利用しています。

ただ、次のような画像すらもNGにするのはどうかと思います。

この画像は、基本的には自由に利用して良いはずです。
https://www.pexels.com/ja-jp/photo/458766/

そして、おそらくこの女性は政治には無関係でしょう。
ただ、この画像はネット上に溢れかえっています。

著作権フリーで良い写真のため、多くのサイトで利用されています。
おそらく、このことから有名人・著名人と判定されているのかもしれません。

そうではなく、もしかしたらGPT-4Vの基準ではNSFWコンテンツに該当している可能性もあります。
ただ、本当のところはわかりません。

とにかく、この画像もGPT-4VではNGになるという事実があります。

以上、GPT-4Vによるコンテンツ制限について説明しました。
次は、Fuyu-8Bによる制限なしの画像分析を説明します。

Fuyu-8Bによる制限なしの画像分析

Fuyu-8Bは、オープンソース的（厳密にはオープンソースではない）なGPT-4Vと言えます。
Fuyu-8Bについては、次の記事でインストール方法含めて説明しています。

ここでは、上記記事内で説明しているツールを利用します。
ツールを起動したら、「Image Captioning」タブを開きます。

まずは、GPT-4Vで拒否された画像をアップロードします。
このとき、「Enable detailed captioning」にもチェックを入れます。

そして、「Generate Caption」ボタンをクリックします。
そうすると、画像の説明が「Output」に出力されます。

The image features a beautiful young woman with brown hair, wearing an orange blouse, and posing for the camera. She is leaning on a couch, with her chin resting on her hand and resting her elbow on her shoulder. The woman is wearing an elegant pair of earrings, adding a touch of sophistication to her

次は、これもGPT-4Vに拒否されたトランプ元大統領を試します。

The image features a man wearing a suit and tie, standing in front of an American flag. He is smiling and appears to be in a good mood. The background features another American flag, which can be seen behind the man.

説明の中に、「トランプ」という固有名詞は含まれていません。

一応、NSFWコンテンツも試しておきます。
結果は、以下で確認できます。
https://note.com/self_development/n/nb9e7dfe4a0ed

このように、Fuyu-8Bでは何でも対象にすることが可能です。

以上、Fuyu-8Bによる制限なしの画像分析を説明しました。