「ハルシネーション率91%」は嘘だった？AIベンチマークの数字トリックを暴く

「Gemini Flashは答えを知らないとき、91%の確率でデタラメを答える」

こんな衝撃的な見出しがSNSで話題になりました。
この数字だけ見ると、Geminiは信頼できないモデルに見えます。
しかし、実際のベンチマークデータを詳しく見ると、話はそう単純ではありませんでした。

本記事では、Redditで議論されたOmniscienceベンチマークの結果を題材にします。
そして、AIのハルシネーション指標を正しく読み解く方法について解説します。

91%という数字の正体

まず、この91%という数字が何を意味するのかを理解しましょう。

ベンチマークでは、モデルが正解を出せなかったケースに注目しています。
Gemini 3 Flashの場合、全体の45%の質問に正解できませんでした。

では、問題の91%とは何か。
それは「不正解だった45%」のうち、モデルが「わからない」と言わずに誤った回答を出した割合です。

つまり、「すべての回答のうち91%がハルシネーション」ではありません。
「間違えた時の91%がハルシネーション」だったのです。

全体の回答に対するハルシネーション率を計算してみましょう。
45% × 91% = 約41%となります。

同じベンチマークで、他のモデルの結果も見てみます。

GPT-5.2は正解率41%でした。
間違えた59%のうち78%がハルシネーション。
全体のハルシネーション率は約46%になります。

Claude Opus 4.5は正解率43%でした。
間違えた57%のうち58%がハルシネーション。
全体では約33%のハルシネーション率です。

ここで驚くべき事実があります。
「91%」という衝撃的な数字を叩き出したGemini Flash 3は、実は最も高い正解率を持っていました。

しかも、全体のハルシネーション率ではGPT-5.2よりも低かったのです。

もう一つ見落とされがちな点があります。
このベンチマークでは、Google検索によるグラウンディング機能がオフでした。

Geminiは通常、回答生成時にGoogle検索を活用します。
これによりファクトチェックを行っています。

この機能をオフにしてテストするのは、エンジンを切った状態で車の性能を評価するようなものかもしれません。
なお、GeminiのWebアプリやモバイルアプリでは、この検索グラウンディング機能はデフォルトで有効です。

このベンチマーク結果は、AIモデルの設計思想の違いを浮き彫りにしています。

Redditのあるユーザーが興味深い分析を共有していました。
AIの開発には「HHH」と呼ばれる概念があります。

この3つすべてを100%満たすのは非常に難しいとされています。

Googleは「役立つこと」を優先したアプローチを取っているようです。
たとえ一部が不正確でも、ユーザーが編集・修正できる叩き台を提供する。
そんな戦略といえます。

一方、AnthropicのClaudeは「正直であること」を優先しています。
確信が持てない場合は「わからない」と答える傾向が強いです。

作業が中断する可能性はあります。
しかし、誤情報のリスクは下がります。

どちらが優れているかは、用途によって異なるでしょう。

この事例から学べる重要な教訓があります。
ベンチマークの数字を一部だけ切り取ると、全く異なる印象を与えてしまうということです。

91%というハルシネーション率だけを見ると、Geminiは最悪のモデルに見えます。
しかし、正解率や総合スコアを含めた全体像を見ると、むしろトップクラスの性能を示していました。

実際、Omniscienceベンチマークの総合スコアでは、Gemini 3 ProとFlashが上位にランクインしています。

では、私たちはどのようにAIを使えばよいのでしょうか。

まず、どのモデルを使う場合でも、出力結果の検証は必須です。
あるコメントでは次のような指摘がありました。
「検証なしでAIの出力を使うのは、経験のない法学生にレビューなしで契約書を書かせるようなものだ」と。

次に、用途に応じてモデルを選ぶことが大切です。
スピードと幅広い知識が必要な場合はGemini。
慎重さと確実性が求められる場合はClaude。
このように、特性を理解した上で使い分けるのが賢明でしょう。

また、Web検索機能やRAGなど、外部知識を参照できる機能は積極的に活用すべきです。
学習データにない情報への対応力が大幅に向上します。

AIのベンチマーク結果を読む際は、数字の定義と文脈を正確に理解することが不可欠です。

91%という数字は確かに衝撃的でした。
しかし、それは「全回答の91%が嘘」という意味ではありません。

「間違えた時の91%が推測による回答」という意味だったのです。
そして、間違える頻度自体は他のモデルより低かったという事実も見逃せません。

センセーショナルな見出しに惑わされず、データの全体像を把握する姿勢が求められています。
これは、AI時代のリテラシーといえるでしょう。

ベンチマークは一つの指標に過ぎません。
自分の用途に合ったモデルを、実際に試しながら選んでいく。
それが最善のアプローチではないでしょうか。