AIのモデルを選ぶとき、多くの人はまず公式の価格表を見比べます。
1Mトークンあたりいくら。
その数字が小さいほうを選べば、コストも抑えられる。
そう考えるのは、ごく自然なことでしょう。
ところが、Redditであるベンチマーク結果が話題になっていました。
実際のコーディングエージェントの作業を、約3,300回も走らせて測ったそうです。
すると、価格表から予想される順位とは違う結果になりました。
今回は、その投稿で共有されていたデータをもとに、AIのコストがどこで決まるのかを掘り下げます。
価格表どおりにはならなかった
投稿者が比較したのは、Geminiの複数のモデルです。
中でも目を引いたのが、次の2つの結果でした。
- Gemini 3.1 Pro:スコア87.9、1タスクあたり$0.66
- Gemini 3.5 Flash:スコア88.6、1タスクあたり$1.05
スコアの差はわずか0.7ポイント。
ほぼ互角と言っていいでしょう。
ところがコストを見ると、Flashのほうが約59%も高くついていました。
ここで不思議なのが、入力トークンの単価です。
Gemini 3.1 Proのほうが、3.5 Flashよりも単価は高く設定されていました。
つまり、単価が高いはずのモデルが、タスク全体では安く済んでいるのです。
普通に考えると逆ではないか、と感じますよね。
答えはエージェントのログにあった
なぜこんなことが起きるのか。
理由は、モデルがタスクを解くまでに「どれだけ処理したか」にありました。
ログを見ると、両者の振る舞いには大きな差があります。
- Gemini 3.1 Pro:平均26ターン、1タスクあたり約65万トークンの入力
- Gemini 3.5 Flash:平均39ターン、1タスクあたり約140万トークンの入力
Flashは、同じくらいのスコアを出すのに、Proの倍以上のトークンを読み込んでいました。
しかも、やり取りの回数も多い。
単価がどれだけ安くても、処理する量がここまで膨らめば話は別です。
結果として、最終的な請求額は逆転してしまいます。
トークン単価は、あくまで「1単位あたりの値段」にすぎません。
実際に支払うのは、単価×消費量です。
だから、消費量を無視して単価だけ眺めると、判断を誤ってしまうのです。
スキルを足すと差が広がった
投稿には、もう一つ興味深い結果がありました。
レジストリから関連するスキルをモデルに与えたときの変化です。
Gemini 3.1 Proは、スキルを加えるとコストが約23%下がりました。
しかも、スコアは大きく伸びています。
一方でFlash系のモデルは、伸びも小さく、コスト削減もほとんど見られなかったそうです。
同じ追加情報を渡しても、それを活かせるモデルと、活かしきれないモデルがある。
この差は、モデル選びを考えるうえで見逃せないポイントでしょう。
同じ現象は他のモデルでも
コメント欄でも、似た経験が共有されていました。
あるユーザーは、まったく別のモデル同士を比べてこう報告しています。
Sonnet 4.6(1Mあたり入力$3・出力$15)とQwen 3.7 Max(1Mあたり入力$1.25・出力$3.75)。
単価だけ見ればQwenが圧倒的に安い。
それでも実際のタスクでは、Sonnetのほうがずっと安く済んだそうです。
別のコメントでは、Geminiの3 Flash previewが取り上げられていました。
3.5 Flashと比べて、性能の落ち込みは5%未満。
それなのに、コストは10分の1ほどだといいます。
コストパフォーマンスでは頭一つ抜けている、という声もありました。
「安いトークンが、安いタスクとは限らない」。
投稿者のこの一言が、議論全体をうまく言い表しています。
では、どう選べばいいのか
ここから言えることは、いたってシンプルです。
価格表の単価だけでモデルを決めない、ということ。
特にエージェントのような使い方では、何ターンもやり取りを重ねて作業を進めます。
すると、ターン数と総トークン量がじわじわ効いてくるのです。
賢いモデルが少ない手数で片づけてくれるなら、単価が高くても結果的に安い。
逆に、安いモデルが遠回りを繰り返せば、請求額はどんどん膨らんでいきます。
迷ったら、自分の使い方に近いタスクで一度走らせてみてください。
そして、1タスクあたりの実コストを測るのです。
カタログの数字よりも、その実測値のほうがずっと信頼できます。
まとめ
トークン単価の安さは、コストの一面でしかありません。
本当に効いてくるのは、モデルがタスクを解くまでに消費するトークンの総量と、やり取りの回数です。
今回紹介したReddit上のベンチマークは、その点をはっきり示していました。
単価で見れば高いはずのモデルが、実際のタスクでは安く済む。
そんな逆転が、いくつものモデルで起きていたのです。
モデルを選ぶときは、価格表を眺めるだけで終わらせないこと。
自分の用途で実際に動かし、1タスクあたりのコストで比べてみる。
その一手間が、思わぬ無駄を防いでくれます。
なお、本記事で挙げた数値は、あくまでReddit上で共有されたベンチマーク結果です。
利用する環境やタスクの内容によって、結果は変わります。
気になる方は、ご自身の環境で確かめてみてください。
