単価が安い=お得、ではなかった。AIコストの落とし穴

単価が安い=お得、ではなかった。AIコストの落とし穴 AI

AIのモデルを選ぶとき、多くの人はまず公式の価格表を見比べます。
1Mトークンあたりいくら。

その数字が小さいほうを選べば、コストも抑えられる。
そう考えるのは、ごく自然なことでしょう。

ところが、Redditであるベンチマーク結果が話題になっていました。
実際のコーディングエージェントの作業を、約3,300回も走らせて測ったそうです。
すると、価格表から予想される順位とは違う結果になりました。

今回は、その投稿で共有されていたデータをもとに、AIのコストがどこで決まるのかを掘り下げます。

価格表どおりにはならなかった

投稿者が比較したのは、Geminiの複数のモデルです。
中でも目を引いたのが、次の2つの結果でした。

  • Gemini 3.1 Pro:スコア87.9、1タスクあたり$0.66
  • Gemini 3.5 Flash:スコア88.6、1タスクあたり$1.05

スコアの差はわずか0.7ポイント。
ほぼ互角と言っていいでしょう。

ところがコストを見ると、Flashのほうが約59%も高くついていました。

ここで不思議なのが、入力トークンの単価です。
Gemini 3.1 Proのほうが、3.5 Flashよりも単価は高く設定されていました。

つまり、単価が高いはずのモデルが、タスク全体では安く済んでいるのです。
普通に考えると逆ではないか、と感じますよね。

答えはエージェントのログにあった

なぜこんなことが起きるのか。
理由は、モデルがタスクを解くまでに「どれだけ処理したか」にありました。

ログを見ると、両者の振る舞いには大きな差があります。

  • Gemini 3.1 Pro:平均26ターン、1タスクあたり約65万トークンの入力
  • Gemini 3.5 Flash:平均39ターン、1タスクあたり約140万トークンの入力

Flashは、同じくらいのスコアを出すのに、Proの倍以上のトークンを読み込んでいました。
しかも、やり取りの回数も多い。

単価がどれだけ安くても、処理する量がここまで膨らめば話は別です。
結果として、最終的な請求額は逆転してしまいます。

トークン単価は、あくまで「1単位あたりの値段」にすぎません。
実際に支払うのは、単価×消費量です。
だから、消費量を無視して単価だけ眺めると、判断を誤ってしまうのです。

スキルを足すと差が広がった

投稿には、もう一つ興味深い結果がありました。
レジストリから関連するスキルをモデルに与えたときの変化です。

Gemini 3.1 Proは、スキルを加えるとコストが約23%下がりました。
しかも、スコアは大きく伸びています。
一方でFlash系のモデルは、伸びも小さく、コスト削減もほとんど見られなかったそうです。

同じ追加情報を渡しても、それを活かせるモデルと、活かしきれないモデルがある。
この差は、モデル選びを考えるうえで見逃せないポイントでしょう。

同じ現象は他のモデルでも

コメント欄でも、似た経験が共有されていました。

あるユーザーは、まったく別のモデル同士を比べてこう報告しています。
Sonnet 4.6(1Mあたり入力$3・出力$15)とQwen 3.7 Max(1Mあたり入力$1.25・出力$3.75)。

単価だけ見ればQwenが圧倒的に安い。
それでも実際のタスクでは、Sonnetのほうがずっと安く済んだそうです。

別のコメントでは、Geminiの3 Flash previewが取り上げられていました。
3.5 Flashと比べて、性能の落ち込みは5%未満。

それなのに、コストは10分の1ほどだといいます。
コストパフォーマンスでは頭一つ抜けている、という声もありました。

「安いトークンが、安いタスクとは限らない」。
投稿者のこの一言が、議論全体をうまく言い表しています。

では、どう選べばいいのか

ここから言えることは、いたってシンプルです。
価格表の単価だけでモデルを決めない、ということ。

特にエージェントのような使い方では、何ターンもやり取りを重ねて作業を進めます。
すると、ターン数と総トークン量がじわじわ効いてくるのです。

賢いモデルが少ない手数で片づけてくれるなら、単価が高くても結果的に安い。
逆に、安いモデルが遠回りを繰り返せば、請求額はどんどん膨らんでいきます。

迷ったら、自分の使い方に近いタスクで一度走らせてみてください。
そして、1タスクあたりの実コストを測るのです。
カタログの数字よりも、その実測値のほうがずっと信頼できます。

まとめ

トークン単価の安さは、コストの一面でしかありません。
本当に効いてくるのは、モデルがタスクを解くまでに消費するトークンの総量と、やり取りの回数です。

今回紹介したReddit上のベンチマークは、その点をはっきり示していました。
単価で見れば高いはずのモデルが、実際のタスクでは安く済む。
そんな逆転が、いくつものモデルで起きていたのです。

モデルを選ぶときは、価格表を眺めるだけで終わらせないこと。
自分の用途で実際に動かし、1タスクあたりのコストで比べてみる。
その一手間が、思わぬ無駄を防いでくれます。

なお、本記事で挙げた数値は、あくまでReddit上で共有されたベンチマーク結果です。
利用する環境やタスクの内容によって、結果は変わります。
気になる方は、ご自身の環境で確かめてみてください。

タイトルとURLをコピーしました