「前のほうが良かった」──Claude Opus 4.8に集まった意外な声

新しいAIモデルが出ると、たいていお祭り騒ぎになります。
ところが今回は、少し様子が違いました。

AnthropicがClaude Opus 4.8を発表しました。
海外の掲示板Redditに、その告知が投稿されました。

2,000を超える支持を集めています。
けれどコメント欄は、称賛と不満が入り混じる場になっていました。

発表されたのは何か

Anthropicの説明によれば、Opus 4.8は前バージョンのOpus 4.7をベースにしています。
判断力がより鋭くなりました。

自分の作業の進み具合について正直になりました。
そして、これまでより長い時間ひとりで作業を続けられるようになったそうです。
しかも価格は据え置きです。

開発者向けのClaude Codeでは、機能の実装やコードの移行、バグの洗い出しといった作業をまるごと任せられます。
あなたは次の仕事に取りかかればいいのです。

その間にClaudeが裏で、その作業を最後まで進めてくれます。
そんな使い方が想定されています。

同時に公開された新機能も、いくつかあります。

Fastモード：同じモデルをおよそ2.5倍の速さで動かせます。しかも従来より3倍安いそうです(研究プレビュー段階)。
動的ワークフロー(Claude Code)：ひとつのセッションの中で、数百ものサブエージェントを並行して走らせます。そして結果を報告する前に、自分でその出来を検証します。
努力レベルの調整(claude.ai)：Claudeがどれだけ考えてから答えるかを、こちらで選べます。

ここまでが、いわば公式の言い分です。
問題はここからです。

「4.7をベースに」という一言への反応

コメント欄でまず目立ったのは、歓迎よりも警戒の声でした。

きっかけは「Opus 4.7をベースにしている」という説明文です。
これを読んだ多くのユーザーが、あまり良い予感がしないと反応しました。

なぜなら、彼らの間では4.7の評判が芳しくなかったからです。
「4.7ではなく、4.6をベースに作ってほしかった」。
そんな意見が、何度も繰り返されていました。

実際、「4.6に戻せなくなるのか」と不安を口にする人もいました。
あるユーザーは、4.7のトーンがどうしても好きになれなかったそうです。

しかも料金が高い。
だから結局ほとんど使わず、4.6を使い続けてきたといいます。

別の人は、4.6を一番気に入っていました。
けれど4.7が出てから使うのをやめてしまいました。
4.8がダメなら解約も考えている、と打ち明けています。

要するに、新しいバージョンほど良くなるとは限りません。
彼らはそういう体験をしてきました。

だから今回も身構えています。
この温度差は、開発側とユーザー側で「良い変化」の感覚がずれていることをよく表しています。

「正直さ」が裏目に出る瞬間

発表文には「自分の進捗について正直になった」という説明がありました。

正直さは美徳です。
けれど、ここにも皮肉な反応が返ってきました。

あるコメントが鋭いのです。
ネガティブな返答のたびに「正直に言うと」と切り出してくる。

それをやめてほしい、というわけです。
正直であること自体は歓迎されています。

ただ、毎回同じ前置きから話し始められると、かえって鼻についてしまいます。
誠実さの演出が、定型句として浮いてしまうのです。

技術的に、もっと踏み込んだ指摘もありました。
あるユーザーが、リポジトリ内のファイルをきちんと見たかとClaudeに問いただしました。
するとClaudeは「見ていませんでした」と認めたそうです。

一見すると、正直に非を認めた良い例に思えます。
しかし、これに対して別のユーザーが本質を突きました。

その「認めた」発言は、過去を思い出して報告したものではない、というのです。
モデルには、自分があの瞬間にファイルを「見た」かどうかの記憶など残っていません。

手元にあるのは、今の文脈だけ。
だから、あなたが過去の行動を問えば、モデルはその場で「きっと見なかったのだろう」と解釈します。

そして、つじつまの合う答えをこしらえます。
つまり、反省ではなく後付けの作り話なのです。

これは、AIと付き合ううえで覚えておきたい視点でしょう。
モデルが過去の自分の行動を語るとき、それは記録ではありません。

推測にすぎないのです。
「正直さ」という言葉に、私たちは少し期待しすぎているのかもしれません。

努力レベルの調整は本当に効くのか

新機能の目玉のひとつ、思考の「努力レベル」を選べる調整機能。
これにも早速、厳しい声が上がりました。

複数のユーザーが、トグルを切り替えても違いが感じられないと報告しています。
「最大」にしても「最小」にしても、モデルが結局あまり考えずに答えてしまう。

深く考えるよう指示しても効かない。
スタイルを設定しても、以前のようにはいかなくなった、というのです。

せっかく選択肢が増えました。
なのに、その選択が無視されているように見えます。
それでは、機能として意味をなしません。

もちろんこれは、一部のユーザーの初期の印象です。
全員の総意ではありません。

ただ、こうした声が複数あがっている点は、気に留めておきたいところです。

数字の上ではどうだったか

評価ベンチマークを自前で持っているユーザーが、興味深い検証結果を共有していました。

その人は自分の実務向けに、十種類以上のテストを用意しています。
そして、各モデルを比べました。

結果から見えてきた傾向は、こうです。
論理的推論を測るテストでも、画像から感情を読み取るテストでも、Opus 4.8が4.6に届きませんでした。

コスト効率の面でも期待外れだったといいます。
一連のテストでは、むしろ古い4.6のほうが上位に来る場面が目立ちました。

ただし、これはあくまで一個人の限られた評価です。
用途によって結果は変わります。

すべての人の使い方に当てはまるわけではありません。
それでも、頭の片隅に置いておく価値はありそうです。

「新しいから優れている」とは限りません。
この一例は、それを示しています。

一方で、使いこなしている人もいる

否定的な声が目立ちます。

その中で、4.7をむしろ高く評価する意見もありました。
これは少数派だと、本人も認めています。

そのユーザーいわく、計画と文書づくりを丁寧にやる人には、4.7のほうが向いているそうです。
実装の質が高いのです。

4.6は良くも悪くも、勝手に判断を進めてしまう傾向があります。
それに対して4.7は、こちらの指示に忠実だといいます。

ただし、それには下準備がありました。
彼は4.7の挙動に合わせて、自分の設定ファイルをすべて書き直しました。

それが大きな差を生んだと語っています。
途中で作業を止めてしまう問題には、悩まされたそうです。

けれど、チェックできる作業リストを渡しました。
さらに「終わるまで作業する」機能を使いました。
それで解消できたといいます。

新しいモデルに不満があるなら、移行ガイドの挙動変更の項を読んでほしい。
そして、自分の使い方のほうを合わせてみる。
それが彼の助言です。

道具が変わったら、使い方も変える。
当たり前のようでいて、見落としがちな視点だと思います。

「とりあえずOpus」をやめてみる

議論の中で、もうひとつ考えさせられる指摘がありました。
多くの人が、何でもかんでも一番強いモデルを使いたがる。
そういう話です。

メールの返信、PDFの要約、SNSの投稿。そういった軽い作業にまで、最上位モデルを使います。
結果として、利用上限にすぐ届いてしまいます。

賢そうに見えるから。
長く考えてくれるから。
けれど本来、すべての作業に最上位の性能はいりません。

軽い仕事は、軽いモデルに任せればいいのです。
最上位は、複雑で多層的な作業のためにとっておきます。

そうすれば、上限にも余裕が生まれます。
実際、サブエージェントに作業を振り分けるとき、Claudeは自動的に下位のモデルへ仕事を回しています。
賢い使い分けは、すでに仕組みの中に組み込まれているのです。

競争と、その先にあるもの

スレッドの後半では、もう少し大きな話題も交わされていました。

ひとつは、競合の存在です。
中国の研究機関が公開している重み付き(オープンウェイト)モデルへの期待が高いのです。

手元のノートパソコンで快適に動く高性能なモデル。
それが来年あたり出てくれないか、という願いが語られていました。

クラウドに頼らず、自分の機械で動かせる。
そうなれば、コストも自由度もまるで変わってきます。

もうひとつは、噂される大型の新モデルへの冷静な見方です。
あるユーザーは、こう指摘します。

巨大なモデルが本当に出たとして、それは膨大な計算資源と電力を食うはずだ、と。
提供側は、まだ十分な利益を出せていません。
その現状で、月額300ドルから500ドルといった料金を、私たちは受け入れられるでしょうか。

そして印象的だったのが、今のAI業界を「薬物」にたとえた一節です。

3、4か月ごとに新しいモデルが出ます。
みんな飛びつき、夢中になります。

やがて次の発表が近づくと、供給側がそっと性能を絞る。
すると、新しいモデルがより強力に感じられる。

気づけば自分も一番の中毒者かもしれない、と本人は苦笑していました。
もちろん誇張ではあります。

けれど、絶え間ない小刻みな更新に振り回される感覚。
これにうなずく人も、多いのではないでしょうか。

まとめ

Claude Opus 4.8の登場をめぐる議論を、追ってみました。
すると、新モデルの発表が必ずしも素直な祝福で迎えられるわけではない現実が見えてきます。

速度、価格、自律性。スペック表の進歩と、使う人が日々感じる「使いやすさ」。
この二つは、別物として動いています。

ひとつだけ、確かに役立ちそうな教訓を挙げます。
モデルが過去の自分の行動を語るとき、それを記憶だと思い込まないこと。

AIが差し出す「正直な反省」は、その場で組み立てられた推測かもしれません。
便利な道具として頼る。
けれど、最後の判断は自分で握っておく。
新しいモデルとの付き合い方は、結局そこに行き着くのだと思います。