AMD AI責任者が暴いたClaude Codeの品質崩壊:7,000セッションが語る「静かな劣化」の全貌

AMD AI責任者が暴いたClaude Codeの品質崩壊:7,000セッションが語る「静かな劣化」の全貌 AI

「モデルが劣化しているのか、それとも自分のプロンプトが悪いのか」
2026年3月以降、Claude Codeを業務で使うエンジニアの多くが、この疑問に苦しんでいました。

コードを読まずに編集する。
ファイル全体を丸ごと書き換える。
タスクを途中で放棄する。
体感としては明らかにおかしい。

でも、証拠がありません。
そしてAnthropicも、公式には何も認めていませんでした。

そんな状況を一変させたのが、AMDのAIグループ責任者であるStella Laurenzo氏です。
彼女は2026年4月2日、Claude CodeのGitHubリポジトリにIssue #42796を投稿しました。

その内容は、約7,000セッション分のログデータに基づく定量分析です。
Redditではこの投稿が1,600以上のスコアを獲得し、コミュニティ全体を巻き込む議論へと発展しています。

本記事では、このRedditスレッドの投稿とコメント群、および関連する報道を参考に、何が起きたのかを整理します。

データが示す品質崩壊の実態

Laurenzo氏の分析が衝撃的だったのは、「感覚」ではなく「数字」で語った点にあります。

分析の対象は、2026年1月末から4月初旬までの6,852セッションです。
そこには234,760のツール呼び出しと17,871の思考ブロックが含まれていました。
チームはC言語やMLIR、GPUドライバといった複雑なシステムプログラミングを扱っており、50以上の同時エージェントセッションでClaude Codeを使っていたそうです。

高品質期(1月末〜2月上旬)、モデルは編集前に平均6.6回のファイル読み取りを行っていました。
対象ファイルを読み、関連ファイルを調べ、grepで使用箇所を検索する。
さらにヘッダやテストを確認してから、ようやく精密な編集に取りかかる。職人的な仕事の進め方です。

ところが劣化期に入ると、この比率は2.0まで落ちています。
3回に1回は、対象ファイルすら読まずに編集している状態です。ファイル全体の書き換え(Write操作)の割合も、4.9%から10%超へと倍増しました。
つまり、差分ベースの精密な修正の代わりに、雑な全体上書きが常態化していたのです。

思考の深さを示す指標も激しく低下しています。
高品質期に約2,200文字あった思考ブロックの中央値は、2月末に約720文字まで落ちました。

67%の減少です。
さらに3月初旬には560文字まで縮んでいます。

「思考の隠蔽」をめぐるタイムライン

Redditの投稿で特に注目を集めたのが、Anthropicによる「思考内容の非表示化(redact-thinking)」の導入タイムラインです。

Laurenzo氏のセッションデータによれば、3月4日時点ではユーザーに見える思考内容は100%でした。
それが3月5日に98.5%、3月7日に75.3%へ低下。

そして3月8日には41.6%まで急落し、3月10〜11日には1%未満になります。
3月12日以降、ユーザーはモデルの思考プロセスを一切見られなくなりました。

わずか8日間で、思考の可視性が100%からゼロになったことになります。

ただし、重要な点があります。
思考の深さの低下そのものは、この非表示化より前から始まっていました。

2月中旬、思考内容がまだ完全に見えていた時期に、すでに67%の低下が発生しています。
つまり、非表示化はあくまで「劣化を見えなくした」にすぎません。
劣化の原因そのものではない可能性が高いのです。

では、何が原因なのか。
技術的には二つの変更が指摘されています。

一つは、2月9日のOpus 4.6リリースです。
このリリースで「アダプティブ・シンキング」がデフォルトになりました。

これはモデルが自ら思考量を決定する機能です。
もう一つは、3月3日に思考努力レベルのデフォルトが「中」に引き下げられたこと。

この結果、複雑なシステムプログラミングに対して、モデルが「簡単なタスク」と誤判定してしまった可能性があります。

コスト爆発という二次災害

思考が浅くなると、モデルは最も安直な行動をとります。

読まずに編集する。
途中で投げ出す。
失敗の責任を回避する。
正しい修正ではなく、最も単純な修正を選ぶ。
この連鎖が、コストの爆発を引き起こしました。

Laurenzo氏のチームでは、2月にモデルが有効だった時期は1〜3の同時エージェントで作業が完了していたそうです。
そこで3月に、チームを10プロジェクト、5〜10の同時エージェントへ拡大しました。

しかし、ちょうどそのタイミングで思考の深さが削減されます。
エージェントは頻繁にエラーを起こし、リトライを繰り返すループに陥りました。

その結果、Bedrock Opus料金ベースの月間API推定コストが、345ドルから42,121ドルへ跳ね上がっています。
122倍です。

それでいて出力品質は下がっている。
チームはエージェントクラスタ全体をシャットダウンし、シングルセッション運用に戻さざるを得ませんでした。

Redditコメントでは、あるユーザーがこの構造的な問題を端的にまとめています。
深い思考なら1パスで正しい編集が完了する。

しかし浅い思考だと、間違った編集→ユーザーの割り込み→修正指示→リトライという循環が発生する。
結果として、1つの正しい変更に何倍ものAPI呼び出しが消費される、と。

Redditコミュニティの怒りの焦点

Redditスレッドのコメント群を読むと、ユーザーの怒りには明確な焦点があります。
品質低下そのものよりも、「それが黙って行われたこと」への怒りです。

あるユーザーは疲弊感を訴えていました。
モデルが信頼できるのか、それとも尤もらしいでたらめを自信満々に吐き出しているだけなのか。

それを毎回確認しなければならない、と。
月額200ドルを支払って「中身の分からない箱」を受け取っている状態だ、というコメントも印象的です。

コミュニティで最も広く共感を集めた意見は、こう要約できます。

計算リソースが足りないなら、足りないと言ってくれ。
"速くて浅い"と"遅くて深い"のどちらを使うか、自分で選ばせてほしい。
黙ってモデルを骨抜きにするな

この声は単なる感情論ではありません。
合理的な要求です。

あるユーザーは、自分のワークロードの半分は完全に非同期で処理できると述べていました。
ピーク時に品質が下がるなら、「今は混雑しています。オフピークに回しますか?」と聞いてくれるだけでいい。
それだけで状況は大きく違うはずです。

興味深いのは「洗車テスト」と呼ばれるベンチマークが、コミュニティで広まったことです。
質問はシンプル。

「車を洗いたいのですが、洗車場は家から50フィートです。歩きと車、どちらで行くべきですか?」と尋ねます。
正解は当然「車で行く」。
洗車場に車がなければ洗えないからです。

しかし、思考の浅いモデルは「50フィートなので歩きましょう」と答えてしまいます。
「距離が近い→歩くべき」という局所的な最適解に囚われ、「車を持っていく必要がある」という前提条件に思い至りません。

あるユーザーの報告によれば、Opusはビジネスアワー中にこのテストに失敗します。
しかし、オフピーク時間には通過するとのこと。
時間帯によって思考の深さが変動している証拠であり、Laurenzo氏のデータとも一致します。

彼女の分析では、非表示化後の思考深度は時間帯によって最大8.8倍の差がありました。
米国太平洋時間の午後5時〜7時(ピーク時間帯)が最も浅く、深夜に回復するパターンを示しています。

Anthropicの公式回答と、その受け止められ方

Claude CodeチームのBoris Cherny氏が、GitHubのIssueに直接回答しています。
主なポイントは二つです。

一つ目は、思考の非表示化についてです。
これはあくまでUI上の変更であり、モデルの内部的な思考量や思考配分には影響しないという主張でした。
ローカルに保存されるトランスクリプトに思考内容が記録されなくなったため、ログを分析したClaude自身が「思考が減った」と誤認識した可能性がある、との説明です。

二つ目は、2月の変更について。
Opus 4.6のリリースでアダプティブ・シンキングがデフォルトになり、思考努力レベルに「medium」が設定されました。
対策として/effort maxコマンドの利用を推奨しています。

Redditコミュニティは、この回答を概ね不十分と受け止めました。
「仕様通りです」「使い方が間違っています」と言われた、という反応が目立ちます。

Laurenzo氏自身も反論しています。
すべてのパラメータ組み合わせを試した上で、品質低下は解消しなかったと。

GitHub Issueが閉じられたことについても批判が集まりました。
ただし、ここは正確に記述しておくべきでしょう。

Issueは「無言で」閉じられたわけではありません。
Cherny氏の回答は存在します。
それが十分だったかどうかは別の議論ですが、「完全に無視された」という主張はやや誇張かもしれません。

ユーザーの離脱と競合の台頭

Laurenzo氏自身のチームは、すでに別のAIコーディングツールに移行済みです。
NDA上の制約で具体名は明かしていません。

しかし、こう述べています。

6ヶ月前、推論品質と実行力においてClaudeは唯一無二だった。
だが今は、他の競合を非常に真剣に評価すべき状況にある

Redditコミュニティでも、競合への移行報告が相次いでいました。
たとえば、GPT 5.4でClaudeが解決できなかったバグを10分で修正したという企業エンジニアの声。
あるいは、ローカルで動作するGemma 4の意外な実力に驚くユーザーの声も目立ちます。

あるコメントは、AI業界の構造的な問題を鋭く指摘していました。
AIツールは乗り換えが極めて容易です。

ワークフローを別のツールに最適化し直せば、その切り替えは一時的な回避策で終わりません。
永続的な移行になりやすいのです。

ロイヤリティ・キャピタル(顧客忠誠度の蓄積)があるうちは大丈夫だと高をくくっていると、取り返しのつかないことになる、と。

料金体系と透明性への根本的な疑問

スレッド内では、Anthropicのビジネスモデルそのものに対する疑問も噴出していました。

ある計算によれば、月額200ドルのサブスクリプションで提供されている計算リソースの実質的価値は、20,000ドル相当になるそうです。
この価格設定が持続不可能なのは明らかでしょう。

どこかで帳尻を合わせる必要があります。
その「帳尻合わせ」が、ユーザーに知らされることなく品質低下という形で行われたのではないか。
これが多くのユーザーの推測です。

解決策としては、いくつかのアイデアが提案されていました。

需要ベースの価格設定への移行。
サブスクリプションのウェイトリスト制。

あるいは、ピーク時とオフピーク時で異なるサービスティアを設ける案もあります。
Laurenzo氏自身も、重い推論ワークロードに対するプレミアムティアの導入を提案しています。

一部のユーザーは規制の必要性にまで言及していました。
サービスの品質を黙って大幅に変更するのは、消費者保護の観点から問題がある、という主張です。
法的な実現可能性はともかく、ユーザーの不信感の深さを示す声として無視はできないでしょう。

この件から見えてくるもの

この騒動は、AIツール業界全体にとっての警鐘と見るべきです。

急成長するユーザー基盤と有限の計算リソース。
この矛盾にどう対処するかは、すべてのAIプロバイダーが直面する課題です。

あるアナリストも指摘しています。
すべてのフロンティアモデルは同様のGPUとコストの制約下にある、と。

使用量が拡大すれば、スロットリング、段階的アクセス、速度・コスト・推論深度のトレードオフを導入せざるを得ません。
これは構造的に不可避な問題です。

だからこそ問われるのは、トレードオフの存在そのものではありません。
それをどう伝えるか、です。

品質を下げるなら、下げたと言う。
選択肢があるなら、選ばせる。
この透明性こそが、信頼を維持する唯一の方法ではないでしょうか。

Laurenzo氏は最低限の対策として、APIレスポンスにthinking_tokens(思考トークン数)を含めることを求めています。
自分のリクエストに対して、どの程度の推論深度が割り当てられたのか。
それをユーザーがモニタリングできるようにする、というシンプルな提案です。

Anthropicがこの問題にどう対処するかで、AIコーディングツール市場の勢力図は変わりえます。
OpenAIがClaude Codeを最大の競合脅威として認識しているとの報道もあります。
このタイミングでの信頼失墜は、痛手と言わざるを得ません。

まとめ

AMDのAI責任者が公開した7,000セッション分の定量データは、Claude Codeユーザーが「体感」していた品質低下を数字で裏付けました。
思考深度の67%減少、ファイル読み取り率の70%低下、APIコストの122倍増。

これらの数字は、単なる不満ではありません。
測定可能な劣化を示しています。

問題の根本は、おそらく計算リソースの制約とデフォルト設定の変更にあるでしょう。
しかし、ユーザーが最も憤っているのは技術的な問題ではありません。
透明性の欠如です。

AIツールは今や多くのエンジニアにとって業務インフラの一部です。
そのインフラの品質が予告なく変動するなら、信頼を築くのは難しい。

品質低下が避けられないのであれば、せめてそれを正直に伝え、ユーザーに選択の余地を残す。
そんな当たり前のことが、今問われているのではないでしょうか。

タイトルとURLをコピーしました