「今日のClaude、なんかおかしくない？」を数字で証明したサービスが話題に

「昨日までは快調だったのに、今日はまるで別物だ」
AIコーディングツールを日常的に使う開発者なら、一度はこの感覚を味わったことがあるのではないでしょうか。

最近、海外の開発者コミュニティ（Reddit）で、ある投稿が話題になりました。
Claude Code（Opus 4.5）の性能劣化を客観的に追跡するサービス「Marginlab」の計測結果です。

この記事では、そのRedditの投稿とコメント欄から浮かび上がった議論を紹介します。
そして、AIコーディングツールとの付き合い方についても考えてみます。

体感ではなく数字が語る劣化

これまで「モデルの質が落ちた」という声は、コミュニティ内で度々上がっていました。
しかし、反応は二極化しがちでした。

「確かに劣化している」と共感する人がいます。
一方で、「気のせいだろう」「プロンプトの問題では」と否定する人も少なくありませんでした。

Marginlabというサービスは、この曖昧な状況に一石を投じました。
同じベンチマークを継続的に実行し、モデルの性能変化を数値として記録する仕組みです。
そして今回、そのトラッカーが「過去30日間で劣化を検知」という結果を示したのです。

あるユーザーはこう述べています。
「体感的な不満をぶつけ合うのではなく、同一の基準で実測した数字が出てきたのは本当にありがたい」と。

主観的な印象ではありません。
再現性のあるデータとして劣化が裏付けられました。

多くの開発者がこれに反応し、スレッドには多くの高評価が集まりました。
アップボート率は97%を記録しています。

開発者たちが直面した具体的な症状

コメント欄には、劣化を裏付ける生々しい報告が並んでいました。

ある開発者の報告はこうです。
午前中は快調にタスクをこなしていた。
しかし、午後になると突然「最も単純な作業すらできなくなった」と。

別の事例も印象的でした。
Markdownファイルの内容をWord文書に変換するだけの作業です。
ところが、モデルが勝手に内容を要約し始めたのです。

指示は「内容をそのまま移し替える」でした。
にもかかわらず、参考文献を途中で切り、セクションを省略し、付録を丸ごと落とす。
そういう判断をモデルが独断で行ったわけです。

興味深い観察もありました。
あるユーザーは、自分の週間利用上限が近づくにつれて品質が悪化する傾向に気づいたとコメントしています。
真偽のほどは不明ですが、気になる報告ではあります。

コーディング以外の用途で使うユーザーからも報告がありました。
文章作成にClaude Codeを使っている非エンジニアのユーザーです。

この人物はこう述べています。
「コーダーより先に気づく傾向がある。エンジニアの間で話題になる頃には、自分はとっくに異変を感じている」と。

繰り返されるサイクルへの疑念

コミュニティ内で根強いのが、「意図的な性能引き下げ」の仮説です。

「毎月これだ。コスト削減で質を落とし、ユーザーが騒ぎ始めたら戻す。その繰り返しに見える」
このコメントは多くの共感を集めていました。

もう一つの有力な説もあります。
新モデルのリリース前に現行モデルの質が落ちるというパターンです。

「Opus 4.5がリリースされた時も同じだった。じきに新モデルが出るはず」という予測的なコメントには、40以上の高評価がついていました。

これに対し、皮肉を込めた反論も見られます。
「つまり、新モデルが出て1ヶ月は良い。その後は次のリリースまで劣化版を使わされる。その繰り返しか」と。
さらに辛辣だったのは「ゲーム業界のアーリーアクセス商法と同じだ。俺たちはベータテスターだ」という指摘でしょう。

もちろん、これらはあくまで推測に過ぎません。
Anthropic社はこうした性能変動について公式な説明を出していません。
そのため、ユーザー間で様々な仮説が飛び交っているのが現状です。

競合ツールへの乗り換え検討

性能劣化への不満は、当然ながら競合ツールへの関心につながります。

特に注目を集めていたのはOpenAIのCodexです。
「この2週間、CodexのほうがClaude Codeよりずっと良かった」と述べるユーザーがいました。
「Opus 4.5の全盛期には及ばないが、現時点のOpusよりは明らかにマシ」と評価するユーザーも目立ちます。

Kimi 2.5を推すコメントも見られました。
「劣化版Claudeよりはるかに優れている。コストも10分の1程度」という声です。

一方で反対意見もあります。
「Codexは変更の信頼性が低く、むしろ壊す傾向がある」と。
体感には個人差があるようです。

あるユーザーの指摘が印象に残りました。
競合ツールを褒める声と「Opusには及ばない」という声が、同じコミュニティ内で矛盾なく共存している。
その状況を「面白い光景だ」と皮肉っていたのです。

劣化の裏側で見えた驚異的なユースケース

性能劣化の愚痴が並ぶスレッドの中で、ひときわ異彩を放つ投稿がありました。

あるユーザーは昨年10月から、Claude Codeを使ってTTRPG（テーブルトップRPG）のAIゲームマスターを構築していました。
約1万行のPythonコードで「外部記憶システム」を作り上げたのです。
そして、80回以上のセッションを一貫した状態で運用しているというのです。

その仕組みは本格的でした。

まず、268件のキーワードトリガーを持つ「知識事典」を用意しています。
特定のキーワードが会話に出ると、キャラクターの関係性やプロット情報を自動注入する仕組みです。

セマンティック検索にはChromaDBとOllamaのローカル埋め込みを使っています。
「あの商人に会ったことあったっけ？」のような質問に、80以上のセッション履歴から横断検索で答えられるとのこと。

さらに、ロケーション単位での追跡もあります。
ダンジョンのどの部屋に入ったか、どの秘密を発見したか。

そういった情報を記録しています。
そして、プレイヤーが知らないはずの情報はモデルにも渡さない設計です。

設計哲学も明確でした。
コンテキストウィンドウはあくまで「一時的な作業場所」。

真の状態はすべてファイルに永続化して、必要な分だけ注入する。
そういう考え方です。

「最高のドーパミンエンジンを構築した」と本人は冗談交じりに語っていました。
この事例は、Claude Codeの潜在能力を示しています。
同時に、それを引き出すためのアーキテクチャの重要性も示していると言えるでしょう。

なお、このシステムはMCP（Model Context Protocol）とローカルのPythonフックを組み合わせて実現されています。
興味深いのは、Pythonフックでモデルの行動を「強制」できる仕組みを導入している点です。

モデルに「お願い」するのではありません。
特定の手順を踏まない限り次のツールを呼べないよう、制約をかけているのです。

透明性とコミュニケーションの欠如

技術的な議論とは別に、もう一つ繰り返し登場したテーマがあります。
Anthropic社の透明性に対する不満です。

あるコメントが印象的でした。

透明なコミュニケーションがないことが一番つらい。
自分のエージェントフレームワークがこの劣化を隠蔽しているのか、それとも回避できているのか、判断すらつかない

多くの開発者が感じているであろうもどかしさを、端的に表現していました。

有料ユーザーとして対価を払っています。
にもかかわらず、モデルの品質がいつ、なぜ変動するのかについて説明がない。
この不信感は、単純な性能劣化以上にユーザー離れを加速させる要因となり得ます。

AIコーディングツールとの付き合い方を考える

このRedditの議論から、いくつかの教訓が浮かび上がってきます。

まず、特定のツールに完全依存するリスクです。
「GPTを解約しなければよかった」と嘆くユーザーがいました。
メインツールの品質が落ちた時に代替手段がなければ、開発作業全体が止まりかねません。
複数のツールを使い分ける柔軟性を持つこと。
これが実務上の保険になるでしょう。

次に、客観的な計測の価値です。
Marginlabのようなサービスが注目を集めた理由があります。
「劣化しているかどうか」の議論を、感覚から事実に昇格させたからです。
自分のプロジェクトにおいても、AIの出力品質を定期的にチェックする仕組みがあると良いでしょう。
問題の早期発見につながります。

そして、AIツールの限界を「仕組み」で補う発想も重要です。
TTRPG事例が示すように、モデルの性能変動を前提とした設計が有効です。
外部記憶やフック、コンテキスト注入といったアーキテクチャでロバスト性を確保する。
この考え方は、コーディング支援に限らず、AI活用全般に通じるものがあります。