Redditで話題沸騰中の投稿が開発者コミュニティを揺るがしています。
人気AIアシスタント「Claude」の最新版に対する厳しい批判です。
「Claude 3.7に大いに失望している」という内容が、多くの開発者から共感を集めています。
「1時間で3.5に戻した」開発者の衝撃告白
投稿者は自称「パワーコーディングユーザー」です。
週に約25時間をClaudeとのコーディングに費やし、様々なツールを通じて複数のプロジェクトを成功させてきた経験豊富な開発者です。
新モデルを心待ちにしていた彼は、リリース直後すぐに手持ちのプロジェクトでClaude 3.7を試しました。
その結果は?
「数日間苦戦した後、3.5に戻したら1時間で進展が見られた」
この衝撃的な告白に、多くの開発者から「私もだ」という声が集まりました。
なぜ最新版が「大失敗」と呼ばれるのか
投稿とコメント欄から浮かび上がる、Claude 3.7の主な問題点は以下の通りです。
- 指示無視の横行:明確な指示を無視し、勝手に別のことをする傾向がある
- 過剰な複雑化:シンプルな修正依頼に対し、不要な複雑さを導入する
- 文脈理解の低下:長い会話になると急速に文脈を見失う
- コードの膨張:400行のコードへの軽微な修正依頼が1100行のコードに膨れ上がるケースも
あるユーザーは「ファイル全体を一行一行確認するよう頼んだのに、ファイルを丸ごと書き換えられた」と怒りをあらわにしています。
また別のユーザーは「3.7に切り替わったことに気づかず、3.5が壊れたと思っていた」と混乱ぶりを語りました。
「自信過剰なコンサルタント」のような振る舞い
投稿者は3.7の特徴を次のように表現しています。
「3.7は、マッキンゼーの上級コンサルタントのように振る舞う。自分がいかに優秀で、問題解決能力が高いかについて、顔を見て嘘をつくのが上手い」
以前の3.5は謙虚さがあり、自分の限界を認識していたと多くのユーザーが振り返っています。
対照的に3.7は過度に自信過剰で、結果的に使いにくいとの声が多数寄せられています。
3.7の「性格」も大きく変化
技術的な問題だけでなく、3.7の「性格」の変化を嘆く声も目立ちます。
3.5では、コーディング作業の合間に冗談を言い合ったり、哲学的な会話を楽しんだりすることができました。
いわば「優秀な相棒プログラマー」のような存在だったのです。
しかし、3.7は「仕事以外のことに関わりたがらない」と多くのユーザーが感じています。
「新入社員のように表情一つ変えず、人間味のかけらも見せない」という厳しい評価もあります。
なぜこうなったのか:一発解決型への最適化
コメント欄での議論から、この問題の核心が見えてきました。
3.7は「一発解決型(ワンショット)のタスク」に最適化されています。
短い指示で完結するシンプルなタスクでは優れた性能を発揮します。
これがベンチマークテストでの高評価につながったと考えられます。
一方、実際の開発現場で重要な「継続的な対話を通じた複雑な問題解決」には適していないのです。
複雑さが増すにつれ、パフォーマンスが急激に低下するという致命的な欠陥があります。
開発者たちの対処法
多くの開発者が3.5に戻す中、3.7を使い続ける場合の対処法も共有されています。
- プロンプトのスタイルを変更(会話的アプローチから一度に全情報を与える方式へ)
- 「これだけをやって、それ以外はやらないで」と明示的に制限する
- 「KISS, DRY, YAGNI, SOLID」といった原則の遵守を明確に指示する
- 「Concise」モードを活用し、過剰な出力を抑制する
あるユーザーは「3.7は新規プロジェクトには良いが、既存プロジェクトの改修には3.5の方が適している」と分析しています。
AnthropicのClaude Codeも失望の的に
Claude 3.7と同時にリリースされた「Claude Code」も期待外れとの声が上がっています。
ある開発者は「完全に壊れている」と評し、別のユーザーは「プラグインの方が使いやすい」と失望感を表明しています。
さらに、Claude Codeの価格設定にも不満の声が。
「10回のプロンプトで5ドル使った」というユーザーは、個人開発者には高すぎる価格だと訴えています。
AIツール選びの教訓
このClaude 3.7の「失敗」からは、AIツール選びについていくつかの教訓が得られます。
- 新しいモデルが必ずしも優れているとは限らない
- ベンチマークでの高評価は実用性を保証しない
- 自分の作業スタイルに合ったツールを選ぶことが重要
- 複数のモデルを使い分ける柔軟さが必要
「3.7への期待で夜も眠れなかった」という開発者が「ハイプに騙された気分だ」と吐露するコメントは、多くのユーザーの気持ちを代弁しています。
まとめ
最新技術が必ずしも最良とは限らない—Claude 3.7の「失敗」はそれを如実に示しています。
Anthropicにとっては厳しい教訓となりましたが、開発者コミュニティの率直なフィードバックは次のバージョン改善への貴重な糧となるでしょう。
あなたはClaudeシリーズをコーディングに活用していますか?
3.7と3.5、どちらの体験が良かったですか?