コードでは絶賛、研究では悲鳴:新モデル「Fable 5」をめぐる賛否

コードでは絶賛、研究では悲鳴:新モデル「Fable 5」をめぐる賛否 AI

Anthropicの新しいモデル「Fable 5」が登場しました。
そして、海外の掲示板Redditで第一印象を語り合うスレッドが盛り上がっています。

投稿者は早期アクセスで一週間ほど触った感想を共有しました。
そこに、数多くのユーザーが体験談を寄せています。

新モデルの輪郭をつかむ材料として読んでみてください。

投稿者が挙げた第一印象

最初の投稿者は、Fable 5の特徴を率直にまとめています。
要点はこうです。

  • コーディングがとにかく強い
  • 明確なゴールを与えて長く走らせるタスクに向いている
  • ガードレールが攻撃的で、生物・化学・サイバー関連の話題を拒む
  • 動作が遅く、非同期の作業には合うが、対話的な共同作業ではもどかしい
  • とにかく高価で、一日分の上限を一時間で使い切った

この短いリストが、その後の議論の地図になりました。
賛否のほとんどが、ここに挙がった項目のどこかに紐づいています。

なぜなら、後のコメントはこの五点を別の角度から裏づけたり反論したりするものだからです。

コーディングでは「神」という声

開発者からの評価は、驚くほど高いものでした。
あるユーザーは、本番環境で一年近く放置されていたバグをFable 5が見つけ出したと報告しています。

別のユーザーの体験はもっと劇的です。
テストスイートの修正を頼んだだけなのに、頼んでもいない請求処理の重大な不具合まで指摘されたといいます。
三か月間ループにはまって動かなかったシステムが、二日でようやく直ったという声もありました。

旧モデルのOpus 4.8で解決できなかった問題を片づけた、という報告も目立ちます。
興味深いのは、その仕事の進め方です。

あるコメントによれば、Opusは「できました」と言うだけで、検証は人間任せになりがちでした。
一方のFable 5は違います。

自分で結果を確かめる手順を、自然に組み込んでくれるそうです。
「やったと言う前に、本当にやったかを確かめてくれる」。
この違いが、手戻りの少なさにつながっているのでしょう。

文章生成についても、好意的な声が並びます。
表現が人間らしく、AIにありがちな決まり文句をほとんど使わない。

「Xではなく、Yだ」といった言い回しが出てこないのです。
難しい言葉もかみ砕いて、わかりやすく整理してくれます。

物語を書かせると、登場人物の対立を恐れずに踏み込む。
そんな評価が寄せられました。

研究者を悩ませる「厳しすぎる壁」

ところが、同じモデルが別の人たちには「使い物にならないゴミ」になります。
評価が真っ二つに割れる原因は、ガードレールの強さです。

生物学にわずかでも触れる仕事をしていると、Fable 5は途端に口を閉ざします。
返答を書き始めたかと思えば、そのテキストが消える。

そして、代わりにOpus 4.8が応答するのです。
こうした「格下げ」が頻発するとの報告が相次ぎました。

脳卒中の研究をしている人は、プロジェクトの説明ファイルを読み込ませただけだといいます。
それなのに、新しいチャットで挨拶すらできなかったそうです。
獣医学の研究ノートも、医療画像の標準的なデータも、即座にフラグが立ちました。

過剰反応の例は、ほとんど笑い話の域です。
樹木の種類を地図にまとめようとしただけで、ブロックされた人がいます。

細胞の話で「ミトコンドリア」という単語に反応してしまった例も報告されました。
あるユーザーは、コーヒーの抽出を頼んだそうです。

すると「水溶性の化合物による生物兵器」と見なされて断られた、と皮肉まじりに書いていました。
もちろん、ただのエスプレッソの話です。

サイバーセキュリティの分野も、事情は同じでした。
脆弱性を探す作業や、その対策コードを書く作業がブロックされます。

そして、Opusに差し戻されるのです。
本番プラットフォームのセキュリティ監査に使いたかったのに、と落胆する声もありました。

なぜ、ここまで厳しいのでしょうか。
背景には、AIが生物兵器の開発に悪用されるのではという懸念があります。

スレッドでも、このリスクを真剣に論じるやり取りが見られました。
ケンブリッジ大学の研究センターの記事を引きながらの議論です。

解決策として浮上したKYC案

では、研究者はこの壁とどう付き合えばいいのでしょうか。
スレッドで支持を集めたのが、本人確認(KYC)と専門資格による認証という考え方です。

仕組みはこうです。
会社が一定の認証や基準を満たし、利用者が有資格者だと確認できれば、重いガードレールを外す。

Anthropicが過去にセキュリティ分野で似た運用をしていた、という指摘も添えられていました。
多くの専門分野ではすでに一般的な慣行だ、と賛同する声もあります。

一方で、慎重な意見も出ました。
「危険」の範囲をAnthropic自身が決めることになります。

さらに、第三者の資格を二次的に審査する立場にも立つわけです。
その権限の集中を不安視するコメントでした。
便利さと安全のバランスは、まだ落としどころが見えていません。

速さとコスト、もう一つの悩み

性能とは別に、多くのユーザーが速度とコストに頭を抱えていました。

動作の遅さは、使い方によって評価が分かれます。
じっくり任せる非同期の作業なら、気になりません。
しかし、その場で対話しながら進めたいときには、待たされる感覚が強いようです。

コストは、もっと深刻でした。
月100ドルのプランでも、二十分ほどでセッションの上限に達したという報告があります。

「中身を確かめる前に枠を使い切って、何もできなかった」という嘆きまでありました。
やり取りを往復させると、費用がみるみる膨らみます。
そのため、財布を気にしないと続けられない、という声も少なくありません。

ただし、課題ごとの総額で見ると、評価は変わります。
あるコメントは公式の比較を引いていました。

それによれば、設定によってはFable 5のほうがOpus 4.8より安く、しかも精度が高い場合があるそうです。
一回あたりの単価ではなく、仕事を一つ終えるのにかかる総コストで考えるべきだ、というわけです。

評価は割れている

絶賛の声が多い一方で、冷静な、あるいは辛口の意見もありました。

あるユーザーは「これまで使ったどのモデルより期待外れ」と切り捨てています。
4.8よりわずかに悪く、幻覚が多く、表面的だと感じたそうです。
期待が大きかったぶん、落差も大きかったのでしょう。

別のコメントは、もっと根本的な疑問を投げかけていました。
研究やコード生成で明確に優れている証拠を、まだ見ていないというのです。

セッションの途中で勝手に4.8へ格下げされる挙動も、評価を難しくしています。
複雑な処理に入ると、別モデルに切り替わってしまう。
そのため、Fable 5そのものを正しく測れない、という指摘です。

逆に、生物やサイバーに関わらない人たちは、ガードレールにほとんど引っかかりません。
だから、純粋に性能を楽しんでいました。

「自分の仕事には壁が関係ないから、ただただ怪物だ」。
立場によって見える景色が、ここまで違うのです。

まとめ

このスレッドが描き出したのは、二つの顔を持つモデルでした。

コードを書き、知識をまとめる人にとって、Fable 5は明らかな前進です。
長年見逃していたバグを掘り当て、自分の答えを自ら検証し、人間に近い文章を書く。
その実力に、多くの開発者が興奮していました。

ところが、生物・医療・サイバーに少しでも触れる人には、別の現実が待っています。
挨拶すらできない壁が立ちはだかるのです。

速度の遅さと高いコストも、誰の前にも共通の課題として残りました。

KYCによる認証という解決策は、有力な落としどころとして語られています。
ただし、その線引きを誰がどう引くのかは、これからの宿題でしょう。

新しいモデルの第一印象は、性能の数字だけでは語れません。
あなたがどんな仕事をしているかで、同じツールが宝にも壁にもなります。

Fable 5をめぐる賛否は、そのことをはっきり示しました。
導入を検討するなら、まず自分の用途がどちらの顔に当たるのかを見極める。
そこから始めるとよさそうです。

タイトルとURLをコピーしました