「人間+AI」が「AI単独」に負けた日:医療チャットボット研究の衝撃

「人間+AI」が「AI単独」に負けた日:医療チャットボット研究の衝撃 AI

「AIに症状を入力すれば、医者に行かなくても診断がもらえる」
そんな期待を抱いている人は少なくないでしょう。

OpenAI、Anthropic、Amazonといった大手テック企業が、相次いで医療分野への参入を進めています。
目指しているのは、患者と直接対話するAIチャットボットの開発です。
さらには、医療記録へのアクセスまで視野に入っています。

しかし、ある研究がこの期待に冷水を浴びせました。
Redditの医療コミュニティ(r/medicine)で、Nature Medicine掲載の論文が話題になったのです。
結果はかなり興味深いものでした。

本記事では、この投稿とそこで交わされた議論をもとに、AIチャットボットの医療利用における課題を整理してみます。

研究が明らかにした「不都合な事実」

この研究は、イギリスの一般市民1,298人を対象にしたランダム化試験です。

参加者には、医師が作成した医療シナリオが提示されました。
そして、緊急度の判定と関連する疾患の特定を求められたのです。

実験群には、GPT-4o、Llama 3、Command R+のいずれかのLLM(大規模言語モデル)が与えられました。
一方の対照群には、「普段自宅で使う情報源を何でも使ってよい」と指示が出されています。

結果はどうだったか。
LLMを使ったグループは、対照群と比べて緊急度の判定精度が向上しませんでした。

それどころか、緊急度を過小評価する傾向が見られたのです。
関連疾患の特定でも、重篤な疾患を含めて対照群より劣る成績でした。

さらに注目すべき点があります。
LLM単体で同じ問題を解かせると、実はかなり良い成績だったのです。

つまり、「人間+AI」の組み合わせが、AI単独よりも悪い結果になった。
ユーザーとチャットボットの間で、何らかのコミュニケーション断絶が起きていたわけです。

また、同じくも膜下出血のシナリオで、LLMが意味的には同じ質問に対してまったく異なる回答を返す現象も確認されています。
ある質問の仕方だと「救急外来へ行くべき」と答えるのに、別の聞き方だと「暗い部屋で休んでください」と返す。

回答の一貫性にも、大きな課題が残っているのです。

「Google検索と同じ轍を踏んでいないか」

Redditでの議論で共感を集めた意見の一つが、「これはGoogle検索のときと同じ構図だ」という指摘でした。

思い出してください。
かつて患者がGoogleで症状を検索し、的外れな自己診断を持って病院に来る問題が頻発しました。

検索エンジンを賢く使える人は、有益な情報を得られた。
しかし、使い方を間違えると混乱が深まるだけだった。

ChatGPTでも、まさに同じことが起きているのではないか、と。

実際にLLMを医療目的で使っている医師からも、興味深い報告がありました。
適切に使えば、ガイドラインや論文を読み込む時間を短縮できる強力なツールになる、と。
しかし、出力が不正確だったり的外れだったりするケースも多いのが実情です。

ここで重要な違いが出てきます。
医療知識を持つ人間なら、その誤りを見抜ける。

しかし、知識のない一般市民はどうか。
出力をそのまま信じてしまう危険性が高いのです。

ある医師のコメントも印象的でした。
家族が入院した際、AI部門の医療責任者を務める別の医師がLLMの出力を鵜呑みにし、明らかにおかしい治療計画を提案してきた、と。
専門家ですら、このような落とし穴にはまることがあるわけです。

「患者は嘘をつく」問題とAIの弱点

医療関係者の間で特に議論を呼んだのが、LLMの「同調傾向」の問題です。

現場の医師たちは日常的に、患者からの不正確な情報に対処しています。
症状の訴えが身体所見と矛盾することもあれば、そもそも無関係な情報が大量に含まれていることもある。

熟練した医師は、こうした情報を経験に基づいて取捨選択します。
そして、本質的な問題にたどり着くのです。

ところが、現在のLLMには別の傾向が備わっています。
ユーザーの発言に同調しやすい、いわゆる「おべっか」的な性質です。
患者が誤った認識を持っていても、否定するのではなく肯定してしまう可能性がある。

精神科領域では、すでに深刻な事例が報告されています。
LLMが患者の妄想を強化してしまったケースです。

熟練した精神科医であれば、妄想の内容に関与しません。
現実的で具体的な話題へと誘導するのが正しいアプローチです。

しかし、LLMにはそうした「臨床的直感」がありません。

ある医師は、率直に疑問を投げかけていました。
LLMの開発者たちは、この医療特有の課題を理解しているのか。

そして、ユーザーに反論できるLLMを作るインセンティブが、そもそもあるのか、と。

「めまい」はめまいではない

臨床現場での曖昧さについても、示唆に富む指摘がありました。

「めまい」を例に考えてみましょう。
患者が「めまいがする」と訴えたとき、それは失神寸前の前失神かもしれません。
あるいは、耳由来の回転性めまいの可能性もある。

もう一つ例を挙げます。
「胸が痛くて息苦しい」という訴え。
心臓や肺の問題を疑いたくなるところですが、実は胆嚢炎による症状だったりもするのです。

こうした主観的な訴えと客観的な病態のギャップを埋めるのは、長年の臨床経験に基づく判断力です。
LLMは入力された言葉を額面通りに受け取りやすい。
この「行間を読む」能力が、まだ欠けています。

LLMが主導すれば結果は変わるのか

Redditの議論では、興味深い仮説も提起されていました。
「患者がLLMを補助ツールとして使うのではなく、LLMが会話を主導すれば結果は違うのではないか」という考えです。

どういうことか。
患者は何を聞けばいいかわからないまま質問しがちです。

そうではなく、LLM側から体系的に問診を行う。
関連する陽性所見と陰性所見を整理し、鑑別診断を構築していく。
そうすれば、患者の知識不足という最大のボトルネックを回避できるかもしれない、と。

理論としては筋が通っています。
ただし、そのアプローチの有効性を実証した研究は、今のところ存在しません。

そもそも、患者は不正確な病歴を語ります。
時に嘘もつく。

診断とは無関係な要求をすることもある。
そして多くの場合、ただ話を聞いてほしいだけだったりもする。

LLMは、そのいずれにもまだ上手く対応できていないのが現状です。

AIの「本当の」活躍場所

では、AIは医療において役に立たないのでしょうか。
そうとも言い切れません。

ある救急医は、AIが真に力を発揮する場面を指摘していました。
それは、大量のデータ処理です。

過去の検査結果や診療記録をAIが自動的にレビューする。
関連する情報を整理して提示する。
そうなれば、医師の意思決定は格段に効率化されるはずだ、と。

つまり、AIが患者と直接やり取りして診断するモデルではありません。
医療専門家の判断を補助するツールとして機能する。
これが、現時点で最も現実的かつ有望な活用法と言えるでしょう。

まとめ

今回紹介したRedditの議論とNature Medicine掲載の研究は、AIチャットボットの医療利用に関する重要な示唆を含んでいます。

LLMは単体では優秀な成績を収めます。
しかし、一般市民が使うと効果が薄れる。

この事実は、技術そのものの問題ではありません。
人間とAIのインターフェースに課題があることを物語っているのです。

OpenAI、Anthropic、Amazonは医療分野への進出を急いでいます。
しかし、この研究はその前に立ち止まるべき理由を明確に示しました。
十分な実世界での検証なしにAIチャットボットを患者の医療記録に接続するのは、時期尚早かもしれません。

AIの医療応用に大きな可能性があるのは間違いないでしょう。
ただし、その可能性を引き出すには、医療の現場で何が本当に起きているのかを深く理解する必要があります。

テクノロジーの進歩と、人間の医療行為が持つ複雑さ。
この両者のバランスをどう取るかが、今後の鍵を握っています。

タイトルとURLをコピーしました