innavi net画像とITの医療情報ポータルサイト

ホーム

Googleの医療AI「AMIE」が優れた鑑別診断をアシスト(2025/4/30)

2025-6-2

Googleの医療AI「AMIE」が優れた鑑別診断をアシスト(2025/4/30)

近年の大規模言語モデル(LLM)の進歩は著しく,医師国家試験に合格するAIや対話型AIなど多岐にわたる能力を発揮している。Google関連企業の研究チームはこのほど,診断推論に最適化した大規模言語モデルAMIE(Articulate Medical Intelligence Explorer)が,臨床医の診断推論の精度を向上させることを発表した。
Natureに掲載された本研究では,NEJMのCPCに掲載されたケースレポート302件に対し,AMIEが単独で鑑別診断リストを挙げる能力と臨床医を支援するツールとしての能力の両方を評価した。AMIEは,GoogleのPaLM2を基盤モデルとし,様々なMedQA,独自の医療面接会話データ,MIMIC-Ⅲの電子カルテ要約を用いて,ファインチューニングされたモデルである(よって本評価指標は学習に用いられていない)。鑑別診断リストについて,医師による鑑別診断の質の評価(鑑別リストに正解となる診断または近しい診断が入っているか)および「ground truth 診断」との一致率による評価を行ったところ,AMIE単独の性能は臨床医を大きく上回り,10の鑑別診断を挙げるタスクでは,臨床医の正答率が33.6%,AMIEが59.1%という結果を得た。また,臨床医支援の点では,AMIEを支援ツールに用いた臨床医の正答率が51.7%,AMIE以外の検索ツールを用いた臨床医で44.4%と,AMIEは臨床医の診断能力向上に寄与する結果となった。一方,AMIEを導入してもタスクにかかる時間にはほとんど影響がなく,従来の検索手段と同等の操作性であることも担保されている。
研究チームは「AMIEの弱みは,全体を俯瞰するよりも,特徴的なキーワードや所見など,個別の症状にフォーカスする傾向があることである。他のAIにも散見される傾向であり,その点で複雑な症例を扱うNEJM-CPCはLLM評価の有用なベンチマークとなりうる」と述べている。今後はマルチモーダル入力への対応,ハルシネーションの改善といった検討を進めることとなる。

【参照論文】
Towards accurate differential diagnosis with large language models