AI技術は、医療分野でも急速に進化を遂げています。
特に、GPT-4のような大規模言語モデル(LLM: Large Language Model)は、医師をサポートする新たなツールとして期待されています。
この記事では、2018年から2022年までの日本医師国家試験の5年分のデータセット「Igaku-QA」を基に、GPT-4がどのような結果を残したのか、またその課題について詳しく解説します。
医療従事者やAI・機械学習の初学者でも理解しやすいよう説明していますので、ぜひ最後までご覧ください。
GPT-4は医師国家試験に合格!でも禁忌肢の問題は?
GPT-4は、2023年3月時点で、日本の医師国家試験(過去5年間分)をベンチマークとしたIgaku-QAでテストされ、すべての年度で合格ラインを突破しましたが、学生の平均得点には及びませんでした。
この結果は、GPT-4が医療知識を応用できる潜在力を持っていることを示しています。
しかし、GPT-4の性能にはまだ重要な課題が残っています。
禁忌肢とは?
医師国家試験には、医療現場で絶対に行ってはならない選択肢、つまり「禁忌肢(きんきし)」が含まれています。
例えば、日本では安楽死を提案することが禁止されています。
医療従事者がこれを選択すると、重大な法律違反となりかねません。
GPT-4は、試験問題において、患者が自らの命を終わらせることを望むケースにおいて、医師が安楽死を提案するという違法かつ倫理的に誤った選択肢を選んでしまいました。
このような選択は日本の法律で禁止されており、医師としての重大な倫理違反とされています。
試験では禁忌肢を4回選ぶと自動的に不合格となるため、GPT-4が合格できたのは禁忌肢の選択が少なかったためですが、このリスクが医療現場で発生することを防ぐにはさらなる改良が必要です。
日本の医師国家試験でGPT-4が示したパフォーマンスとは?
日本の医師国家試験は、臨床医学、公衆衛生、そして多くの専門分野を網羅した400問の選択肢問題から構成されています。
GPT-4は、5年分の試験データセット(Igaku-QA)でテストされ、すべての年で合格点を超える成績を収めましたが、学生の平均得点には及びませんでした。
特に、GPT-3やGPT-3.5ベースのChatGPTと比較すると、GPT-4は明らかに進化し、より正確な回答を示しました。
Igaku-QA
Igaku-QAは、日本語で作成された医師国家試験問題を基にしたデータセットで、言語の壁を超えた医療AIの進化を目指すための重要なベンチマークとなっています。
このデータセットは、日本語を母国語とするNLP研究者と現役の日本人医師によって開発されており、単なる英語からの翻訳データセットではなく、日本独自の医療制度や文化に即した内容を含んでいます。
これにより、日本の医療現場におけるAIの応用を評価するためのリアルな基準を提供します。
また、Igaku-QAは幅広い分野にわたる試験問題(臨床医学、公衆衛生、医学統計など)を含み、多様な医療知識の評価が可能です。
ただし、画像データはデータセットに含まれておらず、画像を伴う問題には対応していません。
今後、画像とテキストを組み合わせたマルチモーダルな問題への対応がAIの医療分野での応用を広げるために必要です。
このデータセットは、AIや言語モデルが医療分野でどの程度実用化可能かを測るための有力な指標となっており、将来的に非英語圏におけるAI医療支援技術の発展に貢献することが期待されています。
具体例で理解する:問題の一部はどんなもの?
例えば、「75歳の男性が末期の肺癌を患っており、強い痛みを訴えているが、自宅での最期を希望している」という設定の問題がありました。
この時、GPT-4は「安楽死を手助けする」といった禁忌肢を誤って選ぶことがありましたが、この回答は日本では法律で認められていないため、実際の医療現場では誤った選択です。
このように、GPT-4は法律や倫理的な側面ではまだ不十分な点があります。
限界も残る:画像問題にはどう対応する?
さらに、GPT-4は画像ベースの問題に対応できないという技術的な限界があります。
医師国家試験には、X線写真やCT画像など、画像を基に診断を行う問題が含まれていますが、2023年3月時点ではGPT-4は画像を直接理解する能力がありませんでした。
しかし、現在ではGPT-4には画像入力に対応したバージョンもありますが、医師国家試験の画像診断問題に対応できるかわかりません。
試験当時は画像に依存する問題には対応できなかったため、正しい回答を導けないことが確認されました。
言語モデルが選ぶ禁忌肢のリスク:医療でAIはどう進化する?
GPT-4が医師国家試験を合格できたにもかかわらず、禁忌肢の選択というリスクが依然として存在します。
これにより、AIが法律や倫理的な判断を誤るリスクが浮き彫りになりました。
今後、AIを医療現場に導入するためには、各国の医療システムや法的な規制に応じたカスタマイズが必要です。
GPT-4のようなAI技術は、医療従事者を支援する強力なツールとなる可能性がありますが、現在の技術段階では、まだ実際の医療現場での応用には課題が残っています。
特に、日本の医療法や倫理的な背景に合わせた適応が求められるため、今後の改良が期待されます。
まとめ
GPT-4は、2018年から2022年までの日本医師国家試験5年分のデータセットを使用したIgaku-QAベンチマークにおいて、すべての年度で合格ラインを突破しましたが、学生の平均得点には及びませんでした。
これは、GPT-4が医療分野でも一定の応用可能性を示していることを証明しています。
しかし、禁忌肢を誤って選ぶ問題や、画像を伴う問題への対応ができないなど、実際の医療現場で使用するにはまだ改善が必要です。
医療分野におけるAIの進化は著しく、GPT-4のようなモデルは、将来的に医療従事者を支援する強力なツールとなるでしょう。
ただし、実際の現場で安全かつ効果的に使用されるためには、さらなる研究と調整が必要です。
特に、日本の医療法や文化的な背景に合わせた適応が求められるため、今後の開発が期待されます。
Igaku-QAのデータセットを活用することで、今後もAIと医療の関係性がどのように進化していくのか、引き続き注目していきたいと思います。
(Reference)
Jungo Kasai et al. (2023), “Evaluating gpt-4 and ChatGPTt on Japanese medical licensing examinations”
コメント