東京医科歯科大学 統合イノベーション機構 オープンイノベーションセンター 医療デザイン部門の藤田浩二教授と大学院医歯学総合研究科 整形外科学の黒岩智之医師の研究グループは、代表的な生成AI※1であるChatGPT※2を用いた自己診断において、5日に渡り同じ質問を繰り返すことで、疾患によって正答率や再現性にばらつきがあり、特に広範囲に症状を生じる疾患において正答率および再現性ともに低いことを示しました。また質問の仕方次第でその正答率が変化することを見出し、どのような質問の仕方がChatGPTによる自己診断の信頼性を高めるかを提示しました。その研究成果は、国際科学誌Journal of Medical Internet Research(ジャーナルオブメディカルインターネットリサーチ)に、2023年9月15日にオンライン版で発表されました。
【研究の背景】
近年、目覚ましい発展を遂げるAIの中でも、特に自然言語処理(NLP)※3が大きな注目を集めています。ChatGPTはNLPを使用して自然な会話を作成できる最先端のチャットボットであり、爆発的な広がりを見せています。既に、生成AIによるチャットボットを利用して病院受診前に自己診断を行う患者も増えてきており、今後増加の一途を辿ることが予想されます。しかしながら、自己診断におけるChatGPTの正答率を評価した研究はいくつかあるものの、その再現性や受診勧奨の程度に関する研究はありませんでした。そこで我々は、ChatGPTによる一般的な整形外科疾患の自己診断の正答率・再現性と、受診勧奨の程度を評価することを目標に研究を進めました。
【研究成果の概要】
本研究では、5人の研究者が、5つの整形外科疾患に関する質問を、5日間にわたり、全く同じ文面でChatGPT(ver. 3.5)に繰り返し質問し、その回答結果を検証しました。疾患により正答率、再現性は異なり、最も低いものではわずか4%の正答率で、再現性も「悪い」と評価されました。それにもかかわらず、回答内にて医療機関受診をしっかりと推奨していたものは全体の13%程度に留まりました。また、質問の仕方によって正答率が異なることを見出し、より好ましい質問の形式を提示しました。
【研究成果の意義】
生成AI技術が進化し爆発的な広がりを見せる昨今、痛みや不安を抱えた患者さんが生成AIに自らの症状を相談して自己診断を行うことが予想されます。しかしながら、生成AIが『ハルシネーション(幻覚)※4』を生み出し使用者を混乱させうるという大きな問題も未だ残っています。そのような中で、本研究において代表的な生成AIであるChatGPTの医療利用における問題点を浮き彫りにしたことで、その信頼性ならびに患者さんを害するリスクについての議論を生み出し、患者さんらへの啓発や、さらなるソフトウェア開発・進化の土台となることが期待されます。
今後、より多くの病態を対象に多岐にわたる質問形式を用いた研究を行うことで、病態ごとにより適切な質問方法を探していく予定です。また、ChatGPT以外の生成AIや新しいバージョンのChatGPTを用いた研究を進めることで、得られる信頼性がどう変化するのかも評価していく予定です。
【用語解説】
※1生成AI: Generative AIの訳語。従来のAIと異なり、非構造化学習データを元に、新しい情報・コンテンツを生み出すことができるAIのこと。
※2ChatGPT: OpeAI社が2022年11月に公開したAIチャットボット。高度な自然言語処理技術により、人間のような自然な回答をすることで耳目を集めた。代表的な生成AIの1つ。
※3自然言語処理(NLP): Natural Language Processingの訳語。人間が日常的に使っている言語(自然言語)をコンピュータに処理・分析させる技術。AIと言語学の一分野。
※4ハルシネーション(幻覚): 生成AIの問題の1つ。問いかけに対して事実に基づかない情報を生成してしまう現象。AIがまるで「幻覚」を見ているかのように虚偽情報を出力することから名付けられた。誤学習や、データに無い内容に関して無理に回答を提示しようとすることで生じるとされる。
Journal
Journal of Medical Internet Research
DOI
Article Title
The Potential of ChatGPT as a Self-Diagnostic Tool in Common Orthopedic Diseases: Exploratory Study