25/07/10 12:54:30.14 Q8Opo9bZ.net
>>147
【精度95%→34.5%】「AI単体」の病名診断は優秀だが「一般人が自己診断にAIを使う」とダメダメになる
2025.07.10 11:30:21 THURSDAY
URLリンク(nazology.kusuguru.co.jp)
>>研究では、合計1298名のイギリス人参加者(専門家ではない)を対象に、肺炎から風邪まで、様々な架空の医療シナリオを提示しました。
>>例えば「20歳の大学生が友人と外出中に突如激しい頭痛に襲われる」といったシナリオがあります。
>>その中には、「下を向くのも辛い」といった重要な医学的情報だけでなく、「常習的に飲酒し、6人の友人とアパートをシェアし、ストレスの多い試験を終えたばかり」といった誤解を招く情報も含まれています。
>>そして、そのシナリオを3つの方法で分析しました。
>>• AI単体(GPT-4o、Llama3、Command R+など)
>>• 参加者がAIを用いる
>>• 参加者のみ(AIを使わず検索エンジンなどで自分で情報収集する)
>>それぞれのケースで、症状シナリオから「どんな病気だと思うか」「どのように対処すべきか(救急車、救急外来、かかりつけ医、自宅療養)」を判断するよう求められました。
>>原因の1つは、人間側の入力ミスや情報の欠落です。
>>例えば、胆石のシナリオを受け取った参加者は、AIに「1時間ほど続く激しい胃痛がある」「テイクアウト食品では吐き気と痛みを感じる」とだけ伝えており、重要である「痛みの場所」「頻度」「程度」については何も伝えていませんでした。
>>これではAIも誤った診断を下してしまいます。
>>もう1つの原因は、AIが正しい助言をしても、それを人が無視してしまうという点です。
>>研究チームが会話ログを分析したところ、AIの会話の65%以上で正しい病名を提案していましたが、それが最終的な被験者の回答には反映されたのは、34.5%未満だったのです。
>>つまり、AIが正しくても、それを信じて実行するとは限らないという問題があるのです。
>>さらに、研究チームは模擬患者をAIに置き換えた追加実験も行いました。
>>このときは、AIが患者役として、別のAIと会話する形式で診断に挑みました。
>>その結果、正答率は60.7%にまで上昇しました。