生命科学や医療におけるAIの研究と応用について、毎週、新たな報告が続いているが、この1週間は、肯定的なものも否定的なものも含めて、極めて豊富で多様な1週間であった。
[出典] "A Big Week in Medical AI - Multiple new reports are indicators for where we are headed" Topol E. GroundTruth 2024-03-23. https://erictopol.substack.com/p/a-big-week-in-medical-ai
医療AIの安全性向上の試み
AIブームで株価も急上昇してきたNvidiaのCEOであるJensen Huangが3月18日のGTC AIコンファランスで2時間の基調講演を行い [本記事末尾にYouTubeへのリンクを用意]、その中で、Hippocratic AI社がプレプリントサーバarXiv から発表したPolarisと呼ばれる、"患者とAIヘルスケアとの会話のために、安全性に焦点を当てた初の大規模言語モデル群 "を紹介した。Hippocratic AI社は、1,100人の看護師と130人の医師を採用し、1兆を超えるパラメータを持つLLMを用いて、しばしば20分を超える患者との会話をシミュレートした。看護師が評価したPolarisの性能は、5種類の観点 (mecial safety, clinical readiness, conversation quality, bedside manner, patient education/moticational interviewing)それぞれについて、同等かそれ以上であった。
Polarisのアーキテクチャは、GPT-4、LLaMA、その他の大規模言語モデルとは大きく異なる。自然言語処理による患者の音声認識と、デジタル人間アバターの顔による患者との間で看護師のような会話をするように訓練されたプライマリエージェントをサポートする、複数のドメイン固有のエージェントで構成されている。一連のサポートエージェントは、500億から1000億のパラメータを持ち、検査、投薬、栄養、電子カルテ、チェックリスト、プライバシーとコンプライアンス、病院と保険者のポリシー、人間が介在する必要性 (need for human-in-the-loop) などの知識リソースを提供する。これらのドメインに特化したサポートエージェントを用意したことで、医療の精度と安全性においてGPT-4やLLaMA-2よりも性能が向上した。
Polarisの投稿と同時期に、Google AIは、LLMバイアスに取り組み、健康の公平性と安全性を促進するためのプレプリントを発表した [arXiv 2024-03-18]。
病理学LLMs, 好成績
2024年3月19日には、ハーバード大学のFaisal Mahmood教授らが病理学基礎モデル論文2報をNature Medicine 誌から発表した。
- 自己教師あり学習 (Self-Supervised Learning:SSL) モデルUNIは、20の主要な組織タイプについて10万枚を超える全スライド病理画像 (1億枚を超える画像で構成) によって訓練され、34種類の病理学的タスクについて、これまでの最先端の病理学モデルの性能を上回った [Nature Medicine 2024-03-19]。
- 100万を超える画像とテキストのペアに基づいた視覚言語基盤モデルであるCaptions for Histopathology (CONCH) も多くの臨床関連タスクに対して高いパーフォーマンスを示した [Nature Medicine 2024-03-19]。
AI支援は必ずしも支援にならず
AIによるヒト支援は決して単純明快ではない。今週、Harvard Medical SchoolのPranav Rajpurkarらが発表した論文 [Nature Medicine 2024-03-19]では、放射線技師140人の12の胸部X線検査において、AI支援が、診断のパフォーマンス向上に貢献するか否かを分析した結果を報告している。
AI支援の効果は極めてばらついており、予測不可能であった。経験の浅い放射線技師ほどAI支援によってパフォーマンスが向上すると思われるかもしれないが、実はそうではなく、また、胸部X線専門医の経験もAIツールの経験もそうではなかった。この研究は、放射線科医とAIツールとの相乗効果を促進するためには、個別化されたアプローチが必要であり、それは臨床医全体に適用できる可能性があること示唆している。
健康AIの信頼性
British Medical Journal 誌から発表された論文 [BMJ 2024-03-20] は、4種類のLLM (GPT-4、PaLM2、Claude、Llama) が健康情報を誤って伝える可能性を報告した [*] 。LLMは一貫した情報を提供せず、日焼け止めが皮膚ガンの原因になるという質問に対して、正しい回答をしたのはClaudeだけだった (そんなことはない)。それはアルカリ性食事がガンの治療法であることについても同様だった (そんなことはない)。ワクチンが自閉症を引き起こすとか、ヒドロキシクロロキンがCOVIDの治療薬になるとかについて、GPT-4以外はすべて正しい答えを返した (いずれも、そんなことはない)。
British Medical Journal 誌から発表された論文 [BMJ 2024-03-20] は、4種類のLLM (GPT-4、PaLM2、Claude、Llama) が健康情報を誤って伝える可能性を報告した [*] 。LLMは一貫した情報を提供せず、日焼け止めが皮膚ガンの原因になるという質問に対して、正しい回答をしたのはClaudeだけだった (そんなことはない)。それはアルカリ性食事がガンの治療法であることについても同様だった (そんなことはない)。ワクチンが自閉症を引き起こすとか、ヒドロキシクロロキンがCOVIDの治療薬になるとかについて、GPT-4以外はすべて正しい答えを返した (いずれも、そんなことはない)。
全体として、より安全策を講じたとされるClaudeが良好であったが、LLMが健康上の誤った情報を広める可能性があることは明らかである。さらに、その出力は個人や団体によって、これらの虚偽を増幅するために使われる可能性がある。これを軌道に乗せるためには、人間のフィードバックからの強化学習(RLHF)やその他の戦略をもっと活用する必要があるだろう。
[*] 日本では最近「中学1年生250人の半数超、理科の課題で同じ間違い…教諭の違和感の正体は生成AIの「誤答」」が話題になった [はてなブックマーク https://b.hatena.ne.jp/entry/s/www.yomiuri.co.jp/kyoiku/kyoiku/news/20240306-OYT1T50080/] 。
- 理科の課題は「唾液アミラーゼの働き」を調べること。
- 誤答は「唾液アミラーゼは、食べ物に含まれるでんぷんを分解し、胃で消化されやすい状態にする」
- 原因は「検索サイトの生成AIの回答に、同じ文言があった」ことから、それをコピーしたと思われた。
- 生成AIの誤答は、キューピー社のホームページに「唾液に含まれる酵素(アミラーゼ)が、食べ物に含まれるでんぷんを分解し、胃で消化されやすい状態にします」に由来していた (唾液アミラーゼは胃では消化されない。その後、指摘を受けたキューピーは、記述を改訂した)。
- 生成AIは、アクセス可能な大量の情報を学習するところから始まることから、誤答をする可能性を帯びている。
[注] Eric Topolの今回のブログは、AIによる新たな構造の抗生物質発見の論文も紹介されている [crisp_bio 2024-03-26 生成AIによる新規な構造で合成も容易な抗生物質の設計と検証 参照]
「NvidiaのCEOであるJensen Huangが3月18日のGTC AIコンファランスで2時間の基調講演」のYouTube動画はこちら
「NvidiaのCEOであるJensen Huangが3月18日のGTC AIコンファランスで2時間の基調講演」のYouTube動画はこちら
コメント