crisp_bio

科学分野の比較的新しい論文と記事を記録しておくサイト: 主に、CRISPR生物学・技術開発・応用 (ゲノム編集, エピゲノム編集, 遺伝子治療, 分子診断/代謝工学, 合成生物学/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野) の観点から選択し、時折、タンパク質工学、情報資源・生物資源、新型コロナウイルスの起源・ワクチン・後遺症、機械学習・AIや研究公正からも選択

- すでに爆発的に使われているにもかかわらず、大規模な言語モデルはいまだに謎に包まれている。その本質を明らかにすることは緊急かつ重要である。

[出典] EDITORIAL "ChatGPT is a black box: how AI research can break it open - Despite their wide use, large language models are still mysterious. Revealing their true nature is urgent and important" Nature 2023-07-25. https://doi.org/10.1038/d41586-023-02366-2

I propose to consider the question, ‘Can machines think?” 1950年、イギリスの計算・数学界の泰斗アラン・チューリングの論文は「'機械は考えることができるのか'という問いに真剣に取り組もうではないか」次いで「それは'機械'と'考える'の定義から始められるべきであろう」と始められている [*1]

チューリングはしかし、「機械」と「考える」を定義するという議論百出の難題には取り掛からずに、冒頭の問いを「模倣ゲーム (imiration game)」と呼ぶシナリオに置き換えた。このゲームでは、質問者 (interrogator)と呼ばれる人物と、別室の回答者 (ヒト)とコンピュータの間で、質問と回答をテキストベース (音声を伴わない言語、できれば、タイプされたテキスト) でやりとりすることで進行する。チューリングは、質問者がコンピューターを確実に察知できるかどうかを考え、もし察知できなければ、「コンピュータは考えている」と推定できると暗示した (implied)。このゲームは人々の想像力をかき立て、チューリング・テスト [Wikipedia]として知られるようになった。

チューリング・テストは不朽のゲームになったが、あまりに漠然としすぎており、純粋に知的な行動というよりは、むしろ欺瞞に焦点を当てすぎていると考えられ、人工知能 (AI) の本格的な研究のツールや目標たりえないとされてきた。しかし、言語が知能の評価や創造において、どのような役割を果たせるかという問いは、今日、かつてないほど重要な意味を持つに至った。大規模言語モデル (large language moderl: LLM) として知られるAIシステムの能力が爆発的に向上したおかげである。

LLMは、カリフォルニア州サンフランシスコの企業OpenAIによって作られたチャット・ボットChatGPTを始めとして、マイクロソフトのBing Chat、グーグルのBardといった他の先進的なボットのベースとなっている。LLMは、「大規模言語モデル」というその名が示唆するように、純粋に言語に基づいている [注: ボットはもともとは、システムやヒトと情報をやりとりする自律的プログラムを意味していた]

これらのボットは、気味悪いほど人間的で、時には、心地よい会話を提供し、エッセイ執筆や作詩、プログラムのコーディング、難関試験の合格、文章の要約などをこなし、AIとその台頭が人類にとって一体何を意味するのか、興奮と恐怖を、引き起こすに至った。

しかし、ボットの驚異的な性能に対して、まず知っておかなければならないことがある:LLMはどのように機能するのだろうか? 他のニューラルネットワークと同じように、LLMの振る舞いの多くは、プログラマーが直接指定するのではなく、学習プロセス (training process) から生まれる。その結果、多くの場合、LLMがなぜそのような振る舞いをするのか、また、その振る舞いを支えるメカニズムを、LLMの開発者さえも説明不可能な状況にある。Nature 誌が特集 [*2]で報じているように、科学者たちはLLMの真の能力とそれを動かす根本的なメカニズムの両方を徐々に解明しつつあるが、カリフォルニア州スタンフォード大学の認知科学者、マイケル・フランクは、この作業を「エイリアンの知性」を調査するのに似ていると表現している。

Microsoft Researchの研究チームが指摘しているように [*3]  、LLMの性能とメカニズムを明らかにすることは緊急かつ重要である。LLMが医学や法学などの分野で問題を解決し、生産性を向上させるためには、人々はこれらのツールの成功と失敗の両方をよりよく理解する必要がある。それに応えるには、現在存在するベンチマークテストよりも、より体系的な評価を可能にする新たなテストが必要になるだろう。

LLMは膨大な量のテキストを取り込み、それを使って、文章や会話の次の単語の予測を学習する。LLMは試行錯誤を繰り返して出力を調整し、さらに、人間のトレーナー [*4]からのフィードバックによって出力を改良する。プロセスとしては一見単純ではあるがこれが強力な効果をもたらす可能性がある。LLMは、1つのタスクや単機能に特化した以前のAIシステムとは異なり、ほんの数年前までの単一システムでは考えられなかったような広範な試験や問題を軽々とこなしてみせる。

一方で、研究者たちがそのエビデンスを報告し始めたように、LLMの能力は脆い可能性がある。ChatGPT以後で最も進化したLLMモデルであるGPT-4は、いくつかのアカデミックで専門的な試験問題を解いたが、問題の言い回しかたに僅かな揺れがあっただけでも破綻する。このロバスト性の欠如は、現実世界での信頼性の欠如を示唆している。

こうした状況からLLMの将来について、研究者の間でも議論が分かれている。一方では、LLMがいくつかのテストに成功した例をみて、LLMに推論と理解のきらめきを見る研究者たちである。もう一方は、その信頼性の低さを、モデルが見かけほど賢くないことを示す兆候と見る研究者たちである。

この議論は、LLMの能力を、より系統的なテストで評価することで、決着をつけることになろう。そうすれば、モデルの長所と短所をより確実に理解することができるだろう。医薬品が特定の単一または複数の疾患に対する有効性と安全性の審査を経て承認されるプロセスと同じように、AIシステムの実社会での利用も、同様なプロセスを経て承認され、性能とともに副作用も周知されるべきであろう。

2023年5月、ニューメキシコ州サンタフェ研究所のコンピューター科学者メラニー・ミッチェル率いる研究チームは、AIのベンチマーク用のConceptARCを報告した [*5]。これは、AIシステムが抽象概念について推論する能力をテストするための一連の視覚的パズルである。重要なのは、AIが16の基本概念を本当に理解しているかどうかを、各概念を10通りの方法でテストすることで系統的に検証することである (ネタバレ注意:GPT-4のパフォーマンスは低い)。しかし、ConceptARCは推論と汎化の一面を扱っているに過ぎず、より多くのベンチマークテストが必要である。

先に引用した医薬品の信頼性は、臨床試験で示された安全性と有効性から得られるだけではない。医薬品の作用機構を理解することも重要であり、それによって、研究者は異なる文脈でどのように機能するかを予測することができ、当初の承認対象外の疾患への応用や、臨床試験で捉えきれなかった反応への対処が可能になる。同じような理由から、LLMの振る舞いの裏にあるメカニズムを解明することが必須である。

研究者たちはLLMの内部機構を理解したいと考えているが、その道のりは長い。LLMを開発する企業の透明性の欠如も障害になっている。しかし、規制当局のAI企業への監視の目は厳しさを増しており [*6]、将来的にはより多くのデータが開示されるようになるかもしれない。

チューリング博士が「模倣ゲーム」を提唱してから73年、LLMの長所と短所、そしてLLMを動かすメカニズムを理解すること以上に、AIの分野にとって重要な課題があるとは考えにくい。

[引用文献とコメント]
  1. Computing Machinery and Intelligence” Turing A. Mind, Volume LIX, Issue 236, October 1950, Pages 433–460. 
  2. "ChatGPT broke the Turing test — the race is on for new ways to assess AI - Large language models mimic human chatter, but scientists disagree on their ability to reason." Bieber C. Nature 2023-07-25. 
  3. "Sparks of Artificial General Intelligence: Early experiments with GPT-4" Bubeck S [..] Zhang Yi. arXiv. 2023-04-13 (v5). [preprint] 
  4. 産総研の「国内最高性能の大規模クラウド型計算機ABCIが本格稼働」が発表され、ハードウエア性能が華々しく報道されていが、LLMの訓練に必須のトレーナー集団に関する報道はほとんどされていないようだ。
  5. "The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain" Moskvichev A, Odouard VV, Mitchell M. arXiv. 2023-05-11. [preprint].
  6. "FTC (Federal Trade Commission) investigating ChatGPT-maker OpenAI for possible consumer harm" Feiner L. CNBC. 2023-07-13. 
[関連crisp_bio記事]
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット