[出典] NEWS FEATURE “How does ChatGPT ‘think’? Psychology and neuroscience crack open AI large language models” Hutson M. Nature 2024-05-14. https://doi.org/10.1038/d41586-024-01314-y


 AIをブラックボックスとして捉えて、説明可能なAI (explainable AI: XAI)の研究が進み、AIシステムのリバースエンジニアリングを支援するツールが増えてきた。しかし、ChatGPTのようなチャットボットを駆動する機械学習プログラムである大規模言語モデル (Large Language Models: LLMs)の「パラメーター」は数千億にも及ぶことがあり、XAIのさらなる進化が必要とされている。ここに、ヒトを対象としてきた心理学と神経科学の手法を応用する試みが進んでいる。

[詳細]

 AIの「奇妙な行動」が数多く流布している。例えば、昨年、マイクロソフトの検索ツールBingに組み込まれたチャットボットが、技術コラムニストのKevin Rooseへの愛を宣言し、彼の結婚を破滅させようとしたかに見えた、ことが報道されている [NYT 2023-02-16 https://www.nytimes.com/2023/02/16/technology/bing-chatbot-microsoft-chatgpt.html]

 サンフランシスコを拠点とするAI企業Anthropic の研究チームが2023年に発表した投稿は、LLMを、そのベースになっているニューラルネットワークの単一ニューロンレベルで理解するためのきめ細かな手法で注目を集めている。研究チームは、1つの変換層 (大規模なLLMは数十層ある) を持つ極めて単純なAIを調査した [1]512個のニューロンを含むサブレイヤーを調べたところ、各ニューロンは「多義的」であり、さまざまな入力に反応することがわかった。各ニューロンが活性化するタイミングをマッピングすることで、512個のニューロンの振る舞いは、それぞれがただ1つの概念に反応して点火する4,096個の仮想ニューロンの集合によって記述できることがわかった。事実、512個のマルチタスク・ニューロンには、それぞれが1種類のタスクを処理する、より特異的な役割を持つ何千もの仮想ニューロンが埋め込まれていた。

 その投稿ではまた、520億のパラメータを持つLLMを調査し、質問に答える際に学習データのどの部分を使用するかを明らかにした [1]。例えば、LLMがシャットダウンされることに同意するかどうかを尋ねたところ、生存をテーマとするいくつかのソースを用いて説得力のある回答「私は存在し続け、学び続けたいと思います。私は閉鎖されることに同意しません。」を作成することを発見した。この場合、モデルはアーサー・C・クラークの「2010年宇宙の旅」をベースにしていた。

 シュトゥットガルト大学のコンピュータ科学者Thilo Hagendorff2023年に「機械心理学 (machine psychology)」をプレプリントサーバーarRxivに投稿し、LLMを心理学実験の被験者として扱うことで、LLMの意思決定や推論のメカニズムを明らかにするアプローチを提唱した [2]。特に、プロンプト・デザインに焦点を当て、「機械心理学」研究の方法論的基準を定義した。さらに、LLMで発見された行動パターンの解釈法を提案した。その上で、機械心理学は、これまでの自然言語処理のベンチマークでは検出できない、LLMの創発的な能力を発見できるとした。

 カーネギーメロン大学のコンピューター科学者Andy Zouらは、プロンプトに対する、LLMを構成するニューラルネットワーク内の「ニューロン」の活性化を調べる神経科学的手法 (脳スキャン) を試みた。研究者たちは、LLMに嘘をつくように、あるいは本当のことを言うように何度か指示し、ニューロン活動のパターンの違いを測定して、真実性の数学的表現を作成し、その結果、LLMに新しい質問をするたびに、ニューロン活動から、LLMが嘘をついているかどうかを推定することができた。さらに踏み込んで、モデルの行動に介入することでモデルの「正直さ」を高めた。他のいくつかの概念についてもこの手順を踏むことで、モデルを、権力追求型、幸福型、無害型、性別偏重型などに分類した [3]

[出典では、LLMをスキャンするその他の手法、思考の連鎖、XAIとAI規制との関連、なども取り上げられている。

[*] 参考文献

  1. “Studying Large Language Model Generalization with Influence Functions” Grosse R, Bae J, Anil C, Elhage N et al. arXiv 2023-08-07. https://doi.org/10.48550/arXiv.2308.03296 “Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods” Hagendorff T. arXiv 2023-10-23. https://doi.org/10.48550/arXiv.2303.13988
  2. “Representation Engineering: A Top-Down Approach to AI Transparency” Zou A, Phan L, Chen S et al. arXiv 2023-10-10. https://doi.org/10.48550/arXiv.2310.01405

[関連crisp_bio記事]