[出典] "ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing" Liu R, Shah NB. arXiv 2023-06-01 [preprint]. https://doi.org/10.48550/arXiv.2306.00622 [著者所属] Carnegie Mellon University
 カーネギーメロン大学の研究チームは、大規模言語モデル(LLM)の急速な普及を見て、大規模言語モデル (Large Language Models: LLMs) が科学論文または研究課題提案のレビューにどのように役立つかを研究している。
 今回、パイロット研究の段階で、
  • GPT-4が他のLLM(Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM)より優れている。
  • 特定の質問 (例えば、エラーの発見) を促す方が、単にレビューを促すよりも優れている。
ことを発見した。つづいて、このパイロット研究の結果を受けて、三種類の課題で、LLM(特にGPT-4)を3つの課題で評価した。
  1. エラーを特定する:意図的にエラーを挿入した13本のコンピュータサイエンスの論文を作成し、LLMにこれらの論文の正しさをチェックするよう依頼した。その結果、LLMは7つの論文で誤りを発見し、その内容は数学的なものと概念的なものの両方に及んでいることが確認された。
  2. チェックリストを検証する:15本のNeurIPS2022  https://nips.cc/Conferences/2022 論文のそれぞれのセクションにある16のチェックリストの質問を検証するよう、LLMに依頼した。その結果、119の{チェックリストの質問と論文}のペアで、LLMは86.6%の精度を示した。
  3. より良い論文を選択する:10組のアブストラクトを作成し、片方のアブストラクトがもう片方のアブストラクトより明らかに優れているように、設定した。しかし、LLMはこのような比較的簡単な区別を正確に判断することができず、10組中6組で評価ミスを犯した。
 これらの実験から、LLMは、論文やプロポーザルの完全な評価には使えないが、特定の査読作業のための補助に利用可能と思われる。