crisp_bio

科学分野の比較的新しい論文と記事を記録しておくサイト: 主に、CRISPR生物学・技術開発・応用 (ゲノム編集, エピゲノム編集, 遺伝子治療, 分子診断/代謝工学, 合成生物学/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野) の観点から選択し、時折、タンパク質工学、情報資源・生物資源、新型コロナウイルスの起源・ワクチン・後遺症、機械学習・AIや研究公正からも選択

 ChatGPTのような大規模言語モデル(Large language models: LLM)は、ヒトのレベルの性能でテキストを生成・修正できる。しかし、LLMには明確な限界があり、不正確な情報を生み出すハルシネーションが生成されたり、社会に流通している大量のデータに内在していたバイアスを強めたりするリスクを伴っている。それでも、学術論文執筆にLLMを使用している科学者は決して少なくないと見られている。それでは、学術文献においてLLMは実際にはどの程度広く使用されているのだろうか?

 今回、ドイツのテュービンゲン大学と米国ノースウェスタン大学の研究チームは、生物学医学研究分野の研究論文執筆へのLLMの浸透を計るべく、バイアスのない大規模なアプローチを試行した。

 米国NCBIが提供している文献情報データベースPubMedに収録されていた2010年から2024年までの1,510万件の生物学医学英文論文抄録を対象にして、使用されている語彙の変化をLLMの出現と特定のスタイルワード*の出現頻度の急激な増加との相関の観点から分析する「過剰語彙分析(excess word analysis)」を行った。研究チームはこのアプローチを、COVID-19パンデミックの際に盛んに行われた「超過死亡数(excess deaths)」の推定研究から着想した。

  この過剰語彙分析は、2024年出版論文の抄録(150万件)の少なくとも13.5%(> 20万件)がLLMによって処理されたことを示唆した。この割合は分野、国、ジャーナルおよびそれらの組み合わせによるサブグループごとに異なっていた。LLMの影響が最も強かったサブグループとしては、中国からの計算科学関係論文群、深層学習に基づくオブジェクト検出をテーマとし主として中国由来で大半がMDPIのSensors 誌に掲載されていた論文群が、浮上してきた。

[*] スタイルワードは通常論文の内容とは無関係な慣用語を意味する。今回の分析では「findings(発見)」「crucial(重要な)」「potential(潜在的)」といった一般的な単語、「delves(掘り下げる)」や「showcasing(紹介する)」といったあまり一般的ではない単語、2024年後半に出現した過剰単語には、「heighten(強調する)」や「hinder(阻害する)」といった単語に加え、「unparalleled(比類のない)」「invaluable(貴重な)」といった最上級表現も見出された [Fig.1 とFig.2を以下に引用]。
過剰言語1過剰言語2
[crisp_bio補足] 
 AIを利用した研究論文の執筆に関する議論と同時に、AIを利用した研究論文の査読に関する議論も続いている [1, 2]。また、最近、投稿原稿にAI向けの秘密の(人間の査読者には気づかれれないように仕込んだ)命令を埋め込んが例が報道されている [3]
  1. NEWS FEATURE "AI is transforming peer review — and many scientists are worried" Naddaf M. Nature 2025-03-26. https://doi.org/10.1038/d41586-025-00894-7
  2. NEWS "AI peer reviewers unleashed to ease publishing grind" Heaven D. Nature 2018-11-22. https://doi.org/10.1038/d41586-018-07245-9
  3. ニュース「論文内に秘密の命令文、AIに「高評価せよ」 日韓米など有力14大学で」日本経済新聞 2025-06-30. (有料会員限定記事) https://www.nikkei.com/article/DGXZQOUC13BCW0T10C25A6000000/
[出典]
  • 論文 "Delving into LLM-assisted writing in biomedical publications through excess vocabulary" Kobak D, González-Márquez R, Horvát EÁ, Lause J. Sci Adv. 2025-07-02. https://doi.org/10.1126/sciadv.adt3813 [著者所属] U Tübingen (ドイツ), Northwestern U (米国)
  • ニュース "Signs of AI-generated text found in 14% of biomedical abstracts last year" Mallapaty S. Nature 2025-07-02. 
    https://doi.org/10.1038/d41586-025-02097-6
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット