昨年 (2024年)、英国Surrey大学の統計学者であるMat Spick博士は、自身が副編集長を務めるScientific Reports 誌に、奇妙なほど似たような論文が大量に投稿されていることに気づき始めた。彼は何かがおかしいと感じた。これらの論文はすべて、米国で公開されているデータセット、米国の国民健康栄養調査(National Health and Nutrition Examination Survey: NHANES)に基づいている。NHANESは、健康診断、血液検査、面接を通じて、13万人以上の食事情報やその他の健康関連の測定値を収集している。「ほぼ同じような論文が大量に届いていました。1日に1本、時には2本も」とSpick博士は語る。
Spick博士は、Surrey大学およびAberystwyth大学の研究者と共同で、「NHANESを使った低品質の論文が急増しており、その原因はペーパーミルと呼ばれる違法な金儲けの組織にあり、AI生成テキストの利用によって促進されている可能性がある」と2025年の5月はじめにPLOS Biology 誌にて報告した [*]。
研究チームは、2つの主要な文献データベース(PubMedとScopus)で、NHANESデータを用いて、特定の環境要因や生理学的要因と特定の人口集団との間の単一の関連性を調べた研究を検索した。その結果、Scientific Reports、BMC Public Health、BMJ Openなど147誌に掲載された341件の論文を発見した。 2014年から2021年にかけて、このような論文は平均して年間4本発表されていたが、2022年に急増が始まり、研究者らが調査を行った2024年10月までに190本の論文が発表された。著者らによると、この増加は、一般的に大規模データセットを用いた健康研究の増加をはるかに上回っており、NHANES研究の急増の背景には、何らかの追加要因があることを示唆している。
この時期はChatGPTなどのAIチャットボットが広く利用可能になった時期と重なっている。PLOS Biology の論文を査読したシドニー大学の分子生物学者Jennifer Byrne教授は、これらのチャットボットは、盗作の検出を避けるために、同じNHANESの基本的な研究結果を延々と言い換えるために使われた可能性があると述べている。
研究チームはまた、最近のNHANES論文の大部分が中国の研究者によって執筆されていることも発見した。2021年以降に発表された論文の92%は中国の研究機関に所属する第一著者であったのに対し、2021年以前に発表された論文ではわずか8%だった。Spick博士は、これもペーパーミル関与を示唆していると述べ、中国の研究者が直面するプレッシャーとインセンティブがペーパーミルの利用を促進しているという調査結果を指摘している。
また、最近のNHANES研究の多くが、明確な根拠なくデータセットの一部を選択的に分析していることも発見した。これは、著者らが容易に論文を発表するために統計的に有意な結果を求めていたことを示唆しているとSpick博士は述べている。
Spick博士の研究チームは、彼らの分析が問題を大幅に過小評価している可能性があると考えている。PLoS Biology論文では、一定の形式に当てはまるNHANES研究のみを対象としていましたが、より広範な検索を行うと、NHANESデータセットを使用した論文は2023年の4,926件から2024年には7,876件に増加していたからである。
Spick博士によると、世界疾病負担研究(Global Burden of Disease study)などの他の大規模な健康データセットも脆弱である可能性がある。これらのデータセットは、研究者がPythonやRなどのコーディング言語を使って情報を簡単に操作できる一方で、悪用されやすいという欠点もある。研究チームは、NHANESからすべてのデータを取得し、疾患と健康状態の変数の組み合わせを「サクサクと処理」できるコードを簡単に作成できた。低品質の研究の「産業化」によって、論文は役に立たない研究結果で溢れかえっているとSpick博士は言う。
これらの論文は、「科学出版と研究への報酬制度の両方における広範な問題を反映している」と、Northwestern大学のメタサイエンティスト(metascience研究者)Reese Richardson博士は言う:「PLoS Biology論文に名前が挙がっている出版社はすべて、おそらく1件あたり1000ドル程度の料金を取って、このようなジャンクを出版した」「研究者はキャリアアップのために、質の高い論文ではなく、より多くの論文を出版するインセンティブが働いている」「科学論文出版に関するインセンティブを根本的に再構築しない限り、問題は悪化するばかりだ」
[出典]
- NEWS "Low-quality papers are surging by exploiting public data sets and AI" O’Grady C. Science. 2025-05-14. https://doi.org/10.1126/science.zgawnij
- NEWS "AI linked to explosion of low-quality biomedical research papers" Naddaf M. Nature 2025-05-21. https://doi.org/10.1038/d41586-025-01592-0
- [*] 論文 "Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database" Suchak T [..] Spick M. PLoS Biol. 2025-05-08. https://doi.org/10.1371/journal.pbio.3003152
コメント