[出典] "Large-scale investigation of the reasons why potentially important genes are ignored" Stoeger T, Gerlach M, Morimoto RI, Nunes Amaral LA. PLoS Biol. 2018 Sep 18.
- 生物医学研究がヒト遺伝子の一部に偏っていることが、度々指摘されてきた (* 原論文 References 1-8; crisp_bio記事 2017-11-24 関心が集中するヒト遺伝子の移ろい)。
- 偏りは、遺伝子ごとの論文数、機能アノテーション数、名称とシンボルの数、および各遺伝子の配列データを含む特許の数から見て取れる。Northwestern Universityの研究チームは、この偏りをもたらす要因の解明に取り組んだ。
- 研究チームはまず、NCBI GENE、MEDLINE、SwissProt、ExACなど36種類のデータベースから、ヒトタンパク質をコードする遺伝子全てについて、化学的・物理的・生物学的特性データ、研究の歴史・書誌情報・研究資金のデータおよび技術と実験のデータを集積したデータベースを構築した。
- このデータベースを利用して、各遺伝子の430項目の特性データと、論文数、共通認識となった生物学的重要性、資金および臨床応用例との相関関係を明らかにした (原論文 Fig.1 引用下図参照)。ただし、430項目の特性データが全て揃っていた遺伝子は12,948種類に止まった。
- 機械学習によって、15項目から論文数、初出論文の発行年、NIHの資金および医薬品の存否を推定可能なことを示した。これは、科学におけるthe "rich" can get "richer"の傾向を反映している。すなわち、過去に優先的に研究されていた遺伝子が現在も盛んに研究され、資金も供給され、臨床研究も広がる。
- この見方は、注目を集めていなかった遺伝子の研究論文を発表していた若手研究者がPIになる確率が明らかに低いことからも裏付けられる (原論文 Fig. S10引用下図 a 参照)。
- 研究チームは、この傾向が続くとすれば、ヒトの全遺伝子の機能解析完了までに50年 (5 decades)を要するとし、重要であるが研究が進んでいない遺伝子への取り込むみ促すようなファンディングを含む新たな研究戦略を提案した。
コメント