- 既知の一連のタンパク質ファミリーに匹敵する規模の新規ファミリーを発見
[出典]
論文 "Unraveling the functional dark matter through global metagenomics" Pavlopoulos GA [..] Kyrpides NC; Novel Metagenome Protein Families Consortium. Nature 2023-10-11. https://doi.org/10.1038/s41586-023-06583-7
NEWS "Doubling Down on Known Protein Families" Joint Genome Institute. 2023-10-11. https://jgi.doe.gov/release-nmpfcatalog/
メタゲノムには、さまざまな機能と活性を帯びた極めて多様なタンパク質がコードされている。メタのゲムの膨大な配列空間を探る手法は、これまで、微生物の参照ゲノム ならびに参照ゲノム由来のタンパク質ファミリーに対する比較解析に限られていた。
米国JGIのNikos C. Kyrpidesを責任著者とする米, カナダ, メキシコ, 英, 独, 仏, フィンランド, チェコ, スペイン, ギリシャ, ニュージーランド, およびオーストラリアの国際共同研究チームは、参照ゲノム依存では手が届かなかった多様な機能を帯びた微生物の機能空間にタンパク質を介して光を当てる手法として、メタゲノム配列の"all vs all"比較から始まるタンパク質ファミリー生成データ解析ワークフローを開発した [Fig. 1引用右図参照]。

- 具体的には、26,931件のメタゲノムを解析し、35アミノ酸より長く、かつ、102,491件の参照ゲノムまたはPfamデータベース内の配列には類似性が無い(no similarity)、タンパク質配列 11.7億件を同定した。
- グラフベースの超並列クラスタリングHiMCL [NAR, 2018]を用いて、100種類以上のタンパク質配列をメンバーとする106,198種類のクラスター (タンパク質ファミリー) に分類し、これらをNovel Metagenome Protein Families (NMPF) と称した。このNMPFによって、タンパク質ファミリーがこれまでのほぼ2倍にまで拡張された。
- タンパク質ファミリーに、分類学的 [Fig. 3引用左下図参照]、生態系 [Fig.2引用右下図参照]、地理的、および遺伝子的な近傍分布に基づいてアノテーションを付した。
- さらに、
配列の多様性が十分見られた場合について、AlpahFold2 とTrRossetta [PNAS, 2022] [*]を利用してタンパク質の立体モデルを予測し、一連の新規なタンパク質構造を得た [Fig.4 引用右図参照]。[*] David Bakerの研究チームも本論文の共著者になっている。
本研究は、タンパク質の機能空間の広がりに光を当て、微生物の成果に内在するダークマターのさらなる探索の意義を示した。
[crisp_bio 注] 共著者の一人Sergey Ovchinnikov (John Harvard Distinguished Science Fellowship Program, Harvard University) のX (旧 Twitter) / @sokryptonによると、この研究に着手したのは7年前とのこと
コメント