[注] ESM (Evolutionary Scale Modeling)はFacebook AI Research (現 META AI) を中心に開発された言語モデル
[出典] "Evolutionary-scale prediction of atomic-level protein structure with a language model" Lin Z, Akin H, Rao R, Hie B [..] Rives A. Science 2023-03-16. https://doi.org/10.1126/science.ade2574 [著者所属] FAIR (Meta AI), New York Y, Stanford U, MIT.

[Webサイト] ESM Metagenomic Atlas - ESMFoldでメタゲノム配列から予測した7億7200万のタンパク質構造データベース [右図は画面キャプチャ]
[先行論文] "Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences" Rivers A, Meier J, Sercu T, Goyal S et al. PNAS 2021-04-05. https://doi.org/10.1073/pnas.2016239118: 860億のアミノ酸と2億5千万種類のタンパク質のデータと1億パラメーターをベースにTransformer言語モデルを応用。
[関連ニュース] NVIDIA がライフ サイエンスの研究開発を促進するための大規模言語モデルとジェネレーティブ AI サービスを発表. PR TIMES. 2023-03-24
近年の機械学習によるタンパク質構造予測は、マルチプル・シーケンス・アラインメント (MSA) から得られるタンパク質の進化情報に依存している。著者らは今回、150億パラメーターまでスケールアップ可能な言語モデルESM-2によって、タンパク質のアミノ酸配列からMSAを介さずに、原子分解能の構造予測が可能なことを示した。
このモデルによって高精度なタンパク質構造予測がAlphaFoldやRoseTTAFoldから1〜2桁高速になり、ひいては、膨大なメタゲノム配列からのタンパク質構造予測も、2,000 GPUs 実行可能になった。
メタゲノムから予測したタンパク質構造はESM Metagenomic Atlasから公開されており、論文公開時点で、6億1700万を超えるメタゲノム由来のタンパク質配列から予測した構造が収められ、その中の2億2500万件以上が、AlphaFoldやRoseTTAFoldによる予測と同レベルの信頼度である。また、また、構造既知のタンパク質に類似性が見られなかったタンパク質が10%以上を超えている。
コメント