crisp_bio

論文・記事紹介:CRISPR生物学・技術開発・応用 (ゲノム工学, エピゲノム工学, 代謝工学/遺伝子治療, 分子診断/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野); タンパク質工学;情報資源・生物資源;新型コロナウイルスの起源・ワクチン・後遺症;研究公正

2022-11-18 原著論文紹介News & Views記事「オーファンタンパク質の構造予測で、自然言語モデルがAlphaFold2を打ち負かした」の書誌情報とリンクを追記
[出典] "A language model beats alphafold2 on orphans" Michaud JM, Madani A, Fraser JS. Nat Biotechnol 2022-10-03.
https://doi.org/10.1038/s41587-022-01466-0 [著者所属] UCSF, Profluent Bio.
Fig. 1: Distance restraints from experiment or language models in protein structure calculations参照
  • NMR分光法によるタンパク質構造決定では、核オーバーハウザー効果を利用して、3次元空間で近接する残基(互いに拘束する残基)を推測する。 
  • 初期の共進化に基づく手法では、多重配列アラインメントにおける強く相関する残基に注目して、3次元空間で近接する残基(互いに拘束する残基)を推測する。
  • AlphaFold2と深層学習モデルでは、多重配列アラインメントにおける弱い相関にも注目して、3次元空間上でより高密度な互いに拘束する残基ネットワークを生成する。 
  • 自然言語モデルとベースとするRGN2のブレークスルーは、アライメントに依存しない言語モデルから互いに拘束する残基を学習することにある。
 ホモログがほとんど存在せず従って多重配列アライメントを得られない天然のオーファンタンパク質や天然に存在しない人工タンパク質の3次元構造予測には、RGN2がAlphaFold2やRoseTTAFoldよりも桁違いに速くまた平均的により正確である。なお、オーファンタンパク質は、真核生物とウイルスタンパク質の約11%、拡大し続けるメタゲノムから推定されるタンパク質配列の約20%を占めている。
2022-10-04 初稿
[出典] "
Single-sequence protein structure prediction using a language model and deep learning" Chowdhury R, Bouatta N, Biswas S [..]  Church GM, Sorger PK, AlQuraishi M. Nat Biotechnol 2022-10-03. https://doi.org/10.1038/s41587-022-01432-w [著者所属] Harvard Medical School, Nabla Bio, Inc., Columbia University;Fig. 1: Organization and application of RGN2. https://www.nature.com/articles/s41587-022-01432-w/figures/1
 AlphaFold2および関連する計算システムは、深層学習と多重配列アライメント(multiple sequence alignment, MSA)から推定される共進化関係を利用してタンパク質の構造を予測する。したがって、(1) MSAを用意できないタンパク質や急速に進化するタンパク質の予測、(2) de novo設計した構造の高速探索、(3) 溶液中での自発的なポリペプチドのフォールディングに支配されるルールの理解には課題が残されている。
 著者らは今回、エネルギー関数をベースにしたモデルに替えて、自然言語モデル  [注1参照] (AminoBERT) をベースにしたエンドツーエンドディファレンシャル・リカレントジオメトリックネットワークモデルRGN2 [*]を開発し、MSAを用意できないタンパク質 (unalgined proteis)のアミノ酸配列に潜在している構造情報の学習を可能にした。
[*] 本論文の共同責任著者の一人であるMohammed AlQuraishiは、2019年にRGN (recurrent geometric network) モデルを発表していた [注2 参照]。
 論文では、AminoBERTの実装と学習およびRGN2におけるFrenet-Serret式の使用、および、有意な配列相同性を持たない天然タンパク質とde novo設計タンパク質に対する性能評価の結果を報告している。
 既知のホモログを持たない天然由来のオーファン蛋白質やde novo設計蛋白質に対して、AlphaFoldとRoseTTAFold [注3 参照]がRGN2よりも高い絶対GDT_TS(Global Distance Test-Total Score)スコアを達成したのにも関わらず、平均値で見ると、RGN2のGDT_TSは、AlphaFold2AF2およびRoseTTAFoldよりも高いという結果を得た。
 また、MSAの使用が可能なタンパク質の予測については、RGN2の性能はMSAベースの手法に及ばなかったが、RGN2の計算速度はApphaFoldとRoseTTAFoldよりも最大で6桁も速く (計算時間 10<6>分の1)、配列と構造のランドスケープの効率的探索に利用可能である。

[注1] 自然言語モデル
 2017年に発表された深層学習モデルであるTransformerモデルをベースに自然言語処理モデルのBERT や大規模なGPT-2,  -3)モデルが開発されてきた。
 
[注2] RGNモデル (Nature Biotechnology 論文ではRGN1と称されている)
[出典] "End-to-End Differentiable Learning of Protein Structure" AlQuraishi M. Cell Systems 2019-094-24/04/17. https://doi.org/10.1016/j.cels.2019.03.006:RGN (リカレント・ジオメトリック・ネットワーク/recurrent geometric network)は、アミノ酸配列とPSSM (position-specific scoring matrices/位置特異的スコアマトリックス)を入力とし、3次元構造を出力する。このモデルは、計算、幾何学、評価の3つのステージから構成されている。第一ステージは、各残基の位置について、そのアミノ酸とPSSMに関する情報を、隣接するユニットから得られる情報と統合する計算ユニットで構成されている。これらのユニットをリカレント双方向トポロジーに配置することで、各残基の計算が上流と下流の残基からN末端とC末端までの情報を統合し、タンパク質全体 (エンドツーエンド)をカバーする。さらにユニットを多層に積み重ねることで、タンパク質のマルチスケールな構造が特に指示することなくモデルに表現される。各ユニットが、残基のねじれ角に対応する3つの数値を出力し、角度の計算方法を事前に指定する必要は無い。各ユニットの計算が、構造を正確に予測できるようにパラメータが最適化された方程式で記述されている。
 RGN2モデルは、RGN1が複数配列のデータから導出されるPSSMに替えて、AminoBERTをベースにした。また、ポリペプチド全域にわたり回転および並進に対して不変な形状を記述する手法を採用した。この手法にはFrenet-Serretの公式を使用して、各Cαに参照フレームを埋め込み、一連の変換によってバックボーンを簡単に構築する機能が含まれている。
 
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット