[] タンパク質の構造を原子レベルの精度で予測するDeepMindのAlphaFoldとBakerグループのRoseTTAFold

2021-12-27 Science 誌原著論文をハイライトした展望 (perspective)記事の書誌情報を追加し,2021-11-15の項のテキストを一部改訂した:深層学習時代のインタラクトーム "Interactomes in the era of deep learning" Pereira J, Schwede T (University of Basel). Science. 2021-12-10.  https://doi.org/10.1126/science.abm8295
[注] この記事には,これまでに開発・利用されてきた多様な手法 (クライオ電顕,X線構造解析, Y2H/XL-MS, 共進化, クライオET, ドッキング, 統合モデリング)と深層学習が相補する
イメージ図が用意されている. 

2021-12-20 2021年のScience 誌のブレークスルー賞は「AIによるタンパク質構造予測」:  crisp_bio 2021-12-20「Science 誌2021ブレークスルー賞はAIタンパク質構造予測」参照

2021-11-15  University of Texas Southwestern Medical CenterのQian CongとUniversity of WashingtonのDavid Bakerを責任著者とする研究グループが,酵母の中核的なタンパク質-タンパク質相互作用の組成とその複合体構造を同時に予測した論文をScience 誌から刊行した.
[出典] "Computed structures of core eukaryotic protein complexes" Humphreys IR, Pei J, Baek M, Krishnakumar A [..] Cong Q, Baker D. Science. 2021-11-11.  https://doi.org/10.1126/science.abm4805

 タンパク質間相互作用の知識は生物学において決定的な役割を果たすが,真核生物のタンパク質複合体の構造の多くは不明である.また,タンパク質間相互作用の多くが未だ同定されていないと考えられる.本研究では、プロテオーム・ワイドのアミノ酸共進化解析と深層学習をベースとする構造モデリングの進歩を利用して,Saccharomyces cerevisiae のプロテオームの中核を成すタンパク質複合体を網羅的に同定し,精密なモデルを構築した.
 研究グループは,RoseTTAFoldの高速なタンパク質のコンタクト予測と,AlphaFoldの高精度なタンパク質折り畳みエンジンを組み合わせることで,酵母タンパク質830万組のマルチプルアラインメントから,スクリーンショット 2021-11-16 12.47.15相互作用する可能性の高い1,505種類のタンパク質を同定し,同時に,形成される複合体の構造も予測し,Webサイト'ModelArchive'から公開した [右図画面スクリーンキャプチャー参照].その中には,これまで同定されていなかった106種類の複合体と,構造解析が実現していなかった806種類の複合体が含まれていた [タンパク質間相互作用スクリーン・パイプラインの概要について原著論文の Fig. 1 A参照].
 一連のモデルはそれぞれ最大で5個のサブユニットで構成され,真核細胞の鍵を握るプロセスに関与しており,生物機能に関する幅広い知見を提供する.
 今回のScience 論文の内容は, 2021年9月30日にbioRxiv に投稿されていたが,Pei J, Zhang J, およびCong Qは同日,いわば姉妹投稿となる''Human mitochondrial protein complexes revealed by large-scale coevolution analysis and deep learning-based structure modeling"をbioRxiv に投稿し,ミトコンドリア・タンパク質の約95%のペアの共進化を予測し,スコアが上位にランクされたぺアの殆どが,複合体の構造が実験的に明らかにされたいたペアと一致したが,実験構造が未だ得られていないペアも含まれることなどを報告した.
 Science 論文の共同責任著者の一人であるDavid Bakerは,UW Medicine Media Relations のニュースリリース (2021-11-19)で,「コンピュータ予測がより強力になり,これまでになく大量の科学データを簡単に生成することが可能になった.しかし,その意味を理解するには,専門家が必要です.そこで,得られたモデルを解釈するために,生物学の専門家集団をリクルートしました.今回の成果は,最高のコミュニティー・サイエンが達成したものです」と述べた.[参考: Science 論文の共同著者の所属機関は,U Washington, U Texas Southwestern Medical Center, Harvard U, Wayne State U, Cornell U,  MRC Laboratory of Molecular Biology, Memorial Sloan Kettering Cancer Center, Gerstner Sloan Kettering Graduate School of Biomedical Sciences Fred Hutchinson Cancer Research Center, Columbia U, U Würzburg, St Jude Children's Research Hospital, FIRC Institute of Molecular Oncology, およびIstituto di Genetica Molecolare] 

2021-11-11 更新 "AlphaFold2によるタンパク質複合体構造予測" - DeepMind社以外の研究グループから
[出典] "Towards a structurally resolved human protein interaction network" Burke DF [..] Kundrotas P, Beltran P, Elofsson A. bioRxiv. 2021-11-09 [プレプリント].https://doi.org/10.1101/2021.11.08.467664
 EMBL-EBI, Stockholm University, Utrecht University, University of Washington Seattle, ETH ZurichおよびUniversity of Kansasの研究グループが,AlphaFold2を利用して,ヒトタンパク質の相互作用65,484種類に相当する二元複合体構造を予測・評価した.
  • Human Reference Interactive (HuRI)とHuman Protein Complex Map (hu.Map 2.0)からそれぞれ55,586組みと10,207組みのヒトタンパク質相互作用(PPI)データを獲得した.両者で重複していた相互作用は309組みであった.その中で,62,019組みについては実験に基づいたモデルが存在していないか,または,ホモロジーモデリングを容易に適用できる相互作用であった.
  • 今回の予測は,AlphaFold2をベースとするFoldDockパイプライン [*]を利用し,予測構造の信頼度のスコアとしてDockQスコアを利用した.
  • DockQスコアが高い高信頼性モデルは,親和性や構造に基づいた手法で推定された相互作用の裏付けを伴い,また,クロスリンク・データで定義される空間的制約とも整合した.
  • 3,137種類の高信頼度モデルに,ClinVarとTCGAのデータベースから疾患関連ミスセンス変異をマッピングし,既知の構造に対する相同性が見られなかった1,371種類の高信頼度モデルにおいて界面にマップされた変異について考察した.
  • また,モデル上で,リン酸化部位のマッピングから,界面にマッピングされた4,145カ所のリン酸化を分析し,異なるタンパク質ペアの界面の中に,特定のキナーゼと条件下での共制御が示唆される一連のリン酸化部位を発見した.
  • さらに,予測した2元複合体の構造からより高次な構造を構築していく可能性も示した.
 [*] ヘテロ二量体構造予測: FoldDock (RoseTTAFoldその他のドッキング手法との比較を含む)
[出典] "Improved prediction of protein-protein interactions using AlphaFold2" Bryant P, Pozzati G,  Elofsson A. Research Square. 2021-10-04 (under review). https://doi.org/10.21203/rs.3.rs-951605/v1
  • デフォルトのAF2プロトコルで,テストセット中のモデルの44%を正確に予測できた.
  • マルチプルアラインメントを最適化することで、精度を59%にまで高めることができた.
  • RoseTTAFoldでは10%,テンプレート・ベースのドッキングでは35%, 従来のドッキング手法は22%の成功率であった.
  • プログラム入手先 https://gitlab.com/ElofssonLab/FoldDock 
2021-10-20 更新  AlphaFoldが,何気に利用されるようになってきたようだ
2021-10-20 [REVIEW] タイプIII CRISPR-Casシステム: 最も複雑な原核生物の免疫システムを読み解く.https://crisp-bio.blog.jp/archives/27699033.html - AlphaFoldによる構造予測に基づいて,CRISPR-Casシステムを構成するタンパク質と祖先タンパク質との関係を議論 

2021-10-07更新
 DeepMind,”AlphaFold-Multimer"をbioRxiv に投稿
[出典] "Protein complex prediction with AlphaFold-Multimer" Evans R, O’Neill M, Pritzel A, Antropova N [..] Jumper J, Hassabis D. bioRixv 2021-10-04 [プレプリント]. https://doi.org/10.1101/2021.10.04.463034
  • AlphaFoldモデルにより,単一鎖のタンパク質大部分の構造を高精度で予測可能になり,多鎖のタンパク質複合体の予測への展開も工夫されているが,後者の構造の予測は依然として簡単ではない.
  • DeepMindのグループは今回,化学量論比が既知の多量体で学習させたAlphaFoldモデルにより,各鎖内の精度を維持しつつ,多量体インターフェースの予測精度を大幅に向上させることを実証し,このモデルを,AlphaFold-Multimerとして投稿した.
  • 鋳型のない17種類のヘテロ二量体タンパク質からなるベンチマークデータにおいて,14種類について中程度の予測精度 (DocQ [*1]≧0.49)を達成し,6種類について高精度 (DockQ≧0.8)を達成した.これまでにAlphaFoldを利用したシステムの中でClusProを組み合わせた最も高性能なシステム [*2]では,中程度の精度9種類,高精度4種類にとどまっていた.
  • また,4,433種類のタンパク質複合体のデータセットについても構造を予測し,そこからテンプレートの同一性が低い非冗長なインターフェースを評価した: ヘテロメリック・インターフェイスについて67%について予測を (DockQ ≥ 0.23),23%について高精度の予測 (DockQ ≥ 0.8)を実現した; ホモマーのインターフェイスについては,69%についてインターフェイスの予測を,34%について高精度の予測を実現した.
  • 二量体の場合について,2種類の鎖を長いリンカーで接続したものを入力とするAlphaFoldで二量体の構造予測が可能と報告されていたが,この手法に比べて,ヘテロマーの場合もホモマーの場合も,AlphaFold-Multimerが優った.
  1. "DockQ: a quality measure for protein-protein docking models" Basu S, Wallner B . PLoS One. 2016-08-25. https://doi.org/10.1371/journal.pone.0161879
  2. "Improved docking of protein models by a combination of AlphaFold2 and ClusPro" Ghani U [..] Padhorny D, Vajda S, Kozakov D. bioRxiv. 2021-09-07. https://doi.org/10.1101/2021.09.07.459290
2021-07-25更新 AlphaFoldの予測構造公開をとりあげたScience 誌とNature 誌のNewsの書誌情報を以下に追記:
2021-07-23更新 DeepMind, EMBL-EBIと共同でAlphaFoldで予測した構造をCC-BY 4.0のランセンスで公開 2021-07-23 7.34.51 ヒトに加えて生物学的に重要な20種類の生物のプロテオームを対象として,合計35万件以上の構造を公開し,近々,1億件以上に拡大する予定であり,配列が知られているほぼ全てのタンパク質を網羅する見込み (右図は2021-07-23にスクリーンキャプチャ)
URL: https://alphafold.ebi.ac.uk 

2021-07-21
初稿 
[経緯] 発表年月日昇順リスト
  1. 2020-12-01 AlphaFold: DeepMind,AlphaGo (囲碁)に続きAlphaFold (タンパク質折り畳み予測)でもトップへ - AlphaFold2. crisp_bio. https://crisp-bio.blog.jp/archives/14057867.html
  2. 2020-12-04 AlphaFold2: IN DEPTH "The game has changed.’ AI triumphs at protein folding!" Service RF. Science. https://doi.org/10.1126/science.370.6521.1144
  3. 2021-03-09 : Rosetta DeepAccNetタンパク質構造の高精密化を深層学習による精度評価法'DeepAccNet'開発により実現 [David Bakerグループ]. crisp_bio. https://crisp-bio.blog.jp/archives/25781195.html
  4. 2021-07-15 RoseTTAFold: "Accurate prediction of protein structures and interactions using a three-track neural network" Baek M [..] Baker D [U Washington, Seattleなど] (bioRxiv. 2021-06-15) Science. https://doi.org/10.1126/science.abj8754
  5. 2021-07-16 RoseTTAFold: IN DEPTH "Protein structure prediction now easier, faster" Pennisi E. Science. 2021-07-16. https://doi.org/10.1126/science.373.6552.262
  6. 2021-07-15 AlphaFold: "Highly accurate protein structure prediction with AlphaFold" Jumper J, Evans R [..] Hassabis D [DeepMind, ソウル国立大学]. Nature. https://doi.org/10.1038/s41586-021-03819-2
 2020年にGoogle傘下のDeepMind社が深層学習をベースとするタンパク質フォールディング予測プログラムAlphaFoldでタンパク質構造予測コミュニティーに衝撃を与えたが [1, 2],AlphaFoldのその手法の具体的内容とソースコードが公開されなかったことで,批判を招いたいた.
 タンパク質構造予測で数々の実績を挙げ,Rosettaスイートを公開してきたBakerグループは,深層学習を徐々に取り入れてきたところで [3],2021年6月15日にbioRxiv にて,続いて7月15日にSciense 誌にてRoseTTAFoldを発表し,AlphaFoldよりも計算コストが低く,性能が勝り,無料で提供するとした [4, 5]
 RoseTTAFoldのbioRxiv 投稿を受けてDeepMindのCEOであるDemis Hassabisが"AlphaFoldの論文がレビュー中であり,AlphaFoldへのフリーアクセスをサイエンスコミュニティーに提供する"とツイートした.そして,奇しくも7月15日にNature 誌のAccelerated Article Preview論文としてAlphaFoldの詳細が公開された [6].
  • RoseTTAFoldの筆頭著者のBaekは,CASPでのDeepMind社のプレゼンからインスピレーションを得たとし,Science 論文でもそのように記述されている.
  • RoseTTAFoldは,タンパク質データベース内の類似のアミノ酸配列とのアラインメントを行うトラック,タンパク質内の残基間の距離を予測するトラック,および,アミノ酸配列間の緊密な結合,残基間の距離と結合の向き,および原子座標を3次元空間で評価するトラック,のマルチトラックのニューラルネットワークで進行する (Fig.1 参照 https://science.sciencemag.org/content/sci/early/2021/07/19/science.abj8754/F1.large.jpg
  • なお,Davidグループは,AlphaFoldは2トラックと想定した.
  • Bakerは,一般にAlphaFold2の構造予測の方が高精度であると認めているが,Ghent Universityの Savvidesは,RoseTTAFoldの方が,タンパク質本体から突き出しているアミノ酸鎖の予測といったタンパク質間の相互作用に関するような特徴をとらえるのに優れているとした.
  • RoseTTAFoldは,アミノ酸配列だけから受容体に結合したインターロイキン12といった複合体の構造予測に成功している.
  • RoseTTAFoldが「速い*」という評価に対して,AlphaFold2側は,最新バージョンは2020年CASPの時のバージョンよりは16倍高速化されていることから,このコメントを疑問視した [* 400残基未満のタンパク質のバックボーン座標計算を,RTX2080 GPUにて ~10分で完了]
  • Bakerグループは2021年6月1日から「構造予測が極めて困難なタンパク質」を広く募集し,1ヶ月間に56種類の課題タンパク質を得た.UCSFのDavid Agarは,類似タンパク質が存在しないタンパク質のアミノ酸配列を提供し,数時間で予測モデルを受け取り,変異誘発実験に利用始めることができた,としている.
  • BakerグループがWebで公開したソースコードは,7月1日の時点で250回ダウンロードされ,さまざまな研究グループが利用さらには独自のバージョン開発を進めていると思われる.
 [ソースコード公開サイトなど]