[注] livedoor Blogの一記事あたりの長さに制限があるため、徐々に、AlphaFold関連論文やニュースは、別記事として投稿し、ここには、別記事のリンクを追記していくような運用にしてきています [2023-09-26]

2024-05-10
crisp_bio AlphaFold2からAlpha3へとメジャーアップグレード - 
全ての生体分子間の相互作用の構造基盤が解けるAlphaFold3 https://crisp-bio.blog.jp/archives/35732101.html

スクリーンショット 2024-03-07 8.58.302024-03-07 EMBL-EBIがAlphaFoldの実践的ガイドを公開
- 3時間コースhttps://www.ebi.ac.uk/training/online/courses/alphafold/;右図はスクリーンショット


2023-10-27 AlphaFoldデータベース新機能追加

[出典] NEWS "A leap in user experience: AlphaFold Database introduces sequence-based search and structure cluster members" 2023-10-26. https://www.ebi.ac.uk/about/news/updates-from-data-resources/alphafold-database-update-sequence-based-search/

 
EMBL-EBIとGoogle DeepMindは、AlphaFoldタンパク質構造データベース (AlphaFold DB) データをより発見しやすくするための新機能を追加した。
 
 AlphaFold DBは、Google DeepMindのAlphaFold2を利用して予測した2億件を超える3次元タンパク質構造を納め、その後、研究コミュニティーにとってより良い情報基盤として、使いやすさと堅牢性を向上させる改良が加えられた。特に、2種類の新たな機能が備えられた:配列類似性ベースの検索;
AlphaFold DBのすべての予測ページにおいて構造的に類似した予測を表示。
 
 AlphaFold DBのこれらの新機能は、https://alphafold.ebi.ac.uk/ にて公開されている [下図左右のスクリーンキャプチャ参照]
スクリーンショット 2023-10-27 17.10.02  スクリーンショット 2023-10-27 17.25.17
2023-09-27 本記事2022-11-18の項でのご紹介に続く、AlphaFoldの日本語解説記事
 生物工学会誌 –『続・生物工学基礎講座-バイオよもやま話-』
富井 健太郎〔第101巻 第7号 pp.360–362.2023〕 
大上 雅史〔第101巻 第8号 pp.443–446.2023〕

2023-09-26
crisp_bio[視座] タンパク質構造予測に起きた革命が、医学に意味するところ
 AlphaFoldの開発を主導し、2023年アルバート・ラスカー基礎医学研究賞を受賞したチームによるエッセイ

2023-09-25_2 AlphaFold, ラスカー賞を受賞
[出典] Lasker Foundation 2023 Winners. AlphaFold—for predicting protein structures
 Google DeepMind社のCEO Demis Hassabisと、上級研究科学者 (senior research scientist) がAlphaFoldの研究により、ラスカー賞の中で、アルバート・ラスカー基礎医学研究賞を受賞した。ラスカー賞重症者はノーベル賞の候補者リストにあげるともいわれており、コンピュータサイエンスからのノーベル生理医学賞第1号になるやも、AlphaMissenseを発表したこともあり。
[参考] The 2023 Laser Award Videos (YouTube 3分14秒) 

2023-09-25_1  Google DeepMind社、AlphaMissenseを発表
 19,233の標準的なヒトタンパク質にわたり、可能性のあるすべての単一アミノ酸変化21,600万種類の病原性を予測し、飽和に達した7,100万のミスセンス・バリアントの病原性予測データを公開した。

2023-06-142021-11-11 更新 "AlphaFold2によるタンパク質複合体構造予測" 」の項に、プレプリント二件がそれぞれ査読済み論文としてNature Structural & Molecular Biology 誌とNature Communications 誌から刊行されたことから、それらの書誌情報を追記した。
 さらに、質量分析 (細胞内クロスリンキングMSとCoFrac-MS) のデータ, 
SubtiWikiのデータベースにAlphaFold-Multimerを組み合わせて枯草菌において、153種類の二量体と14種類の三量体のタンパク質複合体の新たな構造モデルを構築した論文の書誌情報を以下に追記した:
[出典] "Protein complexes in cells by AI-assisted structural proteomics" O'Reilly FJ, Graziadei A, Forbrig C, Bremenkamp R [..] Stülke J, Rappsilber J. Mol System Biol 2023-04-12/02-23. https://doi.org/10.15252/msb.202311544 [著者所属] Technische Universität Berlin, August-University Göttingen, University of Edinburgh

2023-06-04_2 タンパク質言語モデル (protein language models: pLMs) の日本語解説へのリンクを追記
"タンパク質の言語モデル" 山口 秀輝、齋藤 裕. JSBi Bioinformatics Review 2023-06-03. https://doi.org/10.11234/jsbibr.2023.1PDF
[参考] AlphaFold2日本語解説へのリンク:本記事2022-11-18 の項参照

2023-06-04_1 関連crisp_bio記事へのリンクを追記
2022-12-01 AlphaFold予測構造にリガンドと補因子を「移植」するAlphaFill論文へのリンクを追記
2022-11-18 AlphaFold2の日本語紹介記事へのリンクを追記:
"AlphaFold2までのタンパク質立体構造予測の軌跡とこれから" 森脇由隆. JSBi Bioinformatics Review 2022年 3 巻 2 号 p.47-60 (2022-11-01公開)https://doi.org/10.11234/jsbibr.2022.3 [著者所属] 東京大学大学院農学生命科学研究科応用生命工学専攻, 東京大学微生物科学イノベーション連携研究機構
2022-11-14_2 記事タイトルを「タンパク質フォールディング問題を解く: より易く, より速く」から「
タンパク質フォールディング問題を解く: より易く, より速く、より上手く」へ改訂し、Nature Structure Molecular Biology 掲載論文と関連Newsの紹介を追記

2022-11-14_1 AlphaFoldの予測はどのような分野にどの程度使えるのか? - 構造生物学のコミュニティーの評価 [1. ニュースと 2. 論文]

1. ニュース "AlphaFold applications – a community assessment"
Oana Store. EMBL Communications 2022-11-07 https://www.embl.org/news/science/alphafold-community-applications/

 ソーシャルメディアの時代になって、同じようなテーマを研究している研究者は、世界のさまざまな場所に分散していても、協働することが可能になった。COVID-19パンデミックは、ソーシャルメディアのプラットフォームが、それまでも互いに見も知らぬ研究者が新たな発見を目指して協働する国境を超えたバーチャルな研究機関として機能することを可視化した。
 構造生物学のコミュニティーは、AlphaFoldのコードとタンパク質予測構造が初めて公開された時以来、ソーシャルメディアを介して、さまざまな用途での予測を評価した知見を共有し、11カ国 [*]18研究所の34名の共著者からなるNature Structure Molecular Biology (NSMB ) 論文として発表するに至った -
[*] 英国 (EMBL-EBIなど), オランダ, スイス, スエーデン, スペイン, デンマーク, ドイツ, フランス, ロシア, オーストラリア, および米国 (すなわち、日本、中国、韓国などは参加していない)

"バズ "をベースに (Building on the buzz)

 ETHの准教授でEMBL-EBIの元グループリーダーであるPedro Beltrao氏は、「AlphaFoldの発表後、構造生物学のコミュニティーでは、これが我々の日々の仕事に何を意味するのか、 バズっていた」、そこで、「多くの人がソーシャルメディア上でその最初の成果と興奮を共有し、この手法や予測を探っていた。私は、ソーシャルメディアのあちこちでバズられ共有されている全ての知見を全て捉えた共同研究に関心があるか、何人かに打診した」と語った。
 Beltraoは続いて、彼のアイデアに多くの研究者が賛同し「共同研究が急ピッチで進み、あるとき、ソーシャルメディアに研究成果に投稿されるようになり、ソーシャルメディア上での協働を介して、初期の熱狂から文字通りボトムアップでNSMB論文が形になった」と述べた。
 Beltraoは、COVID19パンデミックで進行した状況を引用しながら「ソーシャルメディアを介した共同研究は、科学の新たなアプローチを示しており、個々人の能力を最大限に引き出しつつ、重複を避けながら、相乗的に研究が進む胸躍るアプローチである」と続けた。

AlphaFold構造予測の多用途性を確信

 タンパク質構造予測そのものには、無限の応用分野が広がっている。しかし、EMBL-EBIとDeepMindが2021年夏に、35万件のAlphaFold予測の最初のバッチをAlphaFoldデータベースから公開した時、構造生物学の研究者は、その予測がどれほど正確で有用かについて、疑問を抱いていた。
 ソーシャルメディアを文字通り媒体として11カ国18研究所の研究者が結集したNSMB 論文は、以下の5つの応用分野について、AlphaFoldタンパク質構造予測を利用し評価した結果が集積され、当初の疑問に答えている:
  • タンパク質を構成する構造要素の研究 
  • ミスセンス変異が構造に与える影響
  • 機能とリガンド結合部位の予測
  • タンパク質間相互作用のモデリング
  • クライオ電顕やNMRから得られるデータからの構造モデリング
 知的興奮と何百時間もの作業、そして複雑な時差の調整を経て、論文が完成した。Bertraoは、「私たちが調査したアプリケーションでは、信頼性の指標を注意深む見る限り、AlphaFoldが予測する構造は実験的に決定される構造と同レベルであった」と述べた。
 コペンハーゲン大学助教授のAmelie Stein氏は、「Perdoの取り組みを知ったとき、私たちはすでに自分たちのモデリング手法がAlphaFold予測構造に対してどの程度有効かをテストしている最中だったので、貢献できることに燃え」、「急速に進展するこの領域において、私たちが共同研究に参加することで、他の研究者が私たちの発見を読み、そこから恩恵を得ることができることは、幸せなことだ」と述べた。
 バーゼル大学のポスドクであるJanani Durairajは「質の高い予測構造の数が、突然、飛躍的に増加したことで、予測構造と実験構造のパターンを探すことに夢中になった」と、付け加えた。「この驚嘆に値する共同研究のおかげで、私たちは自分たちの研究成果をコミュニティと共有し、さまざまな視点から比較することが可能になった」と述べている。
 この論文がプレプリントとして発表された後、AlphaFoldデータベースは、現在、100万種の生物種から得た2億以上のタンパク質の予測を含むまでに成長した。これらは、UniProt から配列を取得できるタンパク質の大部分を占めている。
 
2.  論文 "A structural biology community assessment of AlphaFold2 applications" Akdel M, Pores DEV, Pardo EP,  Jänes J, Zalevsky AO, Mészáros B, BryantP, Good VL, Laskowski RA [..] Valencia A, Ovchinnikov S, Durairaj J, Ashcher DB, Thornton JM, Davey NE, Stein A, Elofsson A, Creole TI, Beltrao P. Nat Struct Mol Biol 2022-11-07. https://doi.org/10.1038/s41594-022-00849-w

 タンパク質の殆どは3次元構造に折り畳まれることで、機能し、細胞の生物過程を秩序立てて維持する。最近のコンピュータによるタンパク質の構造予測は、実験的に決定された構造モデルの精度に達するようになった。このことは、計算手法の開発者とは独立に検証されてきたが、構造生物学領域のさまざまなアプリケーションにおけるこれらの手法の妥当性と有効性の検証はなされてこなかった。
 著者らは、本記事第1項のNewsで触れた5つの応用分野においてAlphaFold2 (以下、AF2) 予測を評価した。その結果、11種類のプロテオームについて、ホモロジーモデリングでの予測に対して、平均25%の残基を新たに高精度でモデリングし、Protein Data Bankエントリーにはほとんど見られない構造的特徴を特定することが可能なことを確認した。また、AF2モデルは、信頼性指標を厳密に考慮すれば、さまざまなアプリケーションにおいて、実験的に決定された構造と同等に利用可能なことも確認した。
 著者らは、AF2構造予測には、構造生物学をはじめとする広範なライフサイエンス研究に変革を起こす可能性があると、結論した。
 
 [論文の構成と挿入図]
  • スクリーンショット 2022-11-14 15.26.56AF2モデルは、一連のプロテオームの構造網羅性を向上させた:図1|AF2予測モデルが広げた網羅性 (右図に引用)
  • 21種のプロテオームにおけるAF2モデルの構造要素の特性評価:図2|21種のAF2構造モデルに特徴的な構造要素の空間
  • AF2モデルのバリアント効果予測への応用:図3|タンパク質のミスセンス変異の影響を、実験モデルとAF2由来モデルを用いて構造ベースで予測した結果の比較
  • ポケットや構造モチーフの予測によるAF2モデルの機能的特徴づけ:図4|ポケットの検出と機能予測。
  • AF2モデルによるタンパク質複合体構造の予測 - 標準的なドッキングや共進化モデルのアプローチに勝る結果:図5:AF2によるホモ・オリゴマー集合体およびそのオリゴマー状態の予測。
  • 実験モデル構築へのAF2モデルの貢献:図6:クライオ電顕や結晶学的データに基づく構造モデルリングへのAF2モデルの応用

2022-10-26 AlphaFoldのトレーニングデータベース構築後の新たな実験データを取り込むことでAlphaFoldの構造予測精度を向上

[出典] "Improved AlphaFold modeling with implicit experimental information" Terwilliger TC, Poon BK, Afonine PV et al. Nat Methods 2022-10-20. https://doi.org/10.1038/s41592-022-01645-6 [著者所属] New Mexico Consortium, Los Alamos National Laboratory, Lawrence Berkeley National Laboratory, U Cambridge, Duke U, UC Berkeley.

 AlphaFoldやRoseTTAFoldなどの機械学習による予測アルゴリズムによって、アミノ酸配列データから、これまでになく高精度なタンク質の構造を予測可能になった。しかし、これらのモデルには通常、信頼度の低い領域や予測精度の低い領域が含まれている。著者らは今回、密度マップのような新しい実験情報を取り込むことで、より多くの領域を正確に予測することができ、機械学習や実験だけでは十分に対応できないモデルの部分を相乗的に改善することができるのではないかと想定した。

 そこで、クライオ電顕法で得られる密度マップに基づいてAlphaFoldモデルを自動的に再構築し、再構築されたモデルを新たなAlphaFold予測のテンプレートとして使用する、繰り返しする (サイクルする)手順を開発し、その結果、予測精度が向上することを示した。

[検証例] AlphaFoldの学習時 (2020年7月)にPDBに類似構造が存在しない構造を対象に検証した例

CASP-14構造予測コンペティション20に含まれる細菌べん毛基底体19のドメイン(PDB 7BGL,  chain a, residues 250-365 / EMD-12183 , 2.2Å分解能)(T1047s2-D3 target identification)を対象とした。

  • AlphaFoldの学習時に存在した最も類似した配列を持つPDBエントリ(PDB 2HM2)は、配列同一性がわずか9%である。flagellar basal body
  • このドメインの基底体からの構造の一部はAlphaFoldによって正確に予測されているが、クライオ電顕構造に対して2本の逆平行な鎖の配置にかなりの違いがあり、また、ヘリックスの位置にも小さな違いがあったが、3回のサイクルを繰り返すことで、RMSが4.7から1.7に向上した(Fig.2 引用右図参照)。

2022-10-04 Nature Biotechnology 誌から、AlphaFold2の計算時間を10の6乗分の1にまで短縮したRGN2モデル (recurrent geometric network 2)が発表された:
[参考] 2022-10-04 AlphaFold2よりも高速なタンパク質構造予測を、深層学習に自然言語モデルを組み合わせることで実現 https://crisp-bio.blog.jp/archives/30437662.html

2022-09-20
[ニュース] 研究者がAIを利用して、画期的なタンパク質を創出し始めた

- 人工知能の長足の進歩により、これまでにない分子を、数ヶ月ではなく数秒で設計可能になった
[出典] NEWS "Scientists are using AI to dream up revolutionary new proteins - Huge advances in artificial intelligence mean researchers can design completely original molecules in seconds instead of months." Callaway E. Nature 2022-09-15.  https://doi.org/10.1038/d41586-022-02947-7
 2022年6月、韓国の規制当局は、ヒトが設計した新しいタンパク質から作られた史上初の医薬品であるCOVID-19ワクチンSKYCOvioneを認可した。このワクチンは、10年近く前に研究者が労働集約的な試行錯誤の末に作り出した球状のタンパク質「ナノ粒子」をベースにしている [Design of a hyperstable 60-subunit protein dodecahedron. Nature 2016-06-17]。しかし、今では、ワシントン大学のDavid Bakerが率いる研究チームが、このようなタンパク質を数秒で設計可能なことを、Science 誌に報告するまでになった [crisp_bio2022-09-20 深層学習で幻視した対称構造を持つホモオリゴマータンパク質7種類の結晶化 - 最大1550残基とC33対称性を持つ10ナノメートルの巨大リング構造 - ]。

 DeepMindのタンパク質構造予測ソフトウェアAlphaFoldのようなAIツールが生命科学者に受け入れられたのは、科学界の潮流を大きく変えた事象の一つである。7月、DeepMindはAlphaFoldの最新バージョンで、科学的に知られているすべてのタンパク質の構造を予測したことを明らかにした。また、この数ヶ月、AlphaFoldをベースにしたものを含めて、まったく新しいタンパク質を迅速に作り出すことのできるAIツールが爆発的に増えている。これまでの骨が折れ成功率が極めて低い作業は過去のものになった。

 タンパク質設計へのAI利用は当初、自然界に存在しないオリジナルのタンパク質の創出に集中しており、創出したタンパク質の機能について関心が向いていなかった。しかし今では、AIを利用したタンパク質設計は、タンパク質工学の研究者に限らず生命科学者へと広がり、さらに、DeepMindやMeta (旧 Facebook)といった企業へと広がり、有毒廃棄物の浄化から病気の治療まで、有用な働きをするタンパク質を設計しようとする動きが加速し始めた。先のDavid Bakerは、「AIによるタンパク質設計の手法はすでに十分に強力です。そして、これからもっと強力になっていくでしょう」「これからの課題は、どのような問題の解決を目指すのか、です」と述べている。

スクラッチから

 Baker研究室では、過去30年間を新しいタンパク質を作ることに費やしてきた。1990年代に開発に着手した「Rosetta (ロゼッタ)」と呼ばれるソフトウェアは、設計のプロセスを複数のステップで構成している。研究者は新しいタンパク質の形を発想し、次に多くの場合、他のタンパク質の断片を継ぎ接ぎし、続くステップで、その形に対応するアミノ酸の並びを推論する。しかし、この「初稿 (first draft)」タンパク質を実験室で発現させると望ましい形に折り畳まれることはほとんどなく、想定外のコンフォメーションで行き詰まってしまう。そこで、タンパク質の配列を微調整して、目的とする構造へと折り畳まれるようにする、もう1つのステップが必要になった。ハーバード大学の進化生物学者で、Baker研究室に在籍していたSergey Ovchinnikovは、このステップでは、異なる配列の折り畳みを全てシミュレーションする必要があり、その計算に「1万台のコンピュータを何週間も動かしました」と言う。

 この膨大な計算時間を要したステップが、Ovchinnikovによると、AlphaFoldやその他のAIプログラムに手を加えることで、瞬時に行うことができるようになったという。Bakerチームが開発した「Hulluciantion (仮訳: 幻視))」と呼ばれる手法では、ランダムなアミノ酸配列を構造予測AIネットワークに送り込み、AIネットワークが予測した通りに、よりタンパク質らしくなるように構造を変化させる。2021年の論文で、Bakerチームは、研究室で100以上の小さな幻視したタンパク質 (hullucinated proteins, 以下 HAL)を発現させ、その約5分の1の形状が予測されていた形状に似ていることを明らかにした [De novo protein design by deep network hallucination. Nature 2021-12-01]。

 AlphaFoldと、Baker研究室が開発したRoseTTAFoldという同様のツールは、個々のペプチド鎖がとる立体構造を予測するように訓練されていたが、研究者たちはすぐに、AIネットワークを利用して、相互作用する複数のタンパク質の集合体のモデルを構築できることに気づいた。Bakerチームは、自己集合してさまざまな形と大きさのナノ粒子になるタンパク質を幻視できると確信した。このタンパク質は1つのタンパク質の多数のコピーで構成されており、COVID-19ワクチンの基となるタンパク質に似ている。しかし、宿主微生物で発現させたタンパク質は期待を裏切るものであった。Bakerは「それらは全く折りたたまれず、試験管の底でガクガクしているだけでした」と言う。

 同じ頃、Baker研究室のもうひとりの研究者である機械学習専門のJustas Dauparasは、あるタンパク質の全体形状に対応するタンパク質配列を決定する「逆フォールディング問題」のためのAIネットワークを開発中だった。Ovchinnikovによると、ProteinMPNNと呼ばれるこのネットワークは [Scaffolding protein functional sites using deep learning. Sicence 2022-07-21]、AlphaFoldやその他のツールを使って作成した設計したタンパク質の「スペルチェック」として機能し、分子全体の形状を維持しながら配列に手を加えることができるのだという。

 Bakerチームが、この第2のネットワークProteinMPNNを、HALナノ粒子に適用したところ、その分子を宿主微生物で発現させことに成功した。研究チームは、クライオ電顕をはじめとする実験手法を用いて、30種類の新しいタンパク質の構造を決定し、そのうち27種類がAIが導いた設計と一致した [Hallucinating symmetric protein assemblies. Science 2022-09-15]。その中には、自然界には存在しない複雑な対称性をもつ巨大なリング状タンパク質も含まれていた。この研究の共同研究者である生物物理学者のLukas Milles氏は理論的は、「この方法を使えば、ほとんどすべての対称的な形状に対応するナノ粒子を設計することができます。ネットワークができることを目の当たりにするとシビれます (electrifying)」と述べた。

深層学習 (ディープラーニング)革命

 ストックホルム大学の計算生物学者であるArne Elofsson氏は、proteinMPNNのようなディープラーニングツールは、タンパク質設計に大きな変化をもたらしたと述べている。「タンパク質を描き、ボタンを押すと、10回に1回はうまくいくようなものが出てきます」。Bakerチームがナノ粒子を設計したように、設計プロセスの異なる部分に取り組むために複数のニューラルネットワークを組み合わせれば、さらに高い成功率を達成することができます。「現在では、タンパク質の形状を完全に制御できるようになりました」とOvchinnikovは言う。

 AIをタンパク質設計に応用している研究室は、Baker研究室だけではない。今月bioRxivに投稿されたレビュー論文で、Noeria Ferruzたちは、さまざまなアプローチで近年開発されたAIタンパク質設計ツールを40以上数えあげた [From sequence to function through structure: deep learning for protein design. bioRxiv 2022-09-03]。proteinMPNNを含むこれらのツールの多くは、逆フォールディング問題に取り組んでいる。

 Meta社の研究者とともに逆フォルディングネットワークを開発したカリフォルニア大学バークレー校の機械学習研究者であるChloe Hsuは、 [Learning inverse folding from millions of predicted structure. bioRxiv 2022-09-06]「あまりの多くのタンパク質設計ツールが利用可能になっており、目的とする設計に何が最善かを判定するのが必ずしも明確ではない」と述べている。
 多くの研究チームは、既存のタンパク質の構造からその配列を正確に決定するネットワークの能力で判定している。しかし、これはすべての手法に当てはまるわけではなく、回収率と呼ばれるこの指標が、新規タンパク質の設計にどのように適用されるかは不明であると言われている。Ferruzは、AlphaFoldが他のネットワークよりも優れていることを最初に証明した2年に1回開催されてきたタンパク質構造予測コンペティション CASP (The Critical Assessment of protein Structure Prediction)に倣って、タンパク質設計コンペティションを開催したいとし、「夢のような話です。CASPのようなことが実現すれば、この分野は大きく前進します」と述べている。

ウェット・ラボへ

 Bakerらは、実験室で新しいタンパク質を作ることこそ、自分たちの手法を評価する究極の手段であると断言している。このことは、Bakerらが最初に幻視したタンパク質集合体を作るのに失敗したことからも明らかである。しかし、タンパク質設計のためのAIツールを開発しているすべての研究者が、そのような環境にいるわけではない。イリノイ州のトヨタ工科大学シカゴ校の計算生物学者であるJinbo Xuは「実験系の共同研究先を見つけるには時間がかかるため、独自にウェット・ラボを設立して、チームの設計したタンパク質をテストしているところだ」と述べている。

 昨年、DeepMindはロンドンにAlphaFoldなどのAIツールを創薬に応用することを意図したIsomorphic Labsというスピンオフ企業を立ち上げた。DeepMindのCEOであるDemis Hassabisは、ディープラーニング技術、特にAlphaFoldにとって、タンパク質設計は明白かつ有望なアプリケーションであると見ているという。

[crisp_bio注] Natureの記事には、AIを使用して新しいタンパク質構造や配列を設計する4つの手法を示すインフォグラフィックが挿入図として用意されている。

2022-08-05  [論説] AlphaFoldが,構造生物学において,その可能性をフルに発揮するには- AIを最大限に活用するには,データやソフトウェアを何らの制限もなく共有し,計算,理論,実験の研究者が緊密に連携する必要がある -

[出典] EDITORIAL "How AlphaFold can realize its full potential in structural biology" Nature 2022-08-02. https://doi.org/10.1038/d41586-022-02088-x

 DeepMind社は,AIをベースとして構造生物学における画期的なツールを開発・提供しただけでなく,構造生物学に変革をもたらす政策決定も行った.昨年7月に,AlphaFoldの基盤となるコードを誰でもこのツールを使用できるように,オープンソース化した.また最近さらに踏み込んで,このプログラムを商用利用への制限を解除した.DeepMind社はまた,EMBL-EBIで維持されているAlphaFoldデータベースの構築に協力し,財政的な支援も行っている.DeepMindのCEOであるDemis Hassabis氏とそのチーム,そして外部協力者のオープンサイエンスへの取り組みは賞賛に値する.

 DeepMind社は先月,英国の主要な生物医学研究センターの一つであるフランシス・クリック研究所に研究所を設立すると発表した.この選択によって,計算手法を専門とする研究者と実践的なツールを使う研究者の間に必要な緊密なパートナーシップの構築と強化が促進されるだろう.

 AlphaFold単体では,設計者も十分に認識していることであるが,限界がある.例えば,疾患を引き起こすことが知られている突然変異によるタンパク質の構造変化,たんぱ質間相互作用による構造変化,創薬の種になる低分子の構造様式などは,これからの課題である.

 DeepMind CEOの Demis Hassabisは先週,AlphaFoldの登場によって「構造生物学者には,かなり大きな発想の転換が必要になるだろう」と述べた.アカデミアでは既に発想を転換した取り組みが始まっているが,今後,より多くの企業や研究者をオープン・データとオープンソース・ソフトウェアに巻き込んでいく必要がある.

 これからのアプリケーションは,ソフトウエアがそこから学習することができるさまざまなレポジトリーで維持されている何テラバイトもの一般に自由に利用できる研究の蓄積なしには実現しないであろう.今回のAlphaFoldの成功が示唆するように.


2022-07-31 
"これまでに知られている全てのタンパク質の構造を公開します" DeepMind CEO

 [出典] "AlphaFold reveals the structure of the protein universe" Demis Hssabis. DeepMind 2022-07-28. https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe; "‘New era in digital biology’: AI reveals structures of nearly all known proteins" Travis J. Science 2022-07-29. https://doi.org/10.1126/science.ade1829

 2021年DeepMindは,AlphaFoldで予測した約35万個のタンパク質の高精度な構造を公開した.スクリーンショット 2022-07-31 10.22.34それから1年,DeepMindは,バクテリアから植物,マウスやゼブラフィッシュ,ヒトなどの脊椎動物に至るまで,2億個以上のほぼ全てのタンパク質のAlphaFold予測構造を公開した [DeepMind Webサイトから引用した右図参照].構造生物学者は,EMBL-EBIから拡大公開されたデータベーススクリーンショット 2022-07-31 10.06.43AlphaFold Protein Structure Database   (AlphaFold DB) [画面キャプチャ引用左図参照で,プロテオームを構成するタンパク質の立体構造を簡単に検索することができる.

 DeepMindのシニア・リサーチ・サイエンティストKathryn Tunyasuvunakooは,AlphaFoldが各タンパク質の予測に要したのは10~20秒と述べた.また,データベース内の膨大な数の構造の提示方法を,EMBL-EBIと密接に連携して構築したと述べた.

 DeepMindによると,昨年の発表以来,190ヶ国50万人以上がこのデータベースを利用してきた.Hassbisは「デジタル生物学の新時代 (a "new era on digital biology")を予測し,創薬は,AIが予測したあらゆる疾患の症状を左右するタンパク質の構造から,それらのタンパク質に作用する低分子を,AIを使って,設計し,その結果,効果的な治療薬に到達することができるだろう,と述べた.AlphaFold予測構造はすでに,ワクチン候補の開発や,核膜孔複合体が細胞核に入る分子を選別する機構の解明,生命誕生時からのタンパク質の進化研究に利用されている.

 Hassbisは,「AlphaFold予測構造は,明らかに,生物学と医学の課題を全て解決したわけではなく,これから,膨大な生物学と膨大な化学が進められるべき」と述べた (cautioned).

 なお,AlphaFold予測構造は,Ensembl, UniProt, およびOpenTagetsから利用可能になっていたが,今回の予測構造もUniProt  のエントリーからも閲覧可能になる予定であり,また,Google Cloud Public Datasetsからダウンロード可能になる予定である.

2022-03-04 タンパク質の折り畳み問題の解決はこれからだ: "The protein-folding problem: Not yet solved" Moore PB (Yale U), Hendrickson WA (Columbia U), Henderson R (MRC Lab. of Molecular Biology), Brunger AT (Stanford ). Science 2022-02-03. https://doi.org/10.1126/science.abn9422

 コンピュータプログラム AlphaFoldとRoseTTAfoldが達成したタンパク質構造予測の進歩は特筆に価する.これらの新しいアプローチ,実験により決定された構造と配列のデータベースから得られる構造と配列の相関に関する知見をベースとする機械学習,による予測精度は,従来のタンパク質構造予測のアプローチの予測精度を凌駕した.著者らはしかし,タンパク質折り畳み問題が解決された[*1]とは考えていない .

[*1] "Proteins, proteins everywhere" Thorp HH. Science 2021-12-17. https://doi.org/10.1126/science.abn5795

 AlphaFoldは、Critical Assessment of Structure Prediction 14(CASP14)データセットに対しては,CαのRMSD精度〜1Åを達成した.しかし,X線結晶構造解析やクライオ電顕単粒子解析法で決定された構造の精度は,数倍優れている.AlphaFoldで予測された構造のCα座標のRMSD精度は,現時点では,4Å以下の分解能で実験により決定された構造で期待される精度に留まる.

AlphaFoldとRoseTTAfoldによる構造予測の精度は,実験による構造決定を支援するに十分であるが,AlphaFoldとRoseTTAfoldだけでは,分子機構や構造に基づく創薬に必要な分子間や化学的な相互作用を詳にするまでには至らない.


 タンパク質の動的な構造変化の予測も課題である.例えば,アロステリックなコンフォメーション変化は,アポ構造から劇的に異なることがあり,内在する平衡状態であったり,結合相手 (例: ATPやコバラミンといったリガンドや補因子),他の高分子(例:DNAやタンパク質パートナー),異常な自己会合(例:病原性アミロイド)に左右される.タンパク質複合体の構造予測も進んでいるが [*2],複雑な分子構造を持つものや,コンフォメーションに影響を与えるリガンドが未同定のものについては,まだ達成されていない。

[*2] 本記事 2021-11-15 "Computed structures of core eukaryotic protein complexes" Humphreys IR, Pei J, Baek M, Krishnakumar A [..] Cong Q, Baker D. Science. 2021-11-11.  https://doi.org/10.1126/science.abm4805; 2021-10-07 "Protein complex prediction with AlphaFold-Multimer" Evans R, O’Neill M, Pritzel A, Antropova N [..] Jumper J, Hassabis D. bioRixv 2021-10-04 [プレプリント]. https://doi.org/10.1101/2021.10.04.463034


 配列からのタンパク質構造予測における最近の進歩は,さらなる開発が求められてると認識する必要がある.さらに,歴史から学ぶことも必要である.1990年にAlwyn JonesとCarl-Ivar Brändénが発表したX線結晶構造のエラーに関する解説は,構造生物学におけるクロスバリデーションとバリデーションツールの開発を促し,最終的に実験構造のデータベースをより信頼性の高いものにした.今後,予測の精度を評価するツールを開発し,これまでのデータベースに見られる構造パターンの偏りを軽減することが必要である.


 最後に,タンパク質フォールディング問題において,「解決した (solved)」という言葉が何を意味するのか,深く考えておく必要がある.タンパク質の配列から正確な構造予測を可能にする方法が見つかれば,この問題は解決したと思う人々がいるかもしれない.その場合は,AlphaFoldやRoseTTAfoldは「解決」への大きな一歩と評価できる.一方で,著者を含み,タンパク質のフォールディング問題を解決するためには,アミノ酸配列から正確な構造予測を行うことが必要であり,そのためには、基礎となる物理・化学に基づいた第一原理から始めなければならないと考える人々もいる.

 タンパク質の構造予測は大きな進歩を遂げたが、実験的な構造決定は依然として不可欠である。


2021-12-27
Science 誌原著論文をハイライトした展望 (perspective)記事の書誌情報を追加し,2021-11-15の項のテキストを一部改訂した:深層学習時代のインタラクトーム "Interactomes in the era of deep learning" Pereira J, Schwede T (University of Basel). Science. 2021-12-10.  
https://doi.org/10.1126/science.abm8295
[注] この記事には,これまでに開発・利用されてきた多様な手法 (クライオ電顕,X線構造解析, Y2H/XL-MS, 共進化, クライオET, ドッキング, 統合モデリング)と深層学習が相補する
イメージ図が用意されている. 

2021-12-20 2021年のScience 誌のブレークスルー賞は「AIによるタンパク質構造予測」:  crisp_bio 2021-12-20「Science 誌2021ブレークスルー賞はAIタンパク質構造予測」参照

2021-11-15  University of Texas Southwestern Medical CenterのQian CongとUniversity of WashingtonのDavid Bakerを責任著者とする研究グループが,酵母の中核的なタンパク質-タンパク質相互作用の組成とその複合体構造を同時に予測した論文をScience 誌から刊行した.
[出典] "Computed structures of core eukaryotic protein complexes" Humphreys IR, Pei J, Baek M, Krishnakumar A [..] Cong Q, Baker D. Science. 2021-11-11.  https://doi.org/10.1126/science.abm4805

 タンパク質間相互作用の知識は生物学において決定的な役割を果たすが,真核生物のタンパク質複合体の構造の多くは不明である.また,タンパク質間相互作用の多くが未だ同定されていないと考えられる.本研究では、プロテオーム・ワイドのアミノ酸共進化解析と深層学習をベースとする構造モデリングの進歩を利用して,Saccharomyces cerevisiae のプロテオームの中核を成すタンパク質複合体を網羅的に同定し,精密なモデルを構築した.
 研究グループは,RoseTTAFoldの高速なタンパク質のコンタクト予測と,AlphaFoldの高精度なタンパク質折り畳みエンジンを組み合わせることで,酵母タンパク質830万組のマルチプルアラインメントから,スクリーンショット 2021-11-16 12.47.15相互作用する可能性の高い1,505種類のタンパク質を同定し,同時に,形成される複合体の構造も予測し,Webサイト'ModelArchive'から公開した [右図画面スクリーンキャプチャー参照].その中には,これまで同定されていなかった106種類の複合体と,構造解析が実現していなかった806種類の複合体が含まれていた [タンパク質間相互作用スクリーン・パイプラインの概要について原著論文の Fig. 1 A参照].
 一連のモデルはそれぞれ最大で5個のサブユニットで構成され,真核細胞の鍵を握るプロセスに関与しており,生物機能に関する幅広い知見を提供する.
 今回のScience 論文の内容は, 2021年9月30日にbioRxiv に投稿されていたが,Pei J, Zhang J, およびCong Qは同日,いわば姉妹投稿となる''Human mitochondrial protein complexes revealed by large-scale coevolution analysis and deep learning-based structure modeling"をbioRxiv に投稿し,ミトコンドリア・タンパク質の約95%のペアの共進化を予測し,スコアが上位にランクされたぺアの殆どが,複合体の構造が実験的に明らかにされたいたペアと一致したが,実験構造が未だ得られていないペアも含まれることなどを報告した.
 Science 論文の共同責任著者の一人であるDavid Bakerは,UW Medicine Media Relations のニュースリリース (2021-11-19)で,「コンピュータ予測がより強力になり,これまでになく大量の科学データを簡単に生成することが可能になった.しかし,その意味を理解するには,専門家が必要です.そこで,得られたモデルを解釈するために,生物学の専門家集団をリクルートしました.今回の成果は,最高のコミュニティー・サイエンが達成したものです」と述べた.[参考: Science 論文の共同著者の所属機関は,U Washington, U Texas Southwestern Medical Center, Harvard U, Wayne State U, Cornell U,  MRC Laboratory of Molecular Biology, Memorial Sloan Kettering Cancer Center, Gerstner Sloan Kettering Graduate School of Biomedical Sciences Fred Hutchinson Cancer Research Center, Columbia U, U Würzburg, St Jude Children's Research Hospital, FIRC Institute of Molecular Oncology, およびIstituto di Genetica Molecolare] 

2021-11-11 更新 "AlphaFold2によるタンパク質複合体構造予測" - DeepMind社以外の研究グループから
[出典] "Towards a structurally resolved human protein interaction network" Burke DF, Bryant P, Barrio-Hernandez I, Memon D, Pozzati G [..] Kundrotas P, Beltrao P, Elofsson A. (bioRxiv. 2021-11-09 [preprint]Nat Struct Mol Biol 2023-01-23. https://doi.org/10.1038/s41594-022-00910-8 
 EMBL-EBI, Stockholm University, Utrecht University, University of Washington Seattle, ETH ZurichおよびUniversity of Kansasの研究グループが,AlphaFold2を利用して,ヒトタンパク質の相互作用65,484種類に相当する二元複合体構造を予測・評価した.
  • Human Reference Interactive (HuRI)とHuman Protein Complex Map (hu.Map 2.0)からそれぞれ55,586組みと10,207組みのヒトタンパク質相互作用(PPI)データを獲得した.両者で重複していた相互作用は309組みであった.その中で,62,019組みについては実験に基づいたモデルが存在していないか,または,ホモロジーモデリングを容易に適用できる相互作用であった.
  • 今回の予測は,AlphaFold2をベースとするFoldDockパイプライン [*]を利用し,予測構造の信頼度のスコアとしてDockQスコアを利用した.
  • DockQスコアが高い高信頼性モデルは,親和性や構造に基づいた手法で推定された相互作用の裏付けを伴い,また,クロスリンク・データで定義される空間的制約とも整合した.
  • 3,137種類の高信頼度モデルに,ClinVarとTCGAのデータベースから疾患関連ミスセンス変異をマッピングし,既知の構造に対する相同性が見られなかった1,371種類の高信頼度モデルにおいて界面にマップされた変異について考察した.
  • また,モデル上で,リン酸化部位のマッピングから,界面にマッピングされた4,145カ所のリン酸化を分析し,異なるタンパク質ペアの界面の中に,特定のキナーゼと条件下での共制御が示唆される一連のリン酸化部位を発見した.
  • さらに,予測した2元複合体の構造からより高次な構造を構築していく可能性も示した.
 [*] ヘテロ二量体構造予測: FoldDock (RoseTTAFoldその他のドッキング手法との比較を含む)
[出典] "Improved prediction of protein-protein interactions using AlphaFold2" Bryant P, Pozzati G,  Elofsson A. (Research Square. 2021-10-04 (preprint)). Nat Commun 2022-03-10https://doi.org/10.1038/s41467-022-28865-w
  • デフォルトのAF2プロトコルで,テストセット中のモデルの44%を正確に予測できた.
  • マルチプルアラインメントを最適化することで、精度を59%にまで高めることができた.
  • RoseTTAFoldでは10%,テンプレート・ベースのドッキングでは35%, 従来のドッキング手法は22%の成功率であった.
  • プログラム入手先 https://gitlab.com/ElofssonLab/FoldDock 
2021-10-20 更新  AlphaFoldが,何気に利用されるようになってきたようだ
2021-10-20 [REVIEW] タイプIII CRISPR-Casシステム: 最も複雑な原核生物の免疫システムを読み解く.https://crisp-bio.blog.jp/archives/27699033.html - AlphaFoldによる構造予測に基づいて,CRISPR-Casシステムを構成するタンパク質と祖先タンパク質との関係を議論 

2021-10-07更新
 DeepMind,”AlphaFold-Multimer"をbioRxiv に投稿
[出典] "Protein complex prediction with AlphaFold-Multimer" Evans R, O’Neill M, Pritzel A, Antropova N [..] Jumper J, Hassabis D. bioRixv 2021-10-04 [プレプリント]. https://doi.org/10.1101/2021.10.04.463034
  • AlphaFoldモデルにより,単一鎖のタンパク質大部分の構造を高精度で予測可能になり,多鎖のタンパク質複合体の予測への展開も工夫されているが,後者の構造の予測は依然として簡単ではない.
  • DeepMindのグループは今回,化学量論比が既知の多量体で学習させたAlphaFoldモデルにより,各鎖内の精度を維持しつつ,多量体インターフェースの予測精度を大幅に向上させることを実証し,このモデルを,AlphaFold-Multimerとして投稿した.
  • 鋳型のない17種類のヘテロ二量体タンパク質からなるベンチマークデータにおいて,14種類について中程度の予測精度 (DocQ [*1]≧0.49)を達成し,6種類について高精度 (DockQ≧0.8)を達成した.これまでにAlphaFoldを利用したシステムの中でClusProを組み合わせた最も高性能なシステム [*2]では,中程度の精度9種類,高精度4種類にとどまっていた.
  • また,4,433種類のタンパク質複合体のデータセットについても構造を予測し,そこからテンプレートの同一性が低い非冗長なインターフェースを評価した: ヘテロメリック・インターフェイスについて67%について予測を (DockQ ≥ 0.23),23%について高精度の予測 (DockQ ≥ 0.8)を実現した; ホモマーのインターフェイスについては,69%についてインターフェイスの予測を,34%について高精度の予測を実現した.
  • 二量体の場合について,2種類の鎖を長いリンカーで接続したものを入力とするAlphaFoldで二量体の構造予測が可能と報告されていたが,この手法に比べて,ヘテロマーの場合もホモマーの場合も,AlphaFold-Multimerが優った.
  1. "DockQ: a quality measure for protein-protein docking models" Basu S, Wallner B . PLoS One. 2016-08-25. https://doi.org/10.1371/journal.pone.0161879
  2. "Improved docking of protein models by a combination of AlphaFold2 and ClusPro" Ghani U [..] Padhorny D, Vajda S, Kozakov D. bioRxiv. 2021-09-07. https://doi.org/10.1101/2021.09.07.459290
2021-07-25更新 AlphaFoldの予測構造公開をとりあげたScience 誌とNature 誌のNewsの書誌情報を以下に追記:
2021-07-23更新 DeepMind, EMBL-EBIと共同でAlphaFoldで予測した構造をCC-BY 4.0のランセンスで公開 2021-07-23 7.34.51 ヒトに加えて生物学的に重要な20種類の生物のプロテオームを対象として,合計35万件以上の構造を公開し,近々,1億件以上に拡大する予定であり,配列が知られているほぼ全てのタンパク質を網羅する見込み (右図は2021-07-23にスクリーンキャプチャ)
URL: https://alphafold.ebi.ac.uk 

2021-07-21
初稿 
[経緯] 発表年月日昇順リスト
  1. 2020-12-01 AlphaFold: DeepMind,AlphaGo (囲碁)に続きAlphaFold (タンパク質折り畳み予測)でもトップへ - AlphaFold2. crisp_bio. https://crisp-bio.blog.jp/archives/14057867.html
  2. 2020-12-04 AlphaFold2: IN DEPTH "The game has changed.’ AI triumphs at protein folding!" Service RF. Science. https://doi.org/10.1126/science.370.6521.1144
  3. 2021-03-09 : Rosetta DeepAccNetタンパク質構造の高精密化を深層学習による精度評価法'DeepAccNet'開発により実現 [David Bakerグループ]. crisp_bio. https://crisp-bio.blog.jp/archives/25781195.html
  4. 2021-07-15 RoseTTAFold: "Accurate prediction of protein structures and interactions using a three-track neural network" Baek M [..] Baker D [U Washington, Seattleなど] (bioRxiv. 2021-06-15) Science. https://doi.org/10.1126/science.abj8754
  5. 2021-07-16 RoseTTAFold: IN DEPTH "Protein structure prediction now easier, faster" Pennisi E. Science. 2021-07-16. https://doi.org/10.1126/science.373.6552.262
  6. 2021-07-15 AlphaFold: "Highly accurate protein structure prediction with AlphaFold" Jumper J, Evans R [..] Hassabis D [DeepMind, ソウル国立大学]. Nature. https://doi.org/10.1038/s41586-021-03819-2
 2020年にGoogle傘下のDeepMind社が深層学習をベースとするタンパク質フォールディング予測プログラムAlphaFoldでタンパク質構造予測コミュニティーに衝撃を与えたが [1, 2],AlphaFoldのその手法の具体的内容とソースコードが公開されなかったことで,批判を招いたいた.
 タンパク質構造予測で数々の実績を挙げ,Rosettaスイートを公開してきたBakerグループは,深層学習を徐々に取り入れてきたところで [3],2021年6月15日にbioRxiv にて,続いて7月15日にSciense 誌にてRoseTTAFoldを発表し,AlphaFoldよりも計算コストが低く,性能が勝り,無料で提供するとした [4, 5]
 RoseTTAFoldのbioRxiv 投稿を受けてDeepMindのCEOであるDemis Hassabisが"AlphaFoldの論文がレビュー中であり,AlphaFoldへのフリーアクセスをサイエンスコミュニティーに提供する"とツイートした.そして,奇しくも7月15日にNature 誌のAccelerated Article Preview論文としてAlphaFoldの詳細が公開された [6].
  • RoseTTAFoldの筆頭著者のBaekは,CASPでのDeepMind社のプレゼンからインスピレーションを得たとし,Science 論文でもそのように記述されている.
  • RoseTTAFoldは,タンパク質データベース内の類似のアミノ酸配列とのアラインメントを行うトラック,タンパク質内の残基間の距離を予測するトラック,および,アミノ酸配列間の緊密な結合,残基間の距離と結合の向き,および原子座標を3次元空間で評価するトラック,のマルチトラックのニューラルネットワークで進行する (Fig.1 参照 https://science.sciencemag.org/content/sci/early/2021/07/19/science.abj8754/F1.large.jpg
  • なお,Davidグループは,AlphaFoldは2トラックと想定した.
  • Bakerは,一般にAlphaFold2の構造予測の方が高精度であると認めているが,Ghent Universityの Savvidesは,RoseTTAFoldの方が,タンパク質本体から突き出しているアミノ酸鎖の予測といったタンパク質間の相互作用に関するような特徴をとらえるのに優れているとした.
  • RoseTTAFoldは,アミノ酸配列だけから受容体に結合したインターロイキン12といった複合体の構造予測に成功している.
  • RoseTTAFoldが「速い*」という評価に対して,AlphaFold2側は,最新バージョンは2020年CASPの時のバージョンよりは16倍高速化されていることから,このコメントを疑問視した [* 400残基未満のタンパク質のバックボーン座標計算を,RTX2080 GPUにて ~10分で完了]
  • Bakerグループは2021年6月1日から「構造予測が極めて困難なタンパク質」を広く募集し,1ヶ月間に56種類の課題タンパク質を得た.UCSFのDavid Agarは,類似タンパク質が存在しないタンパク質のアミノ酸配列を提供し,数時間で予測モデルを受け取り,変異誘発実験に利用始めることができた,としている.
  • BakerグループがWebで公開したソースコードは,7月1日の時点で250回ダウンロードされ,さまざまな研究グループが利用さらには独自のバージョン開発を進めていると思われる.
 [ソースコード公開サイトなど]