- AlphaFoldの開発を主導し、2023年アルバート・ラスカー基礎医学研究賞を受賞したチームによるエッセイ
[出典] VIEWPOINT "The Protein Structure Prediction Revolution and Its Implications for Medicine: 2023 Albert Lasker Basic Medical Research Award" Jumper J, Hassabis D. JAMA 2023-09-21. https://doi.org/10.1001/jama.2023.17095 [著者所属] Google DeepMind.

 タンパク質のフォールディングは、ヒト細胞内で最も重要で複雑な組織化を促す力をもたらし、また、タンパク質の構造を理解することは、細胞環境を推論するに不可欠である。タンパク質構造は、タンパク質の機能、細胞経路、遺伝子変異の影響、および、薬物分子の結合など、多様な現象に重要な幾何学的枠組みを提供する。

 60年以上にわたりタンパク質の構造を決定する実験方法の開発に創造性と努力が傾注された結果、20万件を超えるタンパク質構造が決定され、タンパク質データバンク (PDB)  [1] に蓄積された。このような成果が挙げられたにも関わらず、タンパク質の構造を実験により決定することは依然として極めて困難であり、一つの構造を決定するのに数ヶ月から数年の努力を要する。ヒト・プロテオームにおいて、実験的に構造が決定された残基 (residures) はわずかであり、解明されたタンパク質相互作用はさらに稀である。生物医学研究と医薬品開発の双方にとって大きな障害をもたらしているこのような状況を解決するために、タンパク質の構造を計算によって正確に予測する手法に対する渇望があった。

 この渇望を癒すために、Google DeepMindのJohn JumperとDemis Hassabisのチームは、人工知能 (AI) をベースとして、アミノ酸配列からタンパク質構造を極めて高精度で予測可能とするシステムを初めて開発し、AlphaFoldとして発表した [2]

 AlphaFoldの典型的な予測誤差はサブオングストローム (原子の半径以下)であり、タンパク質の機能を決定する詳細な分子間相互作用の同定を可能にする。また、AlphaFoldは、既知のタンパク質すべての構造を予測するに十分なスケーラビリティーを備えており、実際、EMBL-EBIと共同で、ヒトプロテオームをカバーする2億種類のタンパク質の構造を予測し、その結果を発表した [3]。この成果による、高精度なタンパク質構造がカバーするゲノムの領域がほぼ倍増し [4]、その中で、ヒトに対する病原体のタンパク質の構造決定も劇的に進捗した。

 この計算機によるタンパク質構造決定におけるブレークスルーの鍵は、タンパク質構造予測に注意深く適応させた全く新しいタイプのニューラルネットワークを設計したところにあり、、そのニューラルネットワークの核となる構成要素は、タンパク質の物理学、幾何学、および進化に関する知見から着想を得たものである。これまでのタンパク質構造予測システムは、画像分類やテキスト理解 (text understanding) 用に開発されてきた標準的なニューラルネットワークを使用していた。これらのネットワークにはタンパク質構造に向けたバイアスが組み込まれていないことから、PDBから公開されている20万件あまりののタンパク質構造からのルールを抽出に完全に依存している。対照的に、AlphaFoldは、進化的なタンパク質データと物理的なタンパク質データの両方を首尾一貫した方法で処理するように注意深く組織化することで、実験的なタンパク質データから、ルールをベースにする予測法では捉えきれなかった特徴など、はるかに多くのことを学習することが可能になり、したがってはるかに正確な予測を行うことが可能になった。AlphaFoldはまた、膜貫通タンパク質や、新奇なフォールドを持つタンパク質のような、実験的な構造予測ではあまり扱われていないタンパク質クラスにも適用可能であり、かつ、高い精度での予測を達成した。

 研究チームは、AlphaFoldが予測した予測した構造の不確実性を利用者が理解できるようにすることが重要なことを、当初から認識していた。しかしこの問題意識は、AlphaFoldのベースとなったネットワークが、構造そのものの予測に加えて、構造の各部分の局所的な精度の両方の予測を生成することから、直接的に達成できることを発見したことから、氷解した。ネットワークをトレーニングする過程 (学習させる過程) では、必ず、実験的に構造が決定されたタンパク質を使用している。また、トレーニング中に予測された各構造について、局所距離差検定 (local distance difference test: LDDT) と呼ばれる指標を用いて構造の誤差を測定している [5]。こうして、トレーニング中に、予測構造の精度を向上させるようにパラメーターを調節すると同時に、タンパク質の各部位における局所的な精度も向上させるようにパラメーターを調節している。こうしたアプローチの結果得られる"predicted LDDT (pLDDT)"は、実際に信頼して良いことが証明され、この特徴によって、AlphaFold予測が実用になっているといって過言では無い。

 AlphaFoldは現在、タンパク質間相互作用のマッピングや変異体の解釈といった基礎的な生物学的問題から、ワクチンの設計や標的化ドラッグデリバリーの開発といった応用課題に至るまで、多彩な課題への取り組みに利用されている。正確な構造予測は分子生物学全体の研究を加速する。その予測をもとに研究者は関心のある分子機構に対する明確な仮説を立てることが可能になり、ひいては、タンパク質の機能や相互作用を調べるために必要な実験を的確に絞り込むことが可能になる。

 例えば、Kreitzらは [6]、AlphaFoldを使ってバクテリアの細胞外収縮性注入装置 (extracellular contractile injection systems: eCIS) の分子認識領域の位置と構造を特定し、その知見をベースに、任意の細胞種を標的とするように再プログラム可能なことを発見した。続いて、このシステムを利用してCas9や塩基エディターのような任意のタンパク質ペイロードを、特定の細胞型に送達できることをマウスにて実証した。より基礎的な生物学では、複数の研究者 [7-9] が、細胞核へのアクセスをゲートする120MDaの巨大なタンパク質複合体である核膜孔の原子構造を、AlphaFoldによる原子レベルの詳細と、クライオ電子トモグラフィーやクライオ電顕から得られる全体的な構造を組み合わせたハイブリッド・モデリングによって解明できたと報告している。Bennettら [10]は、デノボ・タンパク質設計において、タンパク質設計のスクリーニングにAlphaFoldや関連する構造予測法を用いることで、治療用バインダーの設計成功率が10倍向上することを発見した。

 また、2億件を超える構造を利用して、さまざまなタンパク質ファミリー内での進化を注意深くマッピングし、進化の過程で生じた構造のシフトの生物学的意味を理解するなど、新たな研究法が生まれている。分子生物学の加速は、最終的には細胞経路をより良く、より速く理解することを可能にし、創薬ターゲットの同定と理解を促進することになろう。

 研究チームは、AlphaFoldは将来、生物学を予測モデルへと大きくシフトする方向へ動かし、限られた実験データから多種多様な細胞プロセスを正確な予測を可能にすると考えている。ひいては、作用機序の解明を介して、医薬品開発が劇的に加速されるであろう。予測モデルはまた、患者のゲノムデータをよりきめ細かく、より因果的に解釈することを可能にし、個々の遺伝子変異が細胞の挙動にどのような影響を及ぼすかを提示し、より個別化された精密医療への道筋を指し示すことになろう。

[*] 引用文献
  1. "Protein Data Bank: the single global archive for 3D macromolecular structure data" wwwPDB consortium.  Nucleic Acids Res. 2018-10-24/2019-01-08. 
  2. "Highly accurate protein structure prediction with AlphaFold" Jumper J, Evans R [..] Hassabis D. Nature. 2021-07-15 
  3. "AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models" Varadi M [..] Hassabis D, Velankar S. Nucleic Acids Res. 2021-11-17/2022-01-07. 
  4. "Highly accurate protein structure prediction for the human proteome" Tunyasuvunakool  K [..] Jumper J, Hassabis D. Nature. 2021-07-22. 
  5. "lDDT: a local superposition-free score for comparing protein structures and models using distance difference tests" Mariani  V, Biasini  M, Barbato  A, Schwede  T.  Bioinformatics. 2013-08-27. 
  6. "Programmable protein delivery with a bacterial contractile injection system" Kreitz J, Friedrich MJ, Guru A, Lash B, Saito M, Macrae RK, Zhang F. Nature. 20232-03-29; crisp_bio バクテリアの細胞外収縮性注入装置(eCIS)をプログラム可能なタンパク質送達ツールとして利用する
  7. "AI-based structure prediction empowers integrative structural analysis of human nuclear pores" Mosalaganti  S, Obarska-Kosinska  A, Siggel  M, Taniguchi R [..] Beck M. Science. 2022-06-10.  
  8. "Structure of cytoplasmic ring of nuclear pore complex by integrative cryo-EM and AlphaFold" Fontana  P, Dong  Y, Pi  X, Tong AB [..] Wu H. Science. 2022-06-10.
  9. "Structure of the cytoplasmic ring of the Xenopus laevis nuclear pore complex" Zhu  X, Huang  G, Zeng  C, Zhan X, Liang K [..] Shi Y. Science. 2022-06-10. 
  10. "Improving de novo protein binder design with deep learning" Bennett NR, Coventry B, Goreshnik I [..] Baker D. Nat Commun. 2023-05-06;crisp_bio 構造予測ネットワークと拡散生成モデルを統合することで、汎用性が高く精密なタンパク質設計を実現の引用文献2.