[出典] Nature Biotechnology Volume 42 Issue 2, February 2024. 
(炭酸脱水酵素 (Carbonic anhydrase; CA)のイラストレーションが表紙になっている)

[注] 以下のテキストはEditorialに準拠

 タンパク質設計は伝統的に、既知のタンパク質の最適化と完全なde novo設計という2つの異なる角度からアプローチされてきた。最近、この2つの境界線を曖昧にするようなアプローチが開発されつつあり、すべての機械学習法が既知のタンパク質の情報を取り入れている。情報をどのように利用するかは手法によって異なる。例えば、単一のタンパク質ファミリーのみを対象として学習させる単純な生成的手法から、広範なタンパク質構造からの情報を取り込み、ユースケースごとに条件を設定する大規模な言語モデルまで様々である。また、異なるアプローチを組み合わせて、配列と構造を同時にモデル化する手法も登場してきた。

 手法の如何に関わらず、コンピュテーショナル・タンパク質工学の分野は、ソフトウェアやコードのオープンソース化による研究活動の民主化が進み、多大な成果を生み出して来た。しかし、数十億ものパラメーターを持つ機械学習モデルも珍しくないなど、モデルがますます大規模になる傾向にあるため、オープン化のまま進み続けることができるのか、それとも、最先端のタンパク質設計研究は結局、大企業や資金力のある一部の研究所に限定されるようになるのか、読めないところである。

 さらに、モデルの性能の比較と正確なベンチマークが、この分野の課題として残っている。自己整合性 (self-ccnsistency) のような純粋にコンピュテーショナルな指標がいくつか提案され、比較に利用可能なことが実証されているが、設計の成功を最終的に証明するのは依然として実験的検証であり、それを実行できるのは現在のところ、適切な設備と専門知識を持つ研究室に限られている。また、モデルに学習させるどのような学習データセット (トレーニングデータセット) の用意も課題である。タンパク質フォールディング予測法の成功の一因は、実験的に解かれたタンパク質構造が蓄積・公開されているProtein Data Bank (PDB)にあった。一方で、タンパク質工学に取り組む企業が増えるにつれて、公開されているデータを補完し、特定の目的に合わせた独自のトレーニングセットを生成するようになっている。

 機械学習モデルの構築には、トレーニングデータセットの質に加えて、モデルのアーキテクチャ自体の最適化も課題である。タンパク質の並進不変性と回転不変性といった事前知識や、フォールディングのエネルギーといった物理的情報を組み込むことが有用と考えられ、そうした試みもなされているが、全体としてこれからの課題である。

 最新のコンピューテーションナルなタンパク質工学は、エネルギー関数や合理的設計に基づくこれまでの工学的アプローチと比較して、タンパク質の設計プロセスを加速させつつ成功率を高めるという変曲点に達している。すなわち、より少ない数の設計を実験的にテストするだけで、成功することが多くなることから、ウェットラボでの検証のボトルネックを軽減することになる。

 タンパク質のコンピュテーショナル設計パイプラインがすでに製薬業界に採用されていることは驚くには当たらない。この分野は創薬にとどまらず、バイオエレクトロニクスとの組合せやバイオセンサーとしての可能性を秘めた細胞内におけるタンパク質回路の設計、新しい光合成タンパク質の開発、生分解性材料や炭素隔離 ( carbon sequestration)、汚染物質分解酵素の開発にまで広がっていくのを見ることができるのは、極めてエキサイティングなことである。

 このNature Biotechnology の特集にあるように、コンピュテーショナルタンパク質工学の将来の選択肢は無限である。

[構成]
  • Editorial: Spotlight on protein structure design. https://doi.org/10.1038/s41587-024-02150-1;タンパク質設計の新たな手法はワークフローを加速するが、トレーニングデータの利用可能性と方法の最適化という問題が残る。
  • Correspondence:What does it take for an ‘AlphaFold Moment’ in functional protein engineering and design? Chica, R.A., Ferruz, N. https://doi.org/10.1038/s41587-023-02120-z
  • Q & A: Protein design: the experts speak. Doerr A. https://doi.org/10.1038/s41587-023-02111-0;2021年にAlphaFold2とRoseTTAFoldが発表された後、タンパク質構造予測の分野では、これらの進歩をタンパク質工学に取り入れる動きが急速に進んでいる。
  • Patents: Protein engineering and design. https://doi.org/10.1038/s41587-024-02124-3;人工ポリペプチドを設計するシステムおよび方法に関する最近の特許8件。
  • News & Views Perfecting antibodies with language models. Outeiral C, Deane CM. https://doi.org/10.1038/s41587-023-01991-6;汎用のタンパク質言語モデルにより、抗体の特性が急速に改善される。
  • Primer: Generative models for protein structures and sequences. Hsu C, Fannjiang C, Listgarten J. https://doi.org/10.1038/s41587-023-02115-w;ChatGPTやDALL-E2のようなモデルは、テキストによるプロンプトに応じてテキストや画像を生成する。データやゴールは異なるものの、生成モデルはタンパク質工学にどのように役立つのだろうか?
  • Primer: Designing proteins with language models. Ruffolo JA, Madani A. https://doi.org/10.1038/s41587-024-02123-4;タンパク質言語モデルは、進化系統樹にわたる多様な配列から学習し、配列の設計、変異効果の予測、構造予測のための強力なツールであることが証明されている。タンパク質言語モデルの基礎とは何か、そしてタンパク質工学にどのように応用されているのか?
  • Review: Sparks of function by de novo protein design. Chu AE., Lu T, Huang PS. https://doi.org/10.1038/s41587-024-02133-2;タンパク質のデノボ設計の最近の進展
  • Review: Machine learning for functional protein design. Notin P, Rollins N, Gal Y, Sander C, Marks D. https://doi.org/10.1038/s41587-024-02127-0;既存のタンパク質の再設計に焦点を当てた機械学習モデルの進歩
  • Review: Computational drug development for membrane protein targets. Li H, Sun X, Cui W [..] Stalberg H, Yuan S, Vogel H. https://doi.org/10.1038/s41587-023-01987-2;創薬が、コンピューテーションによるタンパク質の構造予測と設計の進歩によって、一変しつつある。
  • Brief Communication: Fast and accurate protein structure search with Foldseek. van Kempen M, Kim  SS, Tumescheit C [..] Söding J, Steinegger M. https://doi.org/10.1038/s41587-023-01773-0;Foldseekによってタンパク質の構造検索が4〜5桁高速になる。
  • Brief Communication: scDesign3 generates realistic in silico data for multimodal single-cell and spatial omics. Song D, Wang Q, Yan G [..] Li J. https://doi.org/10.1038/s41587-023-01772-1
  • Efficient evolution of human antibodies from general protein language models. Hie BL, Shanker VR, Xu D [..] Kim PS. https://doi.org/10.1038/s41587-023-01763-2;言語モデルにより, 2ラウンドの進化の過程においてバリアント数20個以下で、親和性向上を実現