[注] AiCE = AI-informed constraints for protein engineering
中国科学院遺伝学・発生生物学研究所/中国科学院大学先端農業科学部の高彩霞博士率いる中国の研究チームは、標題の画期的な手法AiCEを開発し、AiCEを利用すると、AIモデルを学習させることなく、迅速かつ効率的にタンパク質を進化させることが可能なことを実証した。
理想的なタンパク質工学戦略は、最小限の労力で最適な性能を達成することである。しかし、既存のアプローチは、しばしば、コスト、効率、拡張性の面で限界に突き当たる。その中で、現在のAIベースのタンパク質工学手法は、多くの場合、計算量が非常に多いため、予測精度を維持しかつ研究コミュニティ全体でより広く採用できよりアクセスしやすくユーザーフレンドリーな代替手法が求められている。
本研究において、研究者らはまず、高適応度(high fitness: HF)の単一アミノ酸置換を予測するために設計されたモジュールであるAiCEsingleを開発した。このモジュールは、タンパク質の3D構造に基づいて適合するアミノ酸配列を生成するAIモデルである逆フォールディングモデル(ESM-IF1, LigandMPNN, ProteinMPNN)を広範囲にサンプリングし、構造制約を組み込むことで予測精度を向上させる。60個のディープ・ミューテーション・スキャン(DMS)データセットに対するベンチマークテストの結果、AiCEsingleは他のAIベースの手法よりも36~90%優れた性能を示すことが実証された。複雑なタンパク質およびタンパク質-核酸複合体に対する有効性も検証されたが、構造制約を組み込むことで、精度が37%向上した。
さらに、複数の変異の組み合わせにおける負のエピスタシス相互作用 [*] という課題に対処するため、進化的カップリング制約を統合するAiCEmultiモジュールを開発した。これにより、最小限の計算コストで複数の高適応度変異を正確に予測することができ、ツールの汎用性と実用性が向上した。
[*] ここでは、二つ以上のHFのアミノ酸置換が組み合わさることで、それぞれの適応度向上効果が互いに減弱あるいは相殺され、蛋白質全体の適応度が低下する現象を意味する。
研究チームは、AiCEフレームワークを用いて、デアミナーゼ、核局在配列、ヌクレアーゼ、逆転写酵素など、多様な構造と機能を持つ8つのタンパク質を進化させることに成功した。これらの改変タンパク質により、精密医療や分子育種への応用に向けた次世代塩基エディターの開発が可能になった。これらの次世代塩基エディターには、編集ウィンドウが約50%狭くなった塩基エディターenABE8e、忠実度が1.3倍高い塩基エディターenSdd6-CBE、そして活性が14.3倍に向上したミトコンドリア塩基エディターenDdd1-DdCBEが含まれる。
AiCEは、タンパク質工学におけるシンプルで効率的、かつ広く応用可能な戦略であり、既存のAIモデルの潜在能力を解き放つことで、この分野に有望な新たな方向性を示し、AI主導のタンパク質再設計の解釈可能性を高める。
[背景補足]
タンパク質工学において、構造誘導型合理的タンパク質設計や指向性進化などの現在の戦略は、多様なタンパク質の工学において大きな進歩を遂げてきた。しかし、機能強化された変異体は、特定の条件下での配列変異と機能的能力の関係を定義するタンパク質適応度ランドスケープにおいては稀である。
既存の戦略では、タンパク質内の稀で有利な突然変異をコスト効率の高い方法で特定することが困難である [論文Figure 1 A参照]。
構造誘導型合理的タンパク質設計は、タンパク質配列の変更を調整して目的の機能変更を達成するために経験的な人間の専門知識に依存するが、成功率が低く、局所的な適応度最適状態に陥るリスクがある。
指向性進化法の場合は、その反復的な選択プロセスは、起伏の多い適応度ランドスケープを通る上り坂の散歩に例えることができ、潜在的な進化のボトルネック、高い反復コスト、およびさまざまなシナリオに合わせて突然変異をカスタマイズすることの難しさに直面している。
近年、ディープラーニング モデルを使用するタンパク質工学手法が優れた結果を生み出している。これらは大きな可能性を秘めている一方で、モデルの学習と転移学習に多大な計算リソースを必要とすることが多く、多様なタンパク質への一般化には限界があり、労働集約的なin vitro検証に依存することになる。これらの制約は、専門的なインフラや専門知識にアクセスできない研究者にとって大きな障壁となっている。
ESM-IF1やProteinMPNNなどの一般化タンパク質逆フォールディングモデルは、タンパク質バックボーンの幾何学的および物理的特性を暗黙的に学習するAI駆動型の配列生成モデルである。これらのモデルは、与えられたバックボーンと構造的に互換性のある高信頼度のアミノ酸配列を予測することができ、構造予測の逆を効果的に実行する。これらのモデルは天然のタンパク質構造と配列に基づいて学習されているため、進化ダイナミクスによって形成されるタンパク質配列の複雑な分布パターンを捉えることができる。この能力により、逆フォールディングモデルは追加のAIモデル学習を必要とせずにタンパク質工学に直接適用でき、タンパク質工学へのよりアクセスしやすいアプローチを提供する。
[出典]
- 論文 "Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints" Fei H [..] Gao C. Cell. 2025-07-07. https://doi.org/10.1016/j.cell.2025.06.014 [著者所属] Institute of Genetics and Developmental Biology CAS, College of Advanced Agricultural Sciences (University of Chinese Academy of Sciences)
- NEWS RELEASE "Scientists Unveil AI-powered universal strategy for protein engineering" Chinese Academy of Sciences Headquarters. EurkAlert!. 2025-07-07. https://www.eurekalert.org/news-releases/1090052
コメント