[出典] 
  • 論文 "Accurate prediction of protein–nucleic acid complexes using RoseTTAFoldNA" Baek M, McHugh R, Anishchenko I, Jiang H, Baker D, DiMaio F. Nat Methods 2023-11-23. https://doi.org/10.1038/s41592-023-02086-5 [著者所属] Seoul National U, U Washington (Seattle), UC Berkeley.
  • 著者解説 (Research Briefing) "Using machine learning to predict the structure of proteins that bind to DNA and RNA" DiMaio F, McHugh R. Nat Methods 2023-11-23. https://doi.org/10.1038/s41592-023-02088-3
 David Bakerが所長を務めるInstitute for Protein Design の准教授Frank DiMaioが責任著者となったNature Methods 論文にて、タンパク質-DNAおよびタンパク質-RNA複合体の構造を予測できる機械学習モデルであり、構造情報が未知のDNA/RNA結合タンパク質ファミリーの正確な構造を予測可能とするRoseTTAFoldNAが公開された。

[課題設定]

 DNAやRNAに結合するタンパク質はどこにでも存在し、あらゆる生命体において多彩な生命機能を果たしている。これらのタンパク質には、細胞の環境に対する応答を制御する転写因子、ゲノムの全体的な構造を組織化するヒストン、RNAやDNAをコピー、編集、分解する酵素などが含まれる。その重要性にもかかわらず、これらのタンパク質が標的のDNAやRNAをどのように認識しているかについてはほとんど知られていない。高分解能の構造データから、タンパク質とDNAやRNAとの相互作用の分子機構に関する洞察を得られるが、これまでに得られたデータは、DNAやRNAに結合するタンパク質の中で最も一般的なファミリーに限られている。

 一方で、タンパク質とDNAやRNAとの相互作用を理解するこれまでのアプローチは、いずれも近縁のタンパク質の構造を手がかりとしていた。したがって、これまでに無いプローブや治療薬を設計するためには、未知のタンパク質とDNAおよび未知のタンパク質とRNA (以下, タンパク質-核酸と総称) の複合体の構造を予測できるモデルが必要である。

[課題解決]

 機械学習モデル、特にGPT [Wikipedia] で世に出たTransformerアーキテクチャーをベースとするモデルが、タンパク質の構造を予測する上で強力であることが証明されている。AlphaFold や RoseTTAFold のようなツール [*]は、その配列と既知の関連配列のみに基づいてタンパク質の3次元構造を予測するように学習させることで、タンパク質構造予測の効率と精度を飛躍的に向上させた。DiMaioらは、同様のTransformerをベースとするモデルが、タンパク質-核酸複合体の構造を予測するのに有用ではないかと考えた。

 DiMaioらは、RoseTTAFoldにTransformerベースの機械学習モデルを融合したRoseTTAFoldNAを利用して、2020年5月以降に解明された全てのタンパク質-核酸複合体の構造を予測し、Protein Data Bankの実験的に決定された構造と比較した。RoseTTAFoldNAトレーニングに使用しなかった既知の構造を持つ複合体を対象としてモデルを評価したところ、それらのタンパク質-核酸複合体の45%、およびトレーニングセットの中で進化的に関連する構造が検出されなかった構造についてもその42%について、正しい構造を予測することに成功した[Fig. 1引用右図参照]。

 さらに、RoseTTAFoldNAは各予測に信頼値を割り当てており、信頼値が最も高い予測のサブセット (全予測の約3分の1) のみを考慮すると、予測成功率は81%に達した。したがって、モデルから高信頼度の予測が与えられた場合、モデルは複合体のネイティブに近い構造を決定した可能性が高い。こ

 これらの実験結果は、限られたトレーニングデータにもかかわらず、我々のモデルが多くのタンパク質-核酸複合体の構造を正確に予測できることを示している。

[今後の方向性]

 RoseTTAFoldNAは、これまであまり研究されてこなかった核酸に結合するタンパク質のファミリーについて、正確な構造予測を可能にすることが見込まれ、それによってタンパク質と核酸の相互作用の性質が明らかになり、これらのタンパク質がどのように標的を認識するかについての洞察が得られるだろう。この予測はまた、突然変異を理解したり、合理的な治療法を設計するための出発点となる可能性もある。

 しかし、RoseTTAFoldNAにも、タンパク質構造のみを予測する場合と同様に限界がある。複合体の単一の静的な状態を同定するが、分子機能にとって重要なオルターナティブなコンフォメーションを必ずしも同定しないことであり、ひいては、タンパク質がDNAやRNAの標的を探索・認識・結合する過程においてとられるコンフォメーションを追跡するには至らない。また、利用可能なトレーニングデータが比較的少ないことが根本的な課題である。タンパク質のみの予測と比べた成功率の差は、トレーニングデータセットの大きさの違いによるものかもしれない。今後、生物物理学的な "背景知識 "を組み込むことと、非構造データをトレーニングに含めるとが、予測の成功率を上げていく2つの手段である。

[論文の背景 (Frank DiMaio) ]

 タンパク質構造のみを高精度で予測可能にしたRoseTTAFold2の開発後、DiMaioらはそれを使ってタンパク質-DNA複合体を予測することに興味を持った。当初の計画では、「理想的なDNA」を入力として与え、モデルがその周囲でタンパク質を折りたたむというものだった。しかし、トレーニングの初期段階で、RoseTTAFoldNAがDNAとRNAの構造をかなり正確に予測することが分かってきたことから、モデルを常にゼロからRNAとDNAを作らせるようにトレーニングを変更した。

 しかし、あらかじめ形成された核酸構造の周りにタンパク質を折り畳むという、当初簡単だと思っていた部分は、はるかに困難であることが判明し、トレーニング過程での過剰適合 (overfiting/memorizing) を防ぐためにいくつかのトリックが必要になった。

 また、RoseTTAFoldNAのモデルのトレーニングは多大な計算量を要したため、今回報告したモデルは、トレーニング戦略、アーキテクチャ、データの前処理を「その場で」変更し、たった1回のトレーニングを実行した結果である。