[出典] "Atomic context-conditioned protein sequence design using LigandMPNN" Dauparas J [..] Baker D. bioRxiv. 2023-12-23 (preprint). https://doi.org/10.1101/2023.12.22.573103 [著者所属] U Washington, Seattle
David Bakerらは最近 (2023年12月18日) Nature 誌から、3次元構造に折り畳まれていない螺旋状のペプチドに高い親和性が結合するタンパク質 (バインダー) のデノボ設計が可能なことを報告 [*]した (Nature 誌への投稿は2022年)。しかし、深層学習をベースとするタンパク質配列設計は最先端のアプローチであっても、タンパク質以外の原子や分子のモデル化には到達していなかった。David Bakerチームは今回 (2023年12月23日)、生体分子系のすべての非タンパク質成分を明示的にモデル化する深層学習ベースのタンパク質配列設計手法 (LigandMPNNと命名) を、2023年12月23日にプレプリントサーバのbioRxiv から公開した。
LigandMPNNは、David Bakerらが先行研究で開発していたProteinMPNNアーキテクチャをタンパク質以外の原子・分子へと拡張した形になっている。
- LigandMPNNは、X線結晶構造解析またはクライオ電顕法により3.5Å以上の分解能で決定された、全長6,000残基未満のPDB(2022年12月16日現在)のタンパク質集合体のデータで学習させた。学習セットと検証セット/の分割は、30%の配列同一性カットオフでクラスタ化されたタンパク質配列に基づいて行われた。低分子を含む317のタンパク質構造、核酸を含む74のタンパク質構造、遷移金属を含む83のタンパク質構造からなるテストセットで、LigandMPNN配列設計のパフォーマンスを評価した。
- LigandMPNNをRosettaおよびProteinMPNNの性能を、リガンドに近く、タンパク質以外の原子から5.0Å以内に側鎖原子を持つ残基のネイティブ配列回収率で、比較すると、低分子と相互作用する残基(63.3% 対 50.4% & 50.5%)、ヌクレオチド(50.5% 対 35.2% & 34.0%)、金属(77.5% 対 36.0% & 40.6%)となり、いずれもLigandMPNNがRosettaとProteinMPNNを大幅に上回った。
コメント