[crisp_bio感想: 久しぶりの'非-CRISPR & 非-新型コロナウイルス'論文]
[出典] "Improved protein structure refinement guided by deep learning based accuracy estimation" Hiranuma N, Park H, Baek M, Anishchenko I, Dauparas J, Baker D. (bioRxiv 2020-11-04) Nat Commun. 2021-02-26. https://doi.org/10.1038/s41467-021-21511-x
 人工タンパク質の開発で知られるBaker研究室 [*]からの成果
 [* crisp_bio 2021-03-09 David Barkerコレクション https://crisp-bio.blog.jp/archives/25781202.html 参照
 アミノ酸の共進化データをベースとして残基間の距離を予測することで、タンパク質の構造予測法は長足の進歩を遂げたが、現実の構造に向けて、精密化 (refinement)が必要であった。このタンパク質構造精密化はこれまで有力だった手法は、低エネルギーの構造を探索する物理的な手法そしてまたは分子動力学であった。
 研究グループは今回、天然アミノ酸配列や人工アミノ酸配列などから予測したタンパク質モデルの残基ごとの精度および残基間の符号付き距離の精度を算定する'DeepAccNet'を深層学習 (deep learning)をベースに開発し、Rosettaソフトウエア[https://www.rosettacommons.org/software]におけるタンパク質構造の精度向上を実現した。2021-03-08 11.11.00
  • DeepAccNetは、原子レベルの局所的環境を評価するための3次元畳み込み (3D convolution)の上に、構造の大域的なコンテクストを見るための2次元畳み込み (2D convolution)を加えることで [Fig.1 引用右図参照]、似たようなタンパク質構造モデル予測プログラムを超えた。
  • PDBから公開されているX線構造解析とクライオ電顕法により再構成された構造をモデルとしたDeepAccNetによる精度予測はそれぞれの分解能と相関した。DeepAccNetは、予測構造の精度と共に実験から得られた構造の精度の評価に有用であり、また、誤差が発生しやすい領域の特定にも有用である。
  • 多段階からなるRosettaの構造リファインメントの各段階に、精度予測を組み込むことで、タンパク質構造モデルの精度が大幅に向上した。このことは、深層学習が、生体分子のエネルギー的に最も安定な構造を探索するに有効であることを示した。
[背景]
  • 精密化における最大の課題は、一定のモデルから出発したとしても探索すべき構造候補数が膨大なことであり、一つには、探索空間の節約が試みられてきた。
  • その中で、出発モデルにおいて誤差が生じやすい領域を特定し、誤差を抑制することで、探索空間を縮減可能があることから、モデルの精度を評価する (estimation of model accurary, EMA)手法が、開発されてきた。
  • 例えば、深層学習をベースとするEMAとしてProQ3D [https://pubmed.ncbi.nlm.nih.gov/28052925/] ,  Ornate (Oriented Routed Neural network with Automatic Typing) [https://pubmed.ncbi.nlm.nih.gov/30874723/] , refineD [https://pubmed.ncbi.nlm.nih.gov/30759180/] など, 深層学習によらないVoroMQA [https://pubmed.ncbi.nlm.nih.gov/28263393/]が挙げられる。一方で、CASP13 (Critical Assessment of Techniques for Protein Structure Prediction 13 https://predictioncenter.org/casp13/)で最も成功を収めた精密化プロトコルは、これらに拠らない単純なアンサンブルをベースとした誤差算定による手法 (Heo & Feig, 2018らhttps://pubmed.ncbi.nlm.nih.gov/30530696/)とサンプリングに工夫を加えた手法 (Heo L, Arbou CF, Fei M, 2019 https://pubmed.ncbi.nlm.nih.gov/31197841/)であった。研究グループはこの状況は、これまでのEMAモデルのほとんどが、個々の残基の精度を評価するが、低精度の残基の空間的位置をどう改変すれば良いかという情報を提供していないことに由来すると判断した。
  • DeepAccNetの特徴は、局所的な残基コンタクトの誤差に加えて、残基間の符号付き距離の誤差も対象として評価して点にある。
 [深層学習によるタンパク質構造予測]
 [crisp_bio "David Barkerコレクション"]