[出典] "Quality and bias of protein disorder predictors" Nielsen JT, Mulder FAA (Aarhus University).
Sci. Rep. 2019-03-26.

 概要
  • 2年ごとに開催されるタンパク質構造予測コンテストであるCritical Assessment of Structure Prediction (CASP)において、タンパク質の変性領域 (Disordered Region, DR)の予測プログラムの性能が、2008年CASP8そして2010年CASP9と"停滞"し、2012年の CASP10でも僅かな向上しか見られなかったことから、新たなより洗練された (sophisticated) 予測プログラムを開発するメリットはないとされ、DR予測プラグラムは2014年CASP11から対象外とされた。
  • Interdisciplinary Nanoscience Center at Aarhus Universityの研究チームは、この"停滞"は、DRプログラム評価用のデータが不適切であったことが原因とし、今回、ベンチマーク用のデータを用意し、よく使われている26種類のプログラムを改めて評価した。
 DRへの関心
  • この10年間でDRを含むあるいはDRから成るタンパク質 (天然変性タンパク質: intrinsically disordered proteins, IDPs) への関心が急速に広がった (下図はNCBI PubMedを"intrinsically disordered protein"で単純検索したヒット数の年変動 - crisp_bio)。スクリーンショット 2019-04-23 17.04.31
  • IDPsは構造をとったタンパク質よりもはるかに広いコンフォメーション空間をサンプリングすることからより広範な機能を示す可能性があり、事実、IDPsと重要な生物過程や疾患との相関が近年、多数報告されるに至った。
  • この間、DRにアミノ酸組成になんらかの偏りが見られることから、アミノ酸配列から変性領域を予測するプログラムが多数開発されてきた。また2013年に、各種DR予測プログラムの結果を集積するD2P2MobiDB 3.0が発表され、コンセンサス予測 (consensys prediction)が可能になり、また、複数の予測プログラムの結果を統合してコンセンサス予測を提示するメタ予測プログラムも作り出された。
 ベンチマーク用データ
  • CASPでのDRプログラムの標的は、X線結晶構造解析で電子密度が欠損している領域である。X線結晶構造解析での試料調整の過程で天然では変性している領域が構造をとる可能性があることから、標的データには著しい偏りがあった。また、CASPの課題はX線結晶構造解析が成功したタンパク質だけに由来するデータであることによる偏りが加わっていた。
  • 結晶化したタンパク質ではなく、溶液中のタンパク質構造に注目したDisProt DBが存在するが、DisProには、円偏光二色性(CD)やタンパク質分解解析など多様な実験手法由来のデータの集積であり、部位特異的なデータが存在しなかった。
  • さらに、実験手法のいかんによらない本質的な問題が存在する。すなわち、これまでは構造か変性かの二項分類に止まっていて、中間的な状態あるいは連続的な領域が表現されていないことである。研究チームは今回、天然に近い状態のタンパク質からの構造情報を得られるNMR化学シフトデータから、偏りがなく高精度なベンクマーク用データセット構築を試みた。
  • 先行研究で、ランダムコイルの化学シフト (random coil chemical shifts, RCCSs)からのずれをもとに"構造 (order)/変性 (disorder)"のスコアとして導入したNMRの化学シフトのZスコア (Chemical shift Z-score for assessing Order/Disorder: CheZOD score)によって、oder/disorderを部位特異的かつ連続的に計測可能とし、ベンチマーク用データセットを、天然に近い状態でorderとdisorderと同様に含みCheZOD scoreを算出可能なタンパク質117種類に基づいて構築した。
 プログラムの比較
  • プログラムが予測したdisorder領域と、CheZOD scoreにより判定していたdisorder領域との一致度で、各プログラムの性能を判定し、プログラムの精度が選択した特徴量と最適化方法に依存し、また、時期的に新しいプログラムほどより精度が高い傾向にあることを、見出した。
 結論
  • 既存のDR予測プログラム性能の限界は、データマイニングのアルゴリズムではなく、学習に利用したデータ (training data)の質がもたらしたものであり、今後、oderとdisorderに関する実験データの質量の充実とともに、DR予測プログラムの性能が一段と向上していくことを期待できる。
 補足
  • 原論文では、Order領域とdisorder領域の双方を帯びていることが知られており、また、癌抑制因子としてよく知られていることから、これまでIDPs予測のモデルとしてよく使われてきたp53を例題として、ベンチマーク・テストを説明
  • 各プログラムの比較結果をFigure 4/Figure 5から下図左右に引用
DR4 DR5

タンパク質フォールディング予測関連記事と論文