[出典]
論文 "Accurate proteome-wide missense variant effect prediction with AlphaMissense" Cheng J, Novati G [..] Kohli P, Avsec Ž. Science 2023-09-22. https://doi.org/10.1126/science.adg7492 [著者所属] Google DeepMind
展望 "Predicting pathogenic protein variants" Marsh JA, Teichmann SA. Science 2023-09-22. https://doi.org/10.1126/science.adj8672 [著者所属] U Edinburgh, Wellcome Sanger Institute, U Cambridge.
[論文のグラフィカルアブストラクトから]
AlphaMissenseによるミスセンス・バリアントの病原性予測
AlphaMissenseによるミスセンス・バリアントの病原性予測
Google DeepMindの研究チームが構築したAlphaMissenseは、ミスセンス・バリアントを入力として、その病原性を予測する。AlphaMissenseは、ヒトと霊長類の集団におけるバリアントの頻度データでAlphaFold2をファインチューニング [AI・機械学習の用語辞典]し、臨床的意義が明らかにされている疾患バリアントで信頼度を較正した。AlphaMissenseを利用して、〜7,100万件のミスセンス・バリアントが病原性である確率を予測し、良性の可能性が高い (likely benign)、病原性の可能性が高い (likely pathogenic)、不確実 (uncertain) のいずれかに分類する。研究コミュニティーの情報資源として、ヒトの全ての1アミノ酸置換の病原性予測データベースが提供されている。
[データとソースコードの提供サイト]
・Predictions for AlphaMissense:
・Predictions for AlphaMissense:
・Source code for AlphaMissense
https://zenodo.org/record/8208697
https://github.com/deepmind/alphamissense
https://zenodo.org/record/8208697
https://github.com/deepmind/alphamissense
[論文の構造化アブストラクトから]
ゲノムシーケンシングからヒト集団には広範な遺伝的変異が存在することが明らかになってきた。ミスセンス・バリアントは、タンパク質のアミノ酸配列を変える遺伝的変異である。タンパク質の機能を破壊し、生物のフィットネスを劣化させるミスセンス・バリアンとは、病原性のミスセンス・バリアントに分類され、そうした臨床的影響が限定的なミスセンス・バリアントは、良性なミスセンス・バリアントに分類される。
ミスセンス・バリアントのこうした分類が、ヒト遺伝学において現在進行中の重要な課題である。これまでに400万を超えるミスセンス・バリアントが検出されてきたが、病原性または良性に分類されたのはそのわずか2%と推定されており、ミスセンス・バリアントのほとんどの臨床的意義が不明 (VUS: Variant of Uncertain Significance) のままである。Atals of Variant Effects project [Fowler et al. Genome Biology 2023]では、バリアントの病原性をこれまでにないハイスループットで判定可能にするMultiplexed assays of variant effect (MAVEs) と呼ばれる実験法が採用されているが、実験的にその影響が同定されたバリアンとはヒトゲノムのごく一部 (tiny fraction) にとどまっている。
こうした状況は、ミスセンス・バリアンとのデータをベースとする希少疾患の診断や疾患の原因である遺伝変異を標的とした治療法の開発は、暗闇を手探りで進むも同然である。ここで、機械学習のアプローチの登場である。機械学習には、生物学的データに隠されているパターンを学習することで、バリアントの臨床的意義の判定を大きく前進させられる可能性がある。具体的には、タンパク質の配列からタンパク質の構造を正確に予測することを可能にしたAlphaFoldを、タンパク質上のバリアント (アミノ酸変異) の病原性を予測する基盤として利用できる可能性がある。
こうした状況は、ミスセンス・バリアンとのデータをベースとする希少疾患の診断や疾患の原因である遺伝変異を標的とした治療法の開発は、暗闇を手探りで進むも同然である。ここで、機械学習のアプローチの登場である。機械学習には、生物学的データに隠されているパターンを学習することで、バリアントの臨床的意義の判定を大きく前進させられる可能性がある。具体的には、タンパク質の配列からタンパク質の構造を正確に予測することを可能にしたAlphaFoldを、タンパク質上のバリアント (アミノ酸変異) の病原性を予測する基盤として利用できる可能性がある。
- AlphaMissenseを使用して、19,233の標準的なヒトタンパク質にわたる2億1,600万の可能性のある単一アミノ酸変化の病原性を予測したところ、7,100万の予測ミスセンス・バリアントで飽和に達した。
- AlphaMissenseは機械学習における最近の多面的な成果を利用している:(i) 教師なしタンパク質言語 (protein language modeling)モデリングを介して、配列のコンテクストに基づいたアミノ酸分布を学習;(ii) AlphaFold2由来のシステムによる構造のコンテクストの取り込み;(iii) 人類集団と霊長類集団におけるバリアントの頻度データに基づくファイン・チューニング [AI・機械学習の用語辞典]により、ヒトが手作業でキュレーションしたアノテーションをベースにすることによるバイアスを回避。
- AlphaMissenseは、臨床アノテーション、デノボ疾患バリアントの判定、実験的アッセイによるベンチマークにおいて、それぞれに該当するデータで明示的に学習させることなく、従来の手法に優るミスセンス病原性予測を達成した。ClinVarデータセットを対照として90%の精度をもたらすカットオフを用いて、ヒトゲノム全てのミスセンス・バリアントの32%を病原性の可能性が高いバリアントとして、57%を良性の可能性が高いバリアントとして、分類し、ヒト・プロテオームにおけるすべての可能な単一アミノ酸置換を対象とする病原性予測データベースを、情報資源として広く提供し始めた (11%はuncertain)。
研究チームはこの情報資源が様々な分野の研究を加速するためにどのように利用できるかも提示した。分子生物学者は、ヒト・プロテオーム全体の飽和アミノ酸置換をプローブする実験をデザインし解釈するための出発点として、このデータベースを利用することができる。また、人類遺伝学者は、遺伝子レベルのAlphaMissense予測をコホートをベースとするアプローチと組み合わせて、遺伝子の機能的意義を定量化することができる。また、AlphaMissense予測は、希少でおそらく劇症型のバリアントのアノテーションを使用する複雑形質遺伝学の研究に役立つであろう。
コメント