crisp_bio

科学分野の比較的新しい論文と記事を記録しておくサイト: 主に、CRISPR生物学・技術開発・応用 (ゲノム編集, エピゲノム編集, 遺伝子治療, 分子診断/代謝工学, 合成生物学/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野) の観点から選択し、時折、タンパク質工学、情報資源・生物資源、新型コロナウイルスの起源・ワクチン・後遺症、機械学習・AIや研究公正からも選択

[出典] NEWS "What will viruses do next? AI is helping scientists predict their evolution" Mallapaty S. Nature 2025-01-08. https://doi.org/10.1038/d41586-024-04195-3
 
 ウイルス、特にSARS-CoV-2のようなRNAウイルスは、常に新しい変異を獲得し [*1]、その結果、ヒトなどの宿主の免疫を逃避して伝播する能力や悪性度を高める可能性を秘めている。そこで、既知のウイルスの遺伝子配列から、そのウイルスが将来どのような変異を獲得していくか予測することができれば、ウイルスの先手を打つ防疫・治療を実現することができる。それは見果てぬ夢であった、これまでは。

 最近、人工知能(AI)を使ってSARS-CoV-2やインフルエンザ、その他のウイルスの進化を予測する研究グループが増えつつあり、ウイルスのどの変異が最もウイルスにとって有利であり、短期間の間にどの変異体が優勢になるかを予測可能なことが報告され始めた。しかし、長い将来発生するであろう変異や変異型の組み合わせを予測するにはまだほど遠い。

 大規模な言語モデルをウイルス変異の研究に応用した[*2] 最初の研究者の一人であるカリフォルニア州スタンフォード大学の計算生物学者であるBrian Hieは、 「極めて困難ではあるが、この分野は本当にエキサイティングで非常に有用な研究分野である」 と言う。

 ロンドンのAI企業DeepMind社が開発したAlphaFold [*3] や、Meta社(旧Facebook社)が開発したESM-2やESMFold [*4] など 、AIを利用したタンパク質構造予測ツールの登場は、この分野に新たな活力をもたらしていると、英国グラスゴー大学のウイルス学者David Robertsonは言う。

 AIモデルがウイルスの進化を予測するためには、他の目的のAIがそうであるように膨大な量のデータが必要 [*5]である。東大医科研で「データ駆動ウイルス学」の創出に取り組んでいる伊藤潤平G2P-Japan Consortiumらと共同でSARS--CoV-2の1,700万件近いゲノム配列を利用して、ウイルスの変異予測に取り組んでいる。伊藤らは、ウイルスの適応度、すなわち、変異体が集団の中で急速に拡散し、最終的に優勢になる能力に注目し、ESM-2を用いて、SARS-CoV-2変異体の相対的な適合度を予測できるCoVFitと呼ばれるモデルを作成した [*6]。CoVFitは、13,643種類のSARS-CoV-2スパイクタンパク質変異体についてトレーニングされたモデルであるが、個々の変異がウイルスの抗体回避能力にどのような影響を与えるかについて、北京大学の免疫学者Yunlong Cao博士の研究チームによる実験データ [*7] も使用している。

 ハーバード・メディカル・スクールのDebora S. Marksの研究チームが開発したEVEscapeと呼ばれるモデルは [*8]、SARS-CoV-2が細胞に感染する際に使用するスパイク・タンパク質の83の可能なバージョンを設計するために使用された。これらのスパイク・アバターは、ワクチン接種を受けた人や現在流行している亜種に感染した人が産生する抗体を回避することができる。

 サウジアラビアのKAUSTと香港中文大学などの研究チームが開発したMLAEP(Machine Learning-guided Antigenic Evolution Prediction)[*9] は、構造モデリング、マルチタスク学習、遺伝的アルゴリズムを組み合わせて、ウイルスの適応度スランドスケープを予測し、インシリコ指向性進化による抗原進化を探求し、免疫不全のCOVID-19患者における新規変異や、XBB1.5のような新たな変異を同定することに成功した。

 こうしたモデルのほとんどは、小さな変化の影響を理解することに限定されている。しかし、「理論的にはウイルスはほとんど無限に進化する余地がある」と、伊藤は言う。例えば、オミクロンの変異型は50以上の変異を伴って登場した。このような突然の進化の飛躍を予測するのは難しい。Robertsonらは、AIモデルを使ってこのような膨大な進化の軌跡をよりよく理解し、その限界を見極める方法を見つけようとしている。その結果、ESM-2に単一のスパイク配列を与えることで、変化が起こりうる領域を特定し、その変化がタンパク質の他の領域にどのような影響を与えるかを特定可能なことを見出した [*10]。Robertsonは、ウイルスが人の体内で検出された段階で、ウイルスが進化する余地がどの程度あるのかを解明することを、目的としている。

[*] 関連資料
  1. crisp_bio 2021-06-11 新型コロナウイルスは,どのようにして変異して,変異株として出現するのか 
  2. "Learning the language of viral evolution and escape" Hie B, Zhong ED, Berger B, Bryson B. Science. 2021-01-15. 
  3. crisp_bio 2024-10-10 タンパク質フォールディング問題を解く: 易い、早い、上手い - 2024年ノーベル化学賞に!
  4. crisp_bio 2023-04-27 タンパク質構造予測:Google/DeepMindのAlphaFoldに対してMetaからESMFold
  5. crisp_bio 2024-12-25 AIにおける学習用データ枯渇問題 
  6. "A Protein Language Model for Exploring Viral Fitness Landscapes" Ito J [..] G2P-Japan Consortium, Sato K. bioRxiv 2024-03-18 (preprint) :SARS-CoV-2の変異型が次々と出現することで、ウイルスの適応度(fitness: spreading potential) が高まり、流行の急増が繰り返されてきた。遺伝子型と適応度の関係をモデル化することで、ウイルスの適応度を高める変異を予め特定できれば、その変異が検出され次第、注意喚起をすることが可能になる。東大医科研の佐藤 佳教授らとG2P-Japanの研究チームは今回、AIをベースにウイルスの進化を予測するCoVFitを開発した;CoVFitは、スパイクタンパク質の配列のみに基づいて変異型の適応度を予測するタンパク質言語モデルである。CoVFitは、ウイルスゲノムのサーベイランスから得られた遺伝子型の適合度データと、免疫回避に関連する機能変異データを用いてトレーニングされた;CoVFitは、XBB系統が出現する以前のデータでトレーンングしたモデルにより、XBB系統の高い適合度を予測することに成功した。より長期間のデータでトレーニングされたCoVFitは、2023年後半までのSARS-CoV-2の進化を通じて、549件の適応度が上昇する変異イベントを同定した。さらに、JN.1亜系統に高い適合度をもたらした3つのアミノ酸の変異も同定した;本研究は、SARS-CoV-2の適応度ランドスケープに関する洞察と、ウイルスゲノム監視のあり方を革新する可能性のある新しいツールの両方を提供するものである。
  7. "Imprinted SARS-CoV-2 humoral immunity induces convergent Omicron RBD evolution" Cao Y [..] Xie S. Nature 2022-12-19. 
  8. "Protein design for evaluating vaccines against future viral variation" Youssef N [..] Marks DS. bioRxiv. 2024-03-07 (preprint). 
  9. "Predicting the antigenic evolution of SARS-COV-2 with deep learning" Han W, Chen N, Xu X [..] Sun S, Cheung PPH, Gao X. Nat Commun. 2023-06-13. 
  10. "From a single sequence to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2 protein sequences" Lamb KD [..] Robertson DL. bioRxiv 2024-09-18 (preprint). 
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット