crisp_bio

科学分野の比較的新しい論文と記事を記録しておくサイト: 主に、CRISPR生物学・技術開発・応用 (ゲノム編集, エピゲノム編集, 遺伝子治療, 分子診断/代謝工学, 合成生物学/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野) の観点から選択し、時折、タンパク質工学、情報資源・生物資源、新型コロナウイルスの起源・ワクチン・後遺症、機械学習・AIや研究公正からも選択

[出典] "A DNA language model based on multispecies alignment predicts the effects of genome-wide variants" Benegas G, Albors C, Aw AJ, Ye C, Song YS. Nat Biotechnol. 2025-01-02. https://doi.org/10.1038/s41587-024-02511-w [所属] UC Berkeley (Graduate Group in Computational Biology, Dept Electrical Engineering and Computer Sciences, Dept Statistics & Center for Computational Biology)
 
 タンパク質言語モデルは、ミスセンス・バリアントの影響を予測する上で顕著な性能を示してきたが、DNA言語モデルは、ヒトのような複雑なゲノムにおけるバリアントの影響予測においては、まだ優位性を示していない。この限界は、ヒトゲノムの約98%を占める非コード領域の膨大な複雑性を扱う場合に特に顕著である。この課題に取り組むために、カリフォルニア大学バークレー校の研究チームは、GPN-MSA(多重配列アライメントによるゲノム事前学習ネットワーク [*])を導入した。
[*] "DNA language models are powerful predictors of genome-wide variant effects" Benegas G, Batra SS, Song YS. Proc Natl Acad Sci U S A. 2023-10-26/10-31. 

 GPN-MSAは、複数の生物種にわたる全ゲノムアライメントをベースにしているが、学習にかかる時間はわずか数時間である。臨床データベース(ClinVar, COSMIC, OMIM)、実験的機能アッセイ(deep mutational scanning, DepMap)、集団ゲノムデータ(gnomAD)を用いたいくつかのベンチマークにおいて、ヒトゲノムを対象とした我々のモデルは、コーディングバリアントとノンコーディングバリアントの両方について、有害性の予測において卓越した性能を達成した。ヒトゲノムの約90億個の一塩基バリアントについて、事前に計算されたスコアを提供する。ゲノムワイドなバリアント効果予測における我々の進歩は、より正確な希少疾患診断を可能にし、希少バリアント負荷試験を改善すると期待している。

[図一覧]
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット