[出典] "A DNA language model based on multispecies alignment predicts the effects of genome-wide variants" Benegas G, Albors C, Aw AJ, Ye C, Song YS. Nat Biotechnol. 2025-01-02. https://doi.org/10.1038/s41587-024-02511-w [所属] UC Berkeley (Graduate Group in Computational Biology, Dept Electrical Engineering and Computer Sciences, Dept Statistics & Center for Computational Biology)
タンパク質言語モデルは、ミスセンス・バリアントの影響を予測する上で顕著な性能を示してきたが、DNA言語モデルは、ヒトのような複雑なゲノムにおけるバリアントの影響予測においては、まだ優位性を示していない。この限界は、ヒトゲノムの約98%を占める非コード領域の膨大な複雑性を扱う場合に特に顕著である。この課題に取り組むために、カリフォルニア大学バークレー校の研究チームは、GPN-MSA(多重配列アライメントによるゲノム事前学習ネットワーク [*])を導入した。
[*] "DNA language models are powerful predictors of genome-wide variant effects" Benegas G, Batra SS, Song YS. Proc Natl Acad Sci U S A. 2023-10-26/10-31.
GPN-MSAは、複数の生物種にわたる全ゲノムアライメントをベースにしているが、学習にかかる時間はわずか数時間である。臨床データベース(ClinVar, COSMIC, OMIM)、実験的機能アッセイ(deep mutational scanning, DepMap)、集団ゲノムデータ(gnomAD)を用いたいくつかのベンチマークにおいて、ヒトゲノムを対象とした我々のモデルは、コーディングバリアントとノンコーディングバリアントの両方について、有害性の予測において卓越した性能を達成した。ヒトゲノムの約90億個の一塩基バリアントについて、事前に計算されたスコアを提供する。ゲノムワイドなバリアント効果予測における我々の進歩は、より正確な希少疾患診断を可能にし、希少バリアント負荷試験を改善すると期待している。
[図一覧]
- Fig. 1 Overview of GPN-MSA(genomic pre-trained network with multiple-sequence alignment)
- Fig. 2: VEP results (VEP: variant effect prediction)
コメント