- DNA, RNA, そして、タンパク質の各レベルに加え多因子複合体の予測と生成を実現
[出典] 
投稿 "Sequence modeling and design from molecular to genome scale with Evo" Eric Nguyen, Michael Poli, Matthew G. Durrant [..] Patrick D. Hsu, Brian L. Hie. bioRxiv 2024-02-27 (preprint). https://doi.org/10.1101/2024.02.27.582234 [所属] Stanford U, Arc Institute, TogetherAI, CZ Biohub, UC Berkeley.

 ゲノムは、DNA、RNA、および生物全体の機能を制御するタンパク質を完全にコードする配列である。機械学習の進歩と全ゲノムの膨大なデータの融合により、複雑な分子間相互作用の機構解明と生成設計を加速する生物学的基盤モデルを手にできる可能性が出てきた。

 Acr Institute / UC BerkeleyのPatrick D. HsuとAcr Instriute/スタンフォード大学のBrian L. Hieが率いる研究チームが今回、深層学習をベースに標題のモデルを開発し、ゲノム基盤モデル (genome foundation model) EvoとしてbioRxiv に投稿した。

 Evoは、最先端の深層信号処理 (deep signal processing) に基づくアーキテクチャを用いて、1塩基/1バイトの分解能で131キロ塩基 (kb) のコンテクスト長を持つ70億個のパラメータを帯びている。原核生物の全ゲノムでトレーニングされたEvoは、分子生物学のセントラルドグマの3つの基本的なモダリティ、タンパク質からRNAそしてゲノム制御領域、を横断して扱うことを可能にし、各レベルに固有な言語モデルと競合する、あるいはそれを上回るゼロショット予測を可能とする。

 Evoは、スクリーンショット 2024-03-01 17.10.39あらゆる遺伝的要素の共進化パターンも学習していることから、多層なレベルに由来するマルチエレメントの分子生成にも優れている。今回、1つ以上のタンパク質と1つ以上のノンコーディングRNAで構成される新たなCRISPR-Cas分子複合体3例や 
[Figure 3から引用した右図のE参照]トランスポーザブル・システム全体を生成することに成功した。

 Evoによるマルチモーダルおよびマルチスケール学習の進歩は、 多層な複雑性の全レベルにわたる生物学の理解と制御を改善するに有力な道を指し示す。研究チームは、Evoを真核生物さらにヒトへと展開することを予定している。

[原核生物におけるゲノム基盤モデル: Fig.1引用右下図参照]

Evo(A)一塩基分解能のゲノム配列モデルは、制御DNAと、セントラルドグマ内の他のモダリティー ( タンパク質、コーディングRNA、ノンコーディングRNA )の配列にコードされたすべての情報を学習することができる。さらに言えば、複数の遺伝子や制御エレメントを含む共分散を学習することも可能である。
(B)自己回帰モデリングと呼ばれる、トークンのシーケンスが与えられたときに次のトークンの尤度を予測するモデルは、DNA配列の根底にある複雑なパターンを学習することができる。StripedHyena   は、アテンションHyenaのハイブリッドによって得られた、長いシーケンスのための深層信号処理アーキテクチャである。
(C) GTDBとIMG/PRの細菌ゲノム配列とIMG/VRのウイルス配列(真核生物宿主に感染するウイルスの配列を除く)に対して、StripedHyena-7BパラメータモデルであるEvoの事前学習を行った。
(D) GTDBのゲノムの配列長を表したヒストグラム。
(E) 左右の円グラフはそれぞれ界/kingdomと門/phylumに基づくGTDBの分類学的構成を表す。
(F) 大規模なDNA事前学習のための、世界初のスケーリング法則解析の結果。モデルはスケールに応じて単調に改善されるが、アーキテクチャーによって大きな違いがある (PPL:評価難易度)。
(G) Evoの最適なアーキテクチャとスケーリングを決定するために、計算最適フロンティア、すなわちデータセットサイズとモデルサイズの間の計算量の最適配分で事前学習された様々なモデルのスケーリング率を比較した (FLOPs: 浮動小数点演算)。

[参考] 共同責任著者のPatrick D. HsuのX投稿を以下に引用