[注] CREME (cis -regulatory element model explanations); DNN (deep neural network)
[出典] "Interpreting cis -regulatory interactions from large-scale deep neural networks" Toneyan S, Koo PK. Nat Genet. 2024-09-16. https://doi.org/10.1038/s41588-024-01923-3 [所属] Cold Spring Harbor Laboratory (CSHL)

 ゲノムを対象とする配列ベースのDNNの最近の進歩は、遠位のシス調節エレメント(cis-regulatory element: CRE)の影響を捉えることを目的とするかなり長い入力を処理することにより、遺伝子発現の予測に顕著な成果をもたらしている [1, 2, 3, 4]。これらのDNNによって、異なる細胞型の間の遺伝子発現の差異を引き起こすシス制御のコードを解読し、遺伝的変異の影響を予測し、望ましい特性を持つ新規の制御配列を設計することが、期待される。しかし、大規模DNNの膨大な配列サイズは、その予測を評価し、学習されたパターンを解釈する際に困難をもたらす。

 大規模なモデルを評価する現在の手法は、予測値と既存の実験的摂動アッセイを付き合わせる手法が取られている。実験的摂動アッセイとしては、例えば、大規模並列レポーターアッセイ、CRISPRi [5, 6, 7]、また、遺伝子の発現量を制御する発現量的形質遺伝子座 (eQTL: Expression-Quantitative Trait Locus) のような統計解析が、利用されている。この手法はしかし、モデルの予測の評価が、実験的に捉えられたデータの範囲に限定されてしまう。また、実験技術が異なると、データの偏りやノイズが異なることから、評価が困難になることもある。

 一方で、一般的なポストホック分析 (事後解析) は、主に制御機能に関連する短いDNA配列であるモチーフの解析に集中している。この手法は、DNNの配列入力が長くなるにつれて、数百キロベース(kb)のスケールにわたってモチーフ間の極めて複雑な連携を解読することになり、ウエットで実験するには限界がある。

 こうしたギャップを埋めるために、CSHLの研究チームはCREMEを開発した。CREMEは、機能ゲノミクスのデータを学習させた大規模なDNNを検証するために設計された"in silico perturbation toolkit"である。

 CREMEは既存のモデル説明可能性手法とは対照的に、粗視化されたCREレベルから微細なモチーフレベルまで、様々なスケールでの解釈を提供する。CREMEは、実験データをフィッティングすることで、DNNが実験的アッセイを模することができ、さらに、学習させたデータの領域外での予測も信頼性が高いことから、実験的アッセイが困難な対象、例えば、長大な配列、の解析にも利用可能である。

 CRISPRi から着想を得たCREMEは、CREを同定し、他のCREとの相互作用を明らかにし、標的遺伝子に対するCREの影響を定量化するための、マルチスケールin silico摂動実験で構成されている [Fig. 1 a]参照。

 CREMEウェットな実験室での実験とは異なり、CREMEによる摂動は計算機上で行われるため、適用できる摂動のスケールには最小限の制限しかない。しかし、摂動の数が大きくなるにつれて、摂動の組み合わせ可能なセットの空間が指数関数的に増大するという課題は残る。この課題に対して、CREMEは、ゲノムDNNのレンズを通して (through the lens of genomic DNNs)遺伝子制御を予測可能とする思慮深く設計された一連のin silico摂動実験を提案している。

 CREMEの概念を最先端のDNNであるEnformer [1] で実現し、遺伝子発現を増強または抑制するシス制御要素を同定し、それらの複雑な相互作用を特徴付けた。Enformerは、約200kbのDNA配列を入力とし、様々なヒト細胞株や組織にわたるクロマチンアクセシビリティ、転写因子結合、ヒストンマーク、遺伝子発現を含む5,313の実験について、対応するリードカバレッジプロファイルを予測するDNNである。

 具体的には、K562、GM12878、PC-3細胞における遺伝子発現の制御について解析した。GENCODE [Nucleic Acids Res, 2021] の転写開始点(TSS)アノテーションを中心とした配列のキュレーションリストを用いて、遺伝子のTSS周辺の特定の配列の摂動が、調査対象の細胞型のキャップ解析遺伝子発現シーケンス (CAGE-seq track) のEnformerの予測にどのような影響を与えるかを予測した。

 CREMEは、CREからその中の微細な機能配列エレメントまで、ゲノム組織の複数のスケールにわたって解釈を提供することができ、ゲノムの調節構造に関する高解像度の洞察を提供し、Enformerを利用することで調節のルール (推測の根拠) も提示可能である。

 CREMEは、ゲノムDNNの予測を遺伝子制御のメカニズム的洞察に変換するための強力なツールキットを提供し、
CREMEは"AIで強化したCRISPRi"とも言えよう。

[図一覧]
[引用資料]
  1. "Effective gene expression prediction from sequence by integrating long-range interactions" Avsec Ž [..] Kohli P, Kelley DR. Net Methods 2021-10-04. [所属] DeepMind, Calico Life Sciences, Google (Tokyo) [本記事文末のEnformerの項参照]
  2. "Sequential regulatory activity prediction across chromosomes with convolutional neural networks" Kelley DR, Reshef YA, Bileschi M, Belanger D, McLean CY, Snoek J. Genome Res. 2018-05-27. 
  3. "Chromatin interaction–aware gene regulatory modeling with graph attention networks" Karbalayghareh A, Sahin M, Leslie CS. Genome Res. 2022-04-08. 
  4. "Predicting rna-seq coverage from dna sequence as a unifying model of gene regulation" Linder J, Srivastava D, Yuan H, Agarwal V, Kelley DR. bioRxiv 2023-09-01. 
  5. "Repurposing crispr as an RNA-guided platform for sequence-specific control of gene expression" Qi LS, Larson MH, Gilbert LA, Doudna JA, Weissman JS, Arkin AP, Lim WA. Cell 2012-02-28. 
  6. CRISPR関連文献メモ_2016/10/01 [第1項] CRISPRiによってエンハンサーとプロモーターを体系的にマッピングする
  7. CRISPRメモ_2019/01/05 [第1項] プール型CRISPRiとRNA-seqによるエンハンサー・遺伝子ペアのハイスループット・スクリーニング.
[Enformer: 遺伝子発現を予測するAI]
[出典]
 遺伝子発現の調節に関与するノンコーディングDNAが異なる細胞型においてどのように遺伝子発現を決定するかは、生物学における未解決の大きな課題であり、その解決があってこそ、下流の細胞過程を理解することが可能になる。DeepMindを主とする研究チームが今回、ニューラルネットウェアークアーキテクチャーの一種であるトランスフォーマーをベースとするEnformer (a portmanteau of enhancer and transformer) と称する新たなディープラーニングのアーキテクチャを用いることで、DNA配列からの遺伝子発現予測精度が大幅に向上したことを報告する (Enformerは200,000 bpの広範囲を処理する)。

 Enformerにより、天然の遺伝子変異と、超並列レポーターアッセイによる飽和突然変異誘発の両方について、遺伝子発現に対する変異体効果の予測精度が向上した。さらにEnformerは、DNA配列からエンハンサー・プロモーター相互作用を直接予測することを学習することで、直接実験データを入力とする手法と競合する性能を示した。

 これらの進歩により、ヒト疾患との関連をより効果的にファインマッピングできるようになり、シス制御の進化を解釈する枠組みが提供されるものと期待される。