crisp_bio

論文・記事紹介:CRISPR生物学・技術開発・応用 (ゲノム工学, エピゲノム工学, 代謝工学/遺伝子治療, 分子診断/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野); タンパク質工学;情報資源・生物資源;新型コロナウイルスの起源・ワクチン・後遺症;研究公正

[出典] 
  • 論文 "Machine-guided design of cell-type-targeting cis-regulatory elements" Gosai SJ, Castro RI [..] Reilly SK, Tewhey R. Nature 2024-10-23. https://doi.org/10.1038/s41586-024-08070-z [所属] Broad Institute, Harvard U, Harvard Medical School, HHMI, Jackson Laboratory, U Maine, Yale School of Medicine, Yale U,  Tufts Uy School of Medicine
  • NEWS & VIEWS "AI-designed DNA sequences regulate cell-type-specific gene expression" Pfenning AR. Nature 2024-10-23. https://doi.org/10.1038/d41586-024-03170-2 [所属] Carnegie Mellon U.
 シス制御エレメント(cis-regulatory elements: CRE)が、遺伝子発現を制御し、ひいては、組織の同一性、発生時期、刺激応答を組織的に制御し、総体として体内の何千ものユニークな細胞型を規定している。したがって、組織特異性を必要とする治療やバイオテクノロジーの応用において、CREsの戦略的組み込みに大きな可能性がある。一方で、これらの目的に最適なCREsが自然に生まれたという保証はない。今回、ブロード研究所、ジャクソン研究所、イェール大学などの研究チームが、細胞型特異的に遺伝子発現を駆動可能とする優れた合成CREを設計し、検証するためのプラットフォームを開発した。
  • 研究チームは、3種類の細胞型にわたるCRE活性のディープニューラルネットワークモデリングのイノベーション、効率的なin silicoでの最適化、超並列レポーターアッセイ(massively parallel reporter assays: MPRA)の革新的技術を活用し、何千ものCREsを設計し、経験的にテストした。
  • 大規模なin vitroでの検証を通して、ヒトゲノム由来の天然配列と比較して、合成配列が3つの細胞株で細胞型特異的発現をより効果的に促進し、in vivoで試験した場合、類似の組織で特異性を達成することが示された。
  • 合成配列は、オンターゲット細胞タイプにおける活性もたらしつつオフターゲット細胞における活性を抑制する、一連の明確なモチーフを示した。
 これらの結果は、MPRAモデルからCREを前向きに設計するための一般化可能なフレームワークが提供され、目的に適合した制御コードの記述が可能になったことを、意味する。

[詳細]

 CREが遺伝子発現にどのような影響を及ぼすかについての理解は、主にヒトゲノムに天然に存在するエレメントから得られてきた。過去10年にわたる大規模な研究により、何百万もの推定CREが同定されたが、進化によって生み出された配列は、可能性のある遺伝子配列のごく一部に過ぎず、治療応用に適した発現目標を満たさない可能性がある。実際、200bpのDNAは2.58×10120以上の可能な配列を包含することができ、これは観測可能な宇宙に存在する原子の数よりも多い組み合わせである。この未開拓のDNA配列空間は、臨床やバイオテクノロジーへの応用が期待されるCREの未開発の宝庫である。制御文法 - 遺伝子発現を活性化あるいは抑制する転写因子(TF)の語彙)、それらの組み合わせ効果、および、高次な構文- における知識のギャップを埋めることは、過去10年間のゲノム科学の主要な目標であり、また、さまざまな応用に特化したCREの開発に役立つであろう。

 近年、3種類のギャップを克服することで、細胞型に特異的な活性を持つCRE配列を設計する能力が再構築されてきた:
  1. MPRA:天然および合成CREの機能的特性を評価するためのスケーラブルな方法であり、細胞型を超えた何十万ものCREの活性の直接定量を可能にし、制御構文や細胞特異性に関する知見を提供する。
  2. 深層学習:DNA配列と、DNase I高感受性領域 (DNase I hypersensitive site: DHS)によって区画されたオープンクロマチン領域などの制御活性のプロキシとの関係を予測するための効果的なツールであることが証明され、最近ではレポーターアッセイにも拡張され、遺伝子配列が細胞型を超えてどのようにCRE活性をもたらすかについての正確な制御文法のモデルを提供する
  3. 予測モデルを、目的とする制御を実現するCREの生成へと、再利用する能力:計算モデルは実験よりも何百万倍も速いとはいえ、典型的なヒトCREのサイズ内で可能なすべての配列の組み合わせをグローバルに検索することはできない。予測モデルから配列を生成する効率的なフレームワークは、このギャップを解決し、候補CREの合理的で解釈可能な設計を可能にするのに役立つ可能性がある;しかし、予測モデルを用いて設計された合成CREは脊椎動物では未検証であり、天然配列と比較してその有効性は不明なままである。
 プログラムされた、高精度で細胞型に特異的なCREは、特殊なレポーター、CRISPR治療薬、遺伝子置換アプローチなどの開発に貢献するだろう。特に、強固な細胞型に特異的なデリバリーが、遺伝子治療における大きな課題になっているが、組織特異性の高い機能を持つ合成CREを精密に作製することができれば、遺伝子導入のためのナノ粒子やウイルスベクターを補完するツールを提供することができる。

 研究チームは、3つの形質転換細胞株(ヒト慢性骨髄性白血病由来K562細胞、ヒト肝癌由来HepG2細胞、ヒト神経芽細胞腫由来SK-N-SH細胞)にわたって、それぞれの細胞型に特異的な導入遺伝子の発現を駆動することができる、新規の合成CREを第一原理的に設計する方法を実装した。これは、細胞型を超えた制御文法のモデリングにおけるこれまでの革新的技術(BassetEnformer)、効率的な配列空間検索、および数千のCREを並行して検証できるMPRA実験システムを統合することによって達成された。

 これまでに無い膨大な数のCREを特徴付けるMPRA実験から作成されたデータベースを使用して、in silicoで任意の配列の活性を迅速に予測できる正確なディープラーニングモデルを訓練した。このモデルを配列生成アルゴリズムと組み合わせ、3つの細胞株にわたってプログラムされた特異性を持つ数千の合成CREを生成し、MPRAを用いてin vitroで、また、マウスやゼブラフィッシュの生理学的関連組織をプローブとしてin vivoにおいても、CODAが、細胞型特異的な遺伝子発現を誘導できる合成CREを設計する効果的な戦略であることを、確認した。

[CRE活性を正確に予測するモデルMalinois]

 研究チームはまず、DNA配列のみからCRE活性の正確なモデルを構築した。これまでのCRE活性モデルは、主にCRE機能と相関するエピジェネティックな状態を用いてきたが、研究チームは、遺伝子の転写に対するある配列の効果を定量化するハイスループット・レポーターシステムであるMPRAによってアッセイされた、776,474件の200塩基配列の制御出力を直接用いてモデルをトレーニングした。これらのMPRAは、一貫した実験・分析パイプラインを用いて一つの研究室で実施され、Fig. 1 a, b再現性の高い測定結果が得られた [Fig. 1 a 参照;右図参照]。合計で155.3 Mbのユニークなゲノム配列から、3種類のヒト細胞それぞれについて機能的CRE測定を行った。

 続いて、任意の配列について MPRA で測定された細胞型情報に基づく CRE 活性を予測するためのディープ・コンボショーナル・ニューラル・ネットワーク(CNN)、Malinoisと命名、を作成した。クロマチン・アクセシビリティのモデルであるBasset [Fig. 1 b 参照;右上図参照] のアーキテクチャコンポーネントを採用し、ベイズ最適化を用いてハイパー・パラメータ設定を繰り返し、高性能モデルを同定した。Malinoisは細胞型を問わずエピソームCRE活性を正確にモデル化した。トレーニングから除外した配列(7番染色体と13番染色体の62,582エレメント)について、K562、HepG2、SK-N-SH細胞におけるMalinoisの予測は、経験的な活性測定値と高い相関を示し [Fig. 1 c 参照]、実験結果と同等の特異性を推定した。

 MalinoisがCRE活性を正確かつ迅速にモデル化できることを踏まえ、ゲノムワイドな配列活性予測を行い、CREを特徴付ける直交アプローチと比較した。Malinoisの予測値と、GATA1  を包含する2.1 Mbのウインドウをタイリングした配列の包括的なMPRAとの間に強い相関が観察された [Fig. 1 d 参照]。また、Malinois K562細胞予測は、DHSsおよびH3K27acクロマチン免疫沈降シーケンス(ChIP-seq)ピークによって同定されたCREの既知のマーカーにおいて強い活性を示した。そしてCRE活性の直交指標であるSTARR-seqのピークと相関している [Fig. 1e 参照]。この所見はHepG2細胞とSK-S-SH細胞でも同様であった。これらのデータは、Malinois予測はCREの正確な測定が可能であることが示唆している。

[所望の機能を持つCREを設計するCODA]

 研究チームは、プログラムされた機能を持つ新規CREを設計するためのモジュール式プラットフォームであるCODA(Computational Optimization of DNA Activity / コンピュータによるDNAの活性の最適化)を開発した。Fig. 2 aCODAは、配列の活性を予測し、目的関数を用いて配列が設計目標にどれだけ適合しているかを定量化し、目的値を増加させるように配列を更新するという反復ループをたどる [Fig. 2 a 参照;右図に引用]

 反復ループを辿る中で、モデル化した細胞株の一つで細胞型特異的レポーター転写を駆動するCREに至る。オンターゲット(標的とする)細胞型において予測されたMPRA活性と、残る種類のオフターゲット(標的外の)細胞型において予測されたMPRA活性の最大値との差(MinGap)を計算することにより、予測の成功を定量化する。CODAにおける配列の更新には、異なる配列設計アルゴリズムを利用できる。ここでは、配列生成のために、3つの幅広い最適化技術を代表するアルゴリズム(進化型のAdaLead;確率的なシミュレーティド・アニーリング;勾配ベースのFast SeqProp )を実装した。これらの方法論は、実装の容易さ、過去の成功例、またはディープラーニングモデルの構造を利用する能力に基づいて選択した。細胞型特異的エレメントを設計するこれらのアルゴリズムの全体的な能力は、ハイパー・パラメータの選択に対して一般的に頑健であった。しかし、必要に応じて、目的の最大化と、設計されたエレメントのセットにおけるk-merの多様性の維持との間のトレードオフのバランスをとるために、調整を行うことも可能である。

 CODAの有効性を実証的に検証するため、合成配列の活性を測定するMPRAを実施した。各細胞型について、CODAの3つの配列設計アルゴリズムからそれぞれ4,000個の細胞型特異的配列を生成し、合計36,000個の合成候補を得た [Fig. 2 b 参照]。研究チームは、Malinoisが特異性を最大化する際に、特定の配列モチーフに対する強い選好を誘導することに気づいた。このため、予測される細胞型特異性が低下する可能性があるにもかかわらず、優先度の高いモチーフをデザインに含めるとペナルティ(penalty)が課せられるため、CODAにその使用を減らすよう促すことにした。Fast SeqPropを用いて、モチーフ・ペナルティを目的関数に組み込んだ15,000の合成配列からなる第2のグループをデザインし、モチーフの含有量を多様化した [Fig. 2 b参照]。その結果、Levenshtein距離とk-mer類似性解析から、合成CREの生成に使用した全ての方法で、十分に多様な配列のセットが得られることを確認できた。

 さらに、ヒトゲノムから天然に存在するCREを選択し、今回設計された合成CREが、細胞型特異的活性をどの程度促進するかを調べた。DHSによって測定されるH3K27acヒストンマークとクロマチン・アクセシビリティは、活性型CREの一般的なプロキシである。そこで、各細胞株について、細胞種特異的なクロマチン・アクセシビリティと重複するH3K27acシグナルを持つ4,000個の「DHS-natural」配列(合計12,000個)を同定した。次に、Malinoisによって細胞型特異的であると予測される200-mersについてヒトゲノム全体をスキャンし、3つの細胞株それぞれにおいてオンターゲット発現が最大でオフターゲット発現が最小である4,000個の「Malinois-natural」配列を選択した。注目すべきことに、DHSとMalinoisを使用して同定されたエレメント間の重複は少なかった。DHS-naturalは高いレベルのクロマチン・アクセシビリティを示したが、Malinois-naturalおよび合成配列はより高い細胞型特異性を持つと予測され、ペナルティーを課せられなかった合成配列はすべてのグループを上回った。
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット