[出典] "Large dataset enables prediction of repair after CRISPR–Cas9 editing in primary T cells" Leenay RT, Aghazadeh A, Hiatt J [..] Marson A, May AP,  Zou J. Nat Biotechnol. 2019-07-29.

 Cas9が誘導するdsDNA切断からの修復結果の予測は、特にヒト初代細胞については、未だ困難である。UCSF, Stanford U, Chan–Zuckerberg Biohubなど米国研究グループは今回、ヒト初代T細胞ゲノム編集の実験結果に基づいて、修復結果に発生するヌクレオチドの挿入・欠失のサイズ、誘導確率および配列を精密に予測する機械学習モデルSPROUT (CRISPR Repair Outcome)を構築した。

 18名の健常者 (ドナー)に由来するCD4陽性初代T細胞へ、556種類の遺伝子内のべ1,656ヶ所を標的とするSpCas9-gRNAs RNPをエレクトロポレーションし、その6日後にDNAを抽出・増幅し、標的サイトの180- から260- bp領域をPCR後にシーケンシングし、CrispRVariants [*1]によって標的サイト領域に発生する挿入・欠失のプロファイルを判定した。
  • 切断サイトの膨大なリードの31%に平均長さ13 bpの欠失が、20%に挿入が見られ、欠失と挿入が共存したリードは0.008%であった。
  • 切断サイトあたり、1,000リードに1回以上出現する修復プロファイルが平均98種類見られ、切断サイト間で挿入・欠失のサイズと比率が大きく変動した。
  • 同一サイトにおけるドナー間の変動は小さかった。

 研究グループは、標的サイト間の切断結果の変動が大きいことは、切断サイトに近い領域における配列の多様性に由来するという仮説のもとに、勾配ブースティング (Gradient boosting)アルゴリズムに基づいて、20-ntのスペーサ配列とPAM配列を入力として、挿入または欠失、および挿入・欠失のサイズを予測するSPROUTを開発した。
  • 初代T細胞において、SPROUTの学習に利用した1,656ヶ所とは異なる304ヶ所で、検証し、挿入・欠失のプロファイル予測に加えて、フレームシフトの発生三段階 (>60%, 40-60%, <40%)も精度よく予測可能なことを確認した。
  • また、SPROUTによって、各遺伝子にフレームシフト誘導効率からみたgRNAsのランキング、各遺伝子への挿入・欠失に効果的な標的サイトのランキングが可能なことも示した。
  • さらに、修復プロファイルと相関する切断サイト周囲の配列の特徴を論じた。
  • SPROUTの開発を進めた初代T細胞のデータセット内での検証に加えて、HEK293K562およびHCT116の各細胞を対象とするSpCas9編集結果の公開データのSPROUTによる再解析により検証した。
  • また、先行研究の機械学習モデルinDelphi [*2]ならびにFORECast[*3]修復プロファイル予測性能を比較した。SPROUTの構築には使用しなかった初代T細胞におけるCXCR4遺伝子をカバーする32サイトと91種類の免疫関連遺伝子上の32サイトを標的とする予測精度、および、ヒトiPSCにおけるCXCR4 32サイトを標的とする予想精度を比較し、SPROUTが最も高精度であることを確認した (P < 0.01)。
 研究グループはまた、SpCas9標的サイトの90%において、長い (> 25 bp)挿入DNAを見出した。その27%が標的サイトから1 kb以内の配列に由来し、9%が同一染色体の領域に由来し、残りは全て、Hi-C解析から標的サイトと相互作用すると推定される他の染色体ゲノム領域に、アラインしたことから、SpCas9によるdsDNA切断からの修復時には、細胞空間で物理的に近い距離にあるゲノムに由来するDNA断片が、取り込まれることを示唆した。

参考記事