crisp_bio

論文・記事紹介:CRISPR生物学・技術開発・応用 (ゲノム工学, エピゲノム工学, 代謝工学/遺伝子治療, 分子診断/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野); タンパク質工学;情報資源・生物資源;新型コロナウイルスの起源・ワクチン・後遺症;研究公正

[出典] Optimized CRISPR guide RNA design for two high-fidelity Cas9 variants by deep learning. Wang D, Zhang C [..] Lan F, Wang Y. Nat Commun. 2019-09-19;[Webサイト] http://www.DeepHF.com/

背景
  • CRISPR/Cas9の活性と精度の向上を目指して、野生型SpCas9からの構造情報基づく合理的設計や指向性進化法による高精度版SpCas9の開発や、高活性なgRNAsの設計法の開発が続いている。
  • 野生型のSpCas9に向けたgRNAs設計については、線形回帰モデル、罰則付き線形回帰モデル、サポートベクタマシン (SVM)モデル、勾配ブースティング回帰モデル、および深層学習の手法として広く利用されている畳み込みニューラルネットワークに基づくモデル、が提案・提供されている。
  • 一方で、野生型SpCas9に最適なgRNAsが必ずしも高精度版SpCas9によるゲノム編集には最適でないことや、gRNAの活性を支配する配列などの特徴も野生型と高精度版とで異なることが報告されてきた。
概要
  • 復旦大学、南通大学ならびに首都医科大学の研究グループははじめに、野生型SpCas9とその高精度版であるeSpCas9 (1.1)SpCas9-HF1のそれぞれについて、HEK293細胞とHeLa細胞におけるgRNAs活性 (indel 誘導率)をハイスループットで測定した。
  • 測定データに基づいて、gRNAsの活性に関わる配列の特徴を評価した上で、複数の活性予測モデルを構築し、再帰型ニューラルネットワーク (Recurrent Neural Network)によるモデル (以下、RNNモデル)が他のモデルに優り、また、これまでに公開されたgRNA設計法にも優ることを示した。
gRNAsの活性測定と活性を支配する配列の特徴抽出
  • gRNAの転写に利用するプロモータとしてマウスU6プロモーター (mU6)を選択し、gRNAと標的配列をペアにしたレンチウイルスベクターをCas9ヌクレアーゼを発現させたヒト細胞 (HEK293細胞とHeLa細胞)に導入することで、標的の網羅性が高くハイスループットなgRNA活性測定を実現した (原論文Fig. 2引用下図参照)。gRNA 2
  • 19,037種類のコーディング遺伝子を対象とする75,312 gRNAsと1,549種類のμRNAsを標的とする4,951 gRNAsの活性 (indel誘導率)を測定した。
  • その上で、機械学習モデルの判断基準を与えるTree SHAP (XGBoostとSHAP (SHapley Additive exPlanation)の組み合わせ)により1,031種類の配列の特徴を評価し、野生型と高精度型を問わず、gRNA活性予測スコアは主として部位特異的なヌクレオチド組成に依存することを同定した (原論文Fig. 3引用下図参照)。gRNA 3
活性予測
  • 線形回帰分析、リッジ回帰分析、XGBoost回帰分析および多層パーセプトロン (MLP)によるモデルと、深層学習 (畳み込みニューラルネットワーク (CNN)、RNN)によるモデル、および、RNNに深層学習では捉えれらなかった配列の特徴 (gRNAsの2次構造、融解温度およびGC含量)を加えたモデル (以下、RNN+biofeature)を比較し、RNN+biofeatureが最も優れていることを見出した (原論文Fig. 5引用下図参照)。gRNA 5
  • RNN+biofeatureは既存のモデルよりも優れていたことから、DeepHF (Deep learning for High-Fidelity Cas9) としてWebから公開した。
関連crisp_bio記事
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット