2023-07-04 Nature Communications 誌刊行論文の書誌情報を追記
2021-09-10 bioRxiv 投稿に準拠した初稿
[出典] "Modeling CRISPR-Cas13d on-target and off-target effects using machine learning approaches" Cheng X, Li Z [..] Fei T, Li W. (bioRxiv. 2021-09-04). Nat Commun 2023-02-10.  https://doi.org/10.1038/s41467-023-36316-3 [著者所属] Children’s National Hospital, George Washington U, Northeastern U, U Illinois at Urbana-Champaign.
 CRISPR-Cas13d (RfxCas13d、またはCasRx)RNA編集システムを応用する上での大きな課題は,他のCRISPR-Casシステムと同様に,ガイドRNA (sgRNAs)に依存するオンターゲット効果とオフターゲット効果を正確に予測することである.ここでは,タンパク質をコードする遺伝子と長鎖ノンコーディングRNA (lncRNA)を標的とするCRISPR-Cas13dによる大規模な細胞増殖スクリーニングを行い,そのデータに既に公開されていたデータも組み合わせた上で,深層学習と機械学習により,Cas13dのオンターゲット効率とオフターゲット編集が細胞生存率に及ぼす効果をモデル化した.
  • メラノーマ細胞株A375において,192種類のタンパク質コーディング遺伝子と234種類のlncRNAを標的とする10,830個のガイドを含むCRISPR-Cas13dスクリーニングを行った.このデータセットには,既知の必須遺伝子94種類と非必須遺伝子14種類が含まれており,これらの遺伝子群については1遺伝子あたりのsgRNAsが~30種類に及んだ.
  • このデータセットと公開データを組み合わせることで,22,599個のCas13d sgRNAsのデータを得て,Cas13dの効率と特異性を系統的に分析した.
  • 高性能な特徴抽出を特長とするDeep Convolutional Neural Network (DCNN) と時系列情報認識を特長とするRecurrent Neural Network (RNN) を組み合わせたConvolutional recurrent neural network (C-RNN)を利用して,sgRNAの配列と共にその予測二次構造から,空間的・時間的な特徴を学習させた深層学習モデルDeepCas13を構築した.
  • DeepCas13dは,これまでの機械学習法や過去に発表された手法 (ランダムフォレスト, XGBoost , サポートベクターマシン, AdaBoost, および GBM)によるモデルに優り,タンパク質コーデングRNAとノンコーディングRNA (環状RNAやlncRNAなど)を標的とするsgRNAsの効率を正確に予測した.
  • 次に,既知の非必須遺伝子を標的とする2,893種類のsgRNAsが細胞生存率に及ぼす影響を分析した.非必須遺伝子を標的としたにも関わらず細胞生存率を有意に低下させたsgRNAsは,オフターゲットのRNAやCRISPR-Cas13システムに独特な非選択的RNA切断活性 (コラテラル活性)の毒性を帯びていると考えられるからである.サンプル数が少ないことからランダムフォレスト法で,そうしたsgRNAsの特徴量を抽出したところ,sgRNAのオンターゲット活性を決定づける特徴量に類似していた.DeepCas13これは,非必須RNAを標的とするsgRNAsを細部増殖スクリーニングのネガティブコントロールとして使用することで,オフターゲット生存率効果に起因する偽陽性を減らすことができることを示唆した.
  • 最後に,これらのモデルをlncRNAを標的とする234種類のsgRNAを含むスクリーニングに適用し,複数の細胞株において細胞の生存率と増殖に影響を与えるlncRNAs (既知および推定の発がん性lncRNAや、細胞株間で細胞型特異的な機能を持つlncRNAなど)を同定した。
  • DeepCas13 Webサイト:  http://deepcas13.weililab.org [解説ページの画面キャプチャを右図に挿入