RNAの活性の深層学習モデルを構築
[出典] "Deep learning of Cas13 guide activity from high throughput gene essentiality screening"
Wei J [..] Hsu PD, Konermann S. bioRixv. 2021-09-14 [プレプリント]. https://doi.org/10.1101/2021.09.14.460134
 Salk InstituteでRNAを標的とするCas13d (CasRx)を発見したPartrick D. Hsu (UC Berkeley)とSilvana Konermann (Stanford U)が率いる研究グループが今回.ハイスループットな表現型スクリーニングのためのCas13プラットフォームを開発し、そのRNA標的の効率を支える設計原理を解明することを目指した.
  • 55種類の既知必須遺伝子を1塩基の分解能でタイリング可能とする~127,000種類のgRNAのライブラリーを構築し,K563細胞株にてRfxCas13d (CasRx)システムによるポジティブセレクションスクリーニングを行った.
  • 必須遺伝子を標的としたgRNAsが想定通り回収されたが,各遺伝子を標的としたgRNAsの有効性にはおおきなばらつきがあり,また,目視で高効率なgRNAをもたらすgRNAの配列の特徴が見えてきたが,主観を排したモデル構築を試みた.
  • 一連の学習アルゴリズムを比較した結果,gRNAの配列だけからgRNAの活性を最も確実に予測できる畳み込みニューラルネットワーク (CNN)モデルを採用した.
  • さらに,二次構造,自由エネルギー,標的部位の位置,標的のアイソフォームの割合などの二次的特徴を選択の上取り入れた.
  • モデルの性能を,細胞表面タンパク質のノックダウンスクリーンで評価し,CNNモデルの最終版が,各遺伝子ごとに極めて効果的なgRNAを90%以上の精度で予測することを確認した.
  • 加えて,Integrated gradients法とSHapley Additive exPlanations (SHAP)法を利用して.CNNモデルの判定が拠ってきたところを説明可能にした.2021-09-18 12.49.56すなわち,どの特徴が判定結果に寄与したかを可視化した.その結果,ガイド位置の15-24に存在する特定の配列モチーフと二次構造の特徴が,高効率のgRNAを予測することが分かった.
  • 本研究で明らかになったCas13dのgRNA設計ルールは,http://RNAtargeting.org から公開した [右図はその画面キャプチャ].
 [関連crisp_bio記事]