[出典] "DeepCRISTL: Deep transfer learning to predict CRISPR/Cas9 on-target editing efficiency in specific cellular contexts" Elkayam S, Tziony I, Orenstein Y. Bioinformatics 2024-07-29. https://doi.org/10.1093/bioinformatics/btae481 [所属] Ben-Gurion U of the Negev, Bar-Ilan U

 CRISPR/Cas9遺伝子編集に向けた効率的なガイドRNA (gRNA)を設計するために、その編集効率を予測する計算手法が開発されてきた。その中で、編集効率を予測する機械学習モデルを訓練するために、Cas9編集効率のハイスループットデータセットが作成された。しかし、これらのハイスループットデータセットは人工的なゲノムで測定されることから、機能性データセットや内在性データセットとの相関が低く、一方で、後者の2つのデータセットは、正確な機械学習モデルをトレーニングするには、規模が小さすぎる傾向にあった。

 イスラエルの研究チームは今回、スクリーンショット 2024-08-01 16.03.47転移学習を活用して、ハイスループットデータセットで学習させたガイドRNAの一般的な編集効率のモデルを、より小規模で生物学的に関連性の高い機能性・内在性データセットを利用して微調整する戦略をとることで、多くのCRISPR/Cas9編集コンテクストにおける予測性能を向上させたモデル"DeepCRIST"を実現した [使用したデータセットについてTable 1引用右図参照]。
  • ハイスループット・データセットで学習させた2つの最新モデル、新たに改良したDeepHF [*1]CRISPRon [*2]を、様々な転移学習アプローチと組み合わせてテストしたところ、CRISPRonとすべてのモデルの重みを微調整する組み合わせが、全体的に最も優れたパフォーマンスを示した。
  • DeepCRISTLは、機能的データセットおよび内因性データセットにおいて、特定の細胞コンテクストにおける編集効率の予測において、最先端の手法を上回った。
  • さらに、顕著性マップ (Saliency Map)を用いて、DeepCRISTLが学習した重要な特徴を特定し、細胞コンテクスト間で比較した。
[プログラム入手先]
[*]