深層学習によってCRISPR-Cas技術の鍵を握るガイドRNAの効率予測性能が向上してきたが、深層学習の手法は通常、効率を向上させる要因の特定には及ばないブラックボックスで終わる。
アラブ首長国連邦の研究チームが今回、gRNA効率予測を解釈し、gRNAの性能向上要因を解明するためのフレームワーク、CRISPR-Variational Autoencoder(CRISPR-VAE)を設計・実装した。
このフレームワークは、特にCRISPR/Cas12a*に適用され、予測性能向上要因を位置特異的なk-merルールとして明確に表現した。
[*] Cas12aはヒト細胞および植物細胞においてCas9よりも高い特異性を示し、Cas9では不可能だったCorynebacterium glutamicumおよびシアノバクテリアの編集を容易にした。
ここでは学習データの不足と不完全性を補うために、実世界データで学習させた効率性を考慮したgRNA配列生成器を構築し、望ましい特性を示す大量の合成配列を生成し、これらの配列が、gRNA予測を説明する基礎となっている。
また、CRISPR-VAEは独立した配列生成器としても機能し、ユーザーは配列をきめ細かく制御することができる。
この汎用性の高いフレームワークは、様々なCRISPR-Casツールやデータセットとシームレスに統合可能である。
CRISPR-VAEプログタムは、github.com/AhmadObeid/CRISPR-VAEから入手可能である。
[詳細]
深層学習によるガイドRNA予測器の進歩
- DeepCpf1およびSeq-DeepCpf1予測器は畳み込みニューラルネットワーク(CNN)と高密度層を利用している [#1]。
- CNN-SVRは、CNNにSVR(サポートベクター回帰)を組み合わせている。[#2]
- DeepCas9もCNNを使用しているが [#3]、DeepCRISPRは、教師なし表現学習のためにオートエンコーダ(AE)ステージを組み込んでいる。[#4]
- C-RNNCrisprは強化されたシーケンス学習のためにリカレントニューラルネットワーク(RNN)を採用している。[#5]
- DeepPEはプライム編集用に設計されたCNNベースの手法である。 [#6]
- DeepCas13 [#7]は、2つの並列CNN-RNN-FNレイヤーストリームを使用し、gRNAとRNAの二次構造から特徴を抽出している。
- 深層学習によるオフターゲット活性の予測
- CNNをベースにしたCRISPR-Cas13dのオンターゲットおよびオフターゲット活性の予測など [#8]、 gRNA配列のオフターゲット活性を予測するために、深層学習を用いた研究は数多く行われている。[#9-12]
予測結果の説明(解釈)可能性への取り組み
- ここまでの深層学習予測器は大きな可能性を秘めているものの、説可能性を欠いていることから、CRISPRシステムのより深い理解と、特定のgRNAの高いオンターゲット活性に寄与する因子を特定するには至らない。 [#13]
- この研究方向を探求する試みはいくつか行われてきた [#5, 14-16] 入力されたgRNA配列に基づいてモデルスコアを最適化し、最も高いスコアをもたらす配列を特定する。[#5,15]
- 説明が容易な従来の機械学習ツールを採用することで、予測精度と説明可能性のバランスをとる。[#17]
- 深層学習による解釈に頼るのではなく、利用可能なデータの統計分析を用いて、位置ごとの塩基優先ルールを推論する。[#14, #16]
学習データの不足と不完全性を解消
- 説明可能性を向上させるための現在の取り組みの多くは、データ不足とデータの不完全性という2つの主要な課題に直面している。研究チームが具体的に取り組んだCas12aシステムの公開データにおいても、特定の解析空間において配列と構造に関連するギャップが存在していたことから、CRISPR-VAEと呼ぶことになる配列生成器を開発して、ギャップを埋めた。
- CRISPR-VAEは高効率から低効率まで様々な配列を合成することができる。また、生成される配列はランダムではなく、既存のデータセットが残した空白を埋める構造化された解析空間を形成する。この手法は、より広範で多様なデータを生成し、効率を促進するルールを特定するための強固な基盤を提供する。
- 最後に、これまでに優れた性能を示した深層学習ベースの予測器 Seq-DeepCpf1[#1] を用いて、合成配列の効率を予測する。生成モデルと識別モデルという、方法論的に異なる2つのフレームワーク間の整合性を確立することで、知見の信頼性を高めた。
[出典] “CRISPR-Variational Autoencoder: An Interpretable and Efficiency-Aware Guide Ribonucleic Acid Sequence Generator” Obeid A, AlMarzouqi H. Eng Sci 2025-03-29. https://doi.org/10.30919/es1452 [所属] Department of Electrical Engineering and Computer Science, Khalifa University (UAE)
[#] 「詳細」のセクションにおける引用文献
- "Deep learning improves prediction of CRISPR–Cpf1 guide RNA activity" Nature Biotechnology, 2018. https://doi.org/10.1038/nbt.4061
- "CNN-SVR for CRISPR-Cpf1 guide RNA activity prediction with data augmentation" Proceedings of the 2019 9th International Conference on Bioscience, Biochemistry and Bioinformatics, Singapore Singapore, ACM, 2019. https://doi.org/10.1145/3314367.3314383
- "Prediction of CRISPR sgRNA activity using a deep convolutional neural network" Journal of Chemical Information and Modeling, 2019. https://doi.org/10.1021/acs.jcim.8b00368
- "DeepCRISPR: optimized CRISPR guide RNA design by deep learning" Genome Biology, 2018. https://doi.org/10.1186/s13059-018-1459-4
- "Prediction of CRISPR/Cas9 sgRNA activity using convolutional and recurrent neural networks" Computational and Structural Biotechnology Journal, 2020. https://doi.org/10.1016/j.csbj.2020.01.013
- "Predicting the efficiency of prime editing guide RNAs in human cells" Nature Biotechnology, 2020. https://doi.org/10.1038/s41587-020-0677-y
- "Modeling CRISPR-Cas13d on-target and off-target effects using machine learning approaches" Nature Communications, 2023. https://doi.org/10.1038/s41467-023-36316-3
- "Prediction of on-target and off-target activity of CRISPR–Cas13d guide RNAs using deep learning" Nature Biotechnology, 2023. https://doi.org/10.1038/s41587-023-01830-8
- "Deep learning improves the ability of sgRNA off-target propensity prediction" BMC Bioinformatics, 2020. https://doi.org/10.1186/s12859-020-3395-z
- "Off-target predictions in CRISPR-Cas9 gene editing using deep learning" Bioinformatics, 2018. https://doi.org/10.1093/bioinformatics/bty554
- "Accurate deep learning off-target prediction with novel sgRNA-DNA sequence encoding in CRISPR-Cas9 gene editing" Bioinformatics, 2021. https://doi.org/10.1093/bioinformatics/btab112
- "A Hybrid Variational AutoEncoder with Data Augmentation in Predicting CRISPR/Cas9 Off-target" 2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), December 09-12, Houston, TX, USA, 2021. https://doi.org/10.1109/BIBM52615.2021.9669570
- "CRISPR-Cas9 gRNA efficiency prediction: an overview of predictive tools and the role of deep learning" Nucleic Acids Research, 2022. https://doi.org/10.1093/nar/gkac192
- "Sequence determinants of improved CRISPR sgRNA design" Genome Research, 2015. https://doi.org/10.1101/gr.191452.115
- "Prediction of CRISPR/Cas9 single guide RNA cleavage efficiency and specificity by attention-based convolutional neural networks" Computational and Structural Biotechnology Journal, 2021. https://doi.org/10.1016/j.csbj.2021.03.001
- "In vivo high-throughput profiling of CRISPR–Cpf1 activity" Nature Methods, 2017. https://doi.org/10.1038/nmeth.4104
- "Domain-specific introduction to machine learning terminology, pitfalls and opportunities in CRISPR-based gene editing" Briefings in Bioinformatics, 2021. https://doi.org/10.1093/bib/bbz145
コメント