2024-06-23 Nature Biotechnology 誌刊行論文の書誌情報, アブストラクトおよび図へのリンク追記 
"Machine learning prediction of prime editing efficiency across diverse chromatin contextsMathis N [..] Schwank G. Nat Biotechnol 2024-06-21.https://doi.org/10.1038/s41587-024-02268-2
 PEの効率を確実に予測する機械学習モデル開発した:PRIDICT2.0は、ミスマッチ修復機能欠損細胞株とミスマッチ修復が機能している細胞株、ならびに、初代細胞において、長さ15 bpまでのすべての編集タイプに対するpegRNAの性能を評価する;ePRIDICTはさらに、局所的なクロマチン環境が編集効率におよぼす影響を定量化する。

2023-10-14 bioRxiv 投稿に準拠した初稿
[注] PE (prime editing/prime editor; プライム編集/プライムエディター);PRIDICT (prime editing guide prediction) は、今回のbioRxiv投稿の著者らが先行研究から報告していた機械学習を利用したPE編集効率予測法 [*1];
[出典]
  • 論文 "Predicting prime editing efficiency across diverse edit types and chromatin contexts with machine learning" Mathis N [..] Schwank G. bioRxiv 2023-10-09 [preprint]. https://doi.org/10.1101/2023.10.09.561414 [著者所属] U Zurich, Netherlands Cancer Institute, ETH Zurich.スクリーンショット 2023-10-11 12.36.12
  • Webサイト "PRIme editing guide rna preDICT" https://www.pridict.it [スクリーンキャプチャ右図参照]
 PEの編集効率は標的部位によって大きく異なり、また、PEのガイドRNA (pegRNA) の設計に大きく影響される。Gerald Schwankらの研究チーム [*1]や他の研究チーム [*2-4]はこれまでに、広範なPE実験からのデータセットを利用して学習させることで、pegRNAの編集効率を予測する機械学習モデルを開発した。これらのモデルに共通する限界は、多様な編集の中で特定のタイプの予測に特化していることである:
  • PRIDICT [*1]は主に1 bpの置換と短い挿入と欠失に焦点を当てている。
  • MinsePIE [*2]は挿入に限定されている。
  • DeepPrime [*3]は1-3 bpの編集に限定されている。
  • DeepPE [*4]は主に挿入, 欠失または1 bpの置換に焦点を当てている
  • いずれも、編集効率に対する局所的なクロマチン状態の潜在的な影響を考慮していない。
 Gerald Schwankらは今回、2つの相補的な計算モデルを開発することにより、これらの欠点に対処した。「PRIDICT2.0」は幅広い編集タイプにわたってプライム編集効率を予測し、「ePRIDICT」(epigenetic-based PRIme editing efficiency preDICTion) は遺伝子座特異的なクロマチンの特徴が編集効率率に及ぼす影響を評価し、クロマチンの環境の影響が大きな領域では、PRIDICT2.0にePRIDICTを加えることで、編集効率の予測精度が向上することを示した。
 
PRIDICT2.0
  • 極めて多様な標的に対するpegRNAライブラリー (以下、Library-Diverse) を構築した。このライブラリーは、1-5 bpの置換、1-15 bpの挿入と欠失、および、間隔が異なる2ヶ所の1 bp同時置換といった編集タイプを含んでいる。ミスマッチ修復パスウエイ (mismatch-repair: MMR) がPEの編集効率に影響することから、MMR欠損細胞 (HEK293T細胞) と、MMRが活性な細胞 (K562細胞) においてスクリーンを実施し、編集パターンと2種類の細胞における編集結果との関係性に見られる相違を同定した。
  • Library-Diverseの構築・利用に次いで、複数の機械学習モデルの性能も比較し、著者らが先行研究でpegRNA効率予測へと適用した、アテンションベースの双方向再帰型ニューラルネットワーク(attention-based bidirectional recurrent neural network (RNNattention-based bi-directional recurrent neural network: AttnBiRNN) が、ツリー・ベースや線形回帰モデルに優ることを見出し、改めて新たなライブラリーも加えてのべ400,000を超えるpegRNAsからのデータにて学習させ、PRIDICT2.0に至った。
  • さらに、HEK293TとK562細胞内在の複数の遺伝子座にてPRIDICT2.0の性能を評価した。
ePRIDICT
 
 PEの編集効率が、オープンクロマチン領域/活性な遺伝子の領域 (例 HDAC1/2/3またはH3K4me1/2/3)と正に相関し、遺伝子活性抑制マーク(H3K9me3, H3K27me3) とは負に相関することを確認した。
 UMAP (Uniform Manifold Approximation and Projection) を介したゲノムに沿ったクロマチンの特徴のマップとPEの編集効率のマップを重ねることで、クロマチンのランドスケープとPEの編集効率の相関関係を詳らかにし、さらに、遺伝子座の特徴を分析して、ゲノム領域をPE編集効率の高い順にAからDまでの4種類のクラスターにグルーピングした。
  • クラスターAにはH3K4me3, H3K4me2, およびH3K27acが濃縮され、H3K27me3は疎であった (プロモーター様環境を示唆)。
  • クラスターBでは、H3K36me3とPOLR2Aのレベルが上昇し、H3K4me3のレベルが低下した (遺伝子本体ないの転写伸長領域を示唆)。
  • クラスターCでは、H3K27me3とCTCFのレベルが上昇し、H3K4me3とH3K27acのレベルが低下した (不活性クロマチン領域を示唆)
  • クラスターDでは、編集効率が最低であり、ヘテロクロマチン領域または不活性状態を示唆
 クロマチンの状態がPEの編集効率に及ぼす影響を、種々の機械学習の手法で予測・比較し、 XGBoostフレームワークのモデルを採用し、6種類のENCODEデータセットで学習させ、ePRIDICTに至った。

[深層学習によるPE編集効率予測論文紹介crisp_bio記事]