[出典] “Identification of Family-Specific Features in Cas9 and Cas12 Proteins: A Machine Learning Approach Using Complete Protein Feature Spectrum” Madugula SS [..] Liu J. J Chem Inf Model 2024-06-05. https://doi.org/10.1021/acs.jcim.4c00625 [所属] U North Texas Health Science Center, U Texas at Arlington;グラフィカルアブストラクト
近年開発されたCRISPR-Cas技術は、遺伝性疾患の治療への応用が期待されているが、これまで主として利用されているエフェクターは、サイズが大きい、切断効率が低い、オフターゲット作用といったそれぞれ固有の課題を抱えており、その臨床応用には限界がある。そのため、より高性能な新規Casタンパク質が求められているが、そのためにはCasタンパク質ファミリーを支配する根本的な特徴を理解する必要がある。著者らは今回、Cas9およびCas12ファミリーの特徴を解明した上で、各ファミリーを非Casタンパク質と区別する特徴を同定することを目的とした。
- Casタンパク質の様々な物理化学的、トポロジー的、体質的、共進化的情報をコードする完全なタンパク質特徴スペクトル (13,494種類の特徴) を用いて、Cas12とCas9タンパク質をそれぞれ非Casタンパク質から区別するためのランダムフォレスト(RF) 二値分類器を構築した。
- さらに、Cas9、Cas12、非Casタンパク質を区別するマルチクラスRF分類器を構築した。
- すべてのモデルを、テストデータと独立したデータセットで厳密に評価し、Cas12とCas9のバイナリモデルは、それぞれ、92%と95%の高い総合精度を達成し、マルチクラス分類器は0.98に近いF1スコアを達成した。
- Schneider.lagのようなQuasi-Sequence-Order記述子、および、電荷、体積、および分極性のような組成記述子が、Cas12ファミリーで優勢であることを見出した。一方で、アミノ酸組成記述子、特にトリペプチド組成 (TPC) は、Cas9ファミリー で優勢であった。
Cas9分類で同定されたトップ10の記述子のうち4つは、トリペプチドPWN、PYY、HHA、およびDHIであり、これらは、すべてのCas9タンパク質にわたって保存され、Streptococcus pyogenes Cas9 (SpCas9) 構造の異なる触媒的に重要なドメイン内に位置していると見られる。これらのうち、DHIとHHAはSpCas9タンパク質のDNA切断活性に関与していることがよく知られている。一方、PYYトリペプチドのY450は、オフターゲット作用を低減し、SpCas9の特異性を向上させる上で重要な役割を果たしている。
本研究において、機械学習を介して多くのCas9およびCas12ファミリーそれぞれに特異的な特徴を同定した。これらの特徴は、遺伝子編集特性を向上させたCasシステムを設計することを目的とした将来の実験的および計算機的研究のための貴重な洞察を提供し、編集能力がより高いCasタンパク質の開発につながる構造改変を示唆する。
コメント