CRISPR-Cas9システムは生命科学に革命をもたらし、その後、より小型で高機能なCasタンパク質が探索あるいは誘導されている。メタゲノムからも多くの新規Casタンパク質が発見されているが、メタゲノムに散在する数百万もの未知のCasタンパク質の特徴は解明されていない。
これまでの探索(データマイニング)はタンパク質配列のアライメントに依存していたが、杭州, 深圳, 南京, シンガポールを拠点とする研究者達は今回、本研究では、タンパク質言語モデル(protein language models: pLMs)*の中で進化的スケール言語モデル(Evolutionary Scale Modeling: ESM)を用いて、配列を超えた情報を学習させることを試みた。
[*] 参考資料:「タンパク質言語モデル」山口秀輝, 齋藤 裕. JSBi Bioinformatics Review. 2023年4巻1号. P.52-67; ESMについても詳細に解説されている。
その結果、一連のCRISPR-Casデータで学習させたESMは、アライメントなしで正確にCasタンパク質を正確に識別可能なことが実証された。学習に利用できる実験データが限られているため特徴予測には限界があったが、機械学習と統合することで、未解析のCas12aのトランス切断活性予測が可能になあった。
今回、独自のCRISPR遺伝子座を持つ、未報告の7つのCas12aサブタイプを発見するに至った。構造解析により、Cas1、Cas2、Cas4の8つのサブタイプに分類された。Cas12aサブタイプはそれぞれ異なる3Dフォールド構造を示し、クライオ電顕解析により、未解析のCas12aと特異的なRNA相互作用が明らかになった。
これらのCas12aは、二本鎖DNAと一本鎖DNAの切断において明確な選択性と広範なPAM認識を示した。その結果、従来のCas12aに特有な PAMに依存することなく、がん遺伝子SNPを特異的に検出する戦略が成立することが実証された。
本研究は、遺伝子クラスター分類を通じて、未解明のCasタンパク質機能を探索する上で、言語モデルが持つ可能性を浮き彫りにしている。
[出典] “Discovery of CRISPR-Cas12a clades using a large language model” Feng Y [..] Zhang X, Tang J, Huang X, Ma P. Nat Commun. 2025-08-23. https://doi.org/10.1038/s41467-025-63160-4 [所属] Zhejiang Lab (中国), Zhejiang University School of Medicine, Shanghai Jiao Tong University School of Medicine, Shanghai Institute of Precision Medicine, Tongji University, Shenzhen Institute of Advanced Technology CAS, ShanghaiTech University, Nanjing Medical University, Nanjing Normal University, National University of Singapore (シンガポール)
[構造情報] EMD-37219 / PDB 8KGF: Structure of AmCas12a with crRNA (2.9 Å); Anaeroglobus micronuciformis
[関連crisp_bio記事]
- 2019-08-21 CasPDB: UniProt由来287種類とin silico推定した257,745種類のCasタンパク質を網羅
- [20250801更新] 大規模言語モデルを介して, 広大なCRISPR-Cas Atlasを構築し, SpCas9を超える高機能な"OpenCRISPR-1"を生成
これまでのCasタンパク質マイニングは、タンパク質の機能と分類を予測するために、主に一次配列に依存している。配列類似性に基づく検索は、相同性検索プログラムのBLASTと隠れマルコフモデル(HMM)をベースに実現できる。配列類似性検索に基づいて、MacSyFinderとHMMCASが開発された。しかし、これらの手法は既知のCas配列と類似性が低い新たなCasタンパク質を発見することは困難である。
機械学習に基づく手法は、CASpredict、CASboundary、CRISPRCasTyperなど、データ駆動型でCasタンパク質を予測する。しかし、タンパク質の機能はタンパク質のアミノ酸配列から直接に決定されず3次元構造によって決定される。タンパク質配列から隠れた生物学的情報を学習することを目指して、二次構造および三次構造を予測する様々な言語モデルが開発されてきた。最近では、構造に基づくタンパク質クラスタリングによって、未だ文献に記録されていないデアミナーゼの系統群が発見され、効率的なシトシン塩基エディターが生成され、新たなタンパク質発見における構造情報の重要性を改めて示した。三次元構造情報に加えて、配列アライメントを介さずに進化情報も取り込む言語モデルも開発されてきた。最近開発されたESM-2言語モデルは、最大150億の学習可能パラメータまで拡張可能で、原子分解能レベルでタンパク質の特徴を捉える。
ここでは、ESM言語モデルに基づいて、人工知能支援CRISPR-Casスキャン(Artificial Intellignece-assisted CRISPR-Cas scan: AIL-Scan)戦略を開発する [論文Fig. 1参照]。CRISPR-Cas配列とその機能注釈を使用してトレーニングした後、AIL-Scanは注釈付きゲノム配列からさまざまなCRISPR-Casタイプを正確に区別することができる。しかし、実験的に評価されているCasタンパク質はごくわずかである。研究チームは、小規模サンプルサイズのデータでESMと機械学習を統合し、正確なトランス切断活性予測モデルを開発した。
メタゲノムデータベースで調査するための例として、Cas12aファミリーを取り上げ、Cas12aの古典的なCRISPR遺伝子座とは異なり、CRISPR遺伝子座とタンパク質配列のユニークな構成を特徴とするCas12aファミリーの8つのサブタイプを発見するに至った [論文Fig. 2参照]。
さらに、CRISPR-Casシステムの適応(adaptation)のプロセスでスペーサーをCRISPRアレイに取り込むインテグラーゼタンパク質、すなわちCas1、Cas2、およびCas4にも、構造アラインメントに従ってそれぞれ8つのサブタイプが存在した**。欠損したインテグラーゼタンパク質は、CRISPR遺伝子座におけるスペーサー数の減少につながる。
また、未報告のCas12aタンパク質は、サブタイプ間で多様な3Dフォールディングを示した。CryoEM解析により、RNAとの独特な相互作用パターンが発見された。これらのタンパク質は、二本鎖DNAと一本鎖DNAの切断に対する明確な選択性と広範なPAM認識を示し、従来のCas12a PAMを用いることなくがん遺伝子の一塩基多型(SNP)を特異的に検出し、オフターゲットを最小限に抑えた効率的な細胞遺伝子編集を可能にした。
コメント