2024-09-04 テキストを、「要約」と「詳細」の2部構成にし、内容も拡充した。また、記事タイトルを「CRISPR-Cas配列空間のモデリングから, 高機能ゲノムエディターを設計」から「大規模なCRISPR-Cas Atlas構築と大規模言語モデルを介して, 高機能Cas"OpenCRISPR-1"を生成」へと改訂
2024-05-01 初稿
[出典]
[要約][出典]
- 投稿 "Design of highly functional genome editors by modeling the universe of CRISPR-Cas sequences" Ruffolo JA, Nayfach S, Gallagher J, Bhatnagar A [..] Madani A. bioRxiv. 2024-04-22 (preprint). https://doi.org/10.1101/2024.04.22.590591 [所属] Profluent Bio, École Polytechnique Fédérale de Lausanne and Swiss Institute of Bioinformatics, U Washington Seattle.
- モデル提供サイト "Profluent-AI/OpenCRISPR" https://github.com/Profluent-AI/OpenCRISPR
OpenCRISPR-1は、自然界からの探索ならびに、指向性進化法や構造情報に基づいた合理的設計の限界を超えたAI生成Cas9様タンパク質である。
2022年に設立されたProfluent Bio社が、大規模言語モデル (LLM)のProGen2を利用して創出した全長1,380 aaの高効率かつ低オフターゲット活性のCas9様タンパク質である。OpenCRISPR-1は、SpyCas9に対して403種類の変異を帯び、また、他の既知の天然Casのいずれに対しても182種類の変異を帯びている。しかし、タイプII型Cas9ヌクレアーゼのプロトタイプのアーキテクチャを維持し、NGG PAMを持つCas9様タンパク質を必要とする多くの既存のプロトコルに組み入れることが可能であり、通常のSpyCas9用に設計されたsgRNAと併用可能である。さらに、OpenCRISPR-1は、塩基編集、プライム編集、エピゲノム編集のような次世代遺伝子編集技術のために、不活性化またはニッカーゼフォーマットで融合することも可能である。
[詳細]
遺伝子編集は、農業、バイオテクノロジー、そしてヒトの健康における基本的な課題を解決する可能性を秘めている。微生物に由来するCRISPRベースの遺伝子エディターは強力ではあるが、ヒト細胞のような微生物以外の生物種に移植された場合、しばしば重大な機能的二律背反の状態に陥る。人工知能(AI)を用いた設計は、進化の制約を回避し、最適な特性を持つエディターを生成する可能性を持つ強力な代替手段を提供する。Profluent Bioの研究チームが今回、生物学的多様性を大規模に学習させた大規模言語モデル (LLM) を用いて、AIで設計されたプログラム可能な遺伝子エディターによるヒトゲノムの精密編集に初めて成功したことをbioRxiv に投稿した。
研究チームは、アセンブルされたゲノムとメタゲノムの26のデータベースを対象とする徹底的なデータマイニングを行い、CRISPR関連(Cas)タンパク質、CRISPRアレイ、tracrRNA、プロトスペーサー隣接モチーフ(PAM)を含む、これまでにキュレーションされたCRISPRオペロンの最も広範なデータセットを構築した。カスタムパイプラインを用いて、様々な系統と生物群にまたがる、26.2テラベースのアッセンブルされた微生物ゲノムとメタゲノムを検索し、タイプII、タイプV、タイプVIに分類される389,470以上のシングル・エフェクターシステムを含む、100万を超える1,246,163件のCRISPR-Casオペロンを発見した。このリソースをCRISPR-Cas Atlasと呼ぶ。
CRISPR-Cas Atlasは、CRISPRCasDB [*] やCasPDB [**]のようなキュレーションされたデータベースと比較して、多様性が拡大されている。また世界最大のタンパク質リソースであるUniProtと比較しても多様性が拡大している。
タンパク質言語モデル (Plotain Language Model: PLM)はProGen2 [*1]のように、多様な系統と機能にわたる天然タンパク質配列の大規模なデータセットで事前にトレーニングされる。これらのモデルは、天然タンパク質の分布や特性を反映した現実的なタンパク質配列を生成することができる [*2]。しかしながら、新規遺伝子エディターの生成のような特定の用途のためには、関心のあるタンパク質ファミリーの特定のサブセットに向けて生成を誘導する必要がある [Fig. 1 a参照: Universal PLM (500Mタンパク質データ) > CRISPR-Cas PLM (5.1 Mタンパク質データ) > Cas9 PLM (238.9タイプII CRISPR-Casシステム)とgRNAモデル]。
タンパク質言語モデル (Plotain Language Model: PLM)はProGen2 [*1]のように、多様な系統と機能にわたる天然タンパク質配列の大規模なデータセットで事前にトレーニングされる。これらのモデルは、天然タンパク質の分布や特性を反映した現実的なタンパク質配列を生成することができる [*2]。しかしながら、新規遺伝子エディターの生成のような特定の用途のためには、関心のあるタンパク質ファミリーの特定のサブセットに向けて生成を誘導する必要がある [Fig. 1 a参照: Universal PLM (500Mタンパク質データ) > CRISPR-Cas PLM (5.1 Mタンパク質データ) > Cas9 PLM (238.9タイプII CRISPR-Casシステム)とgRNAモデル]。
[*1] "ProGen2: exploring the boundaries of protein language models" Nijkamp N, Ruffolo JA, Weinstein EN, Naik N, Madani A. Cell Syst. 2-23-10-30/11-15. https://doi.org/10.1016/j.cels.2023.10.002 [所属] Salesforce Research, Johns Hopkins U, Columbia U.
[*2] "Protgpt2 is a deep unsupervised language model for protein design" Noelia Ferruz N, Schmidt S, Höcker B. Nat Commun. 2022-07-27. https://doi.org/10.1038/s41467-022-32007-7 [所属] U Bayreuth (Germany), U Girona (Spain)
ここでは、CRISPR-Cas Atlas上でProGen2タンパク質言語モデル (Cell Systems, 2023)を微調整し、タンパク質ファミリーの表現と配列クラスターのサイズのバランスをとった。このモデルから400万個の配列を生成した。半分はモデルから直接生成し、残りの半分は特定のファミリーに向けて生成を誘導するために、天然タンパク質のN末端またはC末端からの50残基で誘導した。生成された配列をCRISPR-Casファミリーに割り当てるために、BLASTを用いて各配列をCRISPR-Cas Atlasにアラインメントし、最も良いアラインメントのファミリーを分類のために選択した。生成されたすべての配列は、BLASTとHMMのアライメント基準に従ってフィルタリングされ、縮退配列が除去された。生成された配列の新規性と多様性を評価するために、MMseqs2を用いて、各ファミリーの生成配列と天然配列を70%の同一性でクラスタリングした。その結果、CRISPR-Cas Atlasは全てのCasファミリーにおいて、UniProtよりも平均2.7倍多くのタンパク質クラスタを有し、Cas9 (4.1倍)、Cas12a (6.7倍)、Cas13 (7.1倍)のようなファミリーではさらに大きく拡大した。
構造的な実行可能性を評価するために、AlphaFold2を用いて5,000のAI生成配列の構造を予測し、生成された209個のCas9様タンパク質のサブセットを合成し、ヒト細胞における遺伝子編集活性を実験的に検証した。また、次世代シーケンサーを用いて、複数のゲノム部位にわたるオンターゲット効率とオフターゲット効果の両方を評価した。
209タンパク質のうち最も高性能であったOpenCRISPR-1は、サイズは1,380 aa、SpCas9の配列対して403種類の変異を帯び、CRISPR-Cas Atlas内の任意の天然のCasに対しては少なくとも182変異を帯びていた。それにもかかわらず、天然のCas9と非常に類似したフォールドをとることが予測され、機能的な生存が可能であることが示唆された。重要なことは、HNHおよびRuvCヌクレアーゼドメイン、PAM相互作用ドメイン、ターゲット認識(REC)ローブなどの中核的なCas9ドメインは、ほとんどの生成タンパク質に天然配列と同様の割合で存在したことである。一方で、OpenCRISPR-1の性能は、SpCas9の編集効率を超え(55.7% > 48.3%)、オフターゲット編集が抑制され(0.32% < 6.1%)、また、免疫原性がより低いことが示唆された。
また、OpenCRISPR-1は塩基エディターABEへと展開可能であり、塩基変換効率は35-60%に達した。塩基編集のための脱アミナーゼタンパク質は、EC番号3.5.4.33(tRNAアデニン-34デアミナーゼ機能を示す)を持つタンパク質をUniProtKBとAlphaFoldDBで検索し、TadA様タンパク質のデータセットを作成した上で、Cas9様タンパク質を生成したのと同様の方法に従って設計した。

[図一覧]
- Figure 1. Generation of diverse CRISPR-associated protein families.
- Figure 2. Language models generate complete Type II effector systems.
- Figure 3. Generated nucleases function as gene editors in human cells.
- Figure 4. Characterization of OpenCRISPR-1 across PAMs, guides, and base editing.
- Fig. S1. Formation of the CRISPR-Cas Atlas.
- Fig. S2. Protein family accumulation curves for natural and generated CRISPR-associated proteins.
- Fig. S3. Structural composition of generated CRISPR-Cas proteins.
- Fig. S4. Cas9-like proteins generated by the CRISPR or Cas9 PLM.
- Fig. S5. Structural composition of generated Cas9 proteins.
- Fig. S6. Duplex formation between natural and generated crRNA:tracrRNA pairs.
- https://github.com/Profluent-AI/OpenCRISPR
- Fig. S7. gRNA model predicts exchangeability of RNAs between orthologous Cas9s.
- Fig. S8. Constrained generation strategy for design of Cas9-like proteins.
- Fig. S9. Language model scores predict enzyme activity.
- Fig. S10. Comparison of SpCas9 immunogenic epitopes with OpenCRISPR-1.
- Fig. S11. Structural analysis of OpenCRISPR-1.
- Fig. S12. DNA repair outcomes for SpCas9 and OpenCRISPR-1.
- Fig. S13. Converting OpenCRISPR-1 to a nickase via the D10A mutation.
- Fig. S14. Base editing profiles of evolved and generated deaminases with OpenCRISPR-1.
- Fig. S15. Comparison of generated and SpCas9 gRNA scaffolds.
- Fig. S16. Editing efficiency with designed sgRNAs.
[関連crisp_bio記事]
- CRISPRメモ_2019/10/19:[第1項] PADS Arsenal: 原核生物の防御システムに関する遺伝子の網羅的データベース; [*] [第2項] CRISPRCasdb: 完全ゲノム配列から抽出したCRISPRアレイとcas遺伝子を網羅し、反復配列とスペーサのダウンロードと検索サービスを提供
- crisp_bio 2019-08-21 [**] CasPDB: UniProt由来287種類とin silico推定した257,745種類のCasタンパク質を網羅.
コメント