背景
細菌は、極めて多様な抗ウイルス防御システムをコードしており、すでに250種類以上のシステムが実験的に検証され、幅広い分子メカニズムも明らかにされてきた。しかし、今でもin silicoおよび実験的スクリーニングにより、新たなシステムが次々と発見されており、抗ファージ防御の多様性は現在認識されているよりもはるかに大きい可能性が示唆されている。言い換えれば、細菌の抗ファージ防御の多様性の全体像は依然として不明である。
細菌は、極めて多様な抗ウイルス防御システムをコードしており、すでに250種類以上のシステムが実験的に検証され、幅広い分子メカニズムも明らかにされてきた。しかし、今でもin silicoおよび実験的スクリーニングにより、新たなシステムが次々と発見されており、抗ファージ防御の多様性は現在認識されているよりもはるかに大きい可能性が示唆されている。言い換えれば、細菌の抗ファージ防御の多様性の全体像は依然として不明である。
仮説
これまでに明らかにされた一連の防御システムは、タンパク質配列とゲノム構造のレベルで、特徴的なドメインや防御アイランドまたはプロファージ関連領域における濃縮など、共通のシグネチャを共有している。これらの共通の特徴は、抗ファージ・システムが個々のメカニズムを超えたパターンを認識して機能していることを示唆している。そこで、パスツール研究所の研究チームは、タンパク質配列とゲノムコンテクストに基づいて、こうしたパターンを学習させた言語モデルによって、これまで免疫と関連付けられていなかった抗ファージシステムをスケーラブルに同定できるという仮説を立てた。
モデル
研究チームは、大規模な抗ファージ機能予測(DefenseFinder: DF)のために、3つの相補的な深層学習モデルを開発した [グラフィカルアブストラクト参照]:
- ALBERTDF [Lite BERT(双方向エンコーダー表現トランスフォーマー)は、タンパク質配列情報に依存せず、局所的なゲノムコンテクストから防御性を推論する。
- ESMDF(ESM, evolutionary scale modeling)は、タンパク質言語モデルを用いてアミノ酸配列を学習する。
- GeneCLRDF(CLR, contrastive learning of visual representations)は、配列とゲノムコンテクストの両方を統合する。
検証
- GeneCLRDFは、キュレーションされたベンチマークにおいて99%の精度と92%の再現率を達成するなど、最も優れた総合性能を示し、この高い精度により、相同性に基づく検索を超えて、細菌のパンゲノム全体にわたる体系的な予測が可能になった。
- 予測された候補が真の防御機構に対応するかどうかを検証するため、大腸菌とStreptomyces albus において、予測結果の一部を実験的に検証した。この検証により、これまで抗ウイルス防御との関連が知られていなかった12種類の抗ファージ・システムが同定され、このフレームワークが系統的に遠縁な細菌においても真の防御システムを再現できることが実証された。
- 検証されたシステムは、デオキシリボヌクレアーゼやペプチダーゼなど多様なドメイン構造を含んでいたが、抗ファージ免疫との関連がこれまで知られていなかったドメインを持つタンパク質も含まれており、このモデルが既知の防御機構や配列相同性を超えた機能的特徴を捉えていることを示した。
- GeneCLRDFをパンゲノム規模での抗ファージ・レパートリーの予測に適用したところ、32,000件を超える細菌ゲノムから、典型的な細菌ゲノムにコードされている遺伝子の約1.5%が抗ウイルス防御に関与していること、予測された防御関連タンパク質ファミリーの85%以上がこれまで免疫との関連が知られていなかったこと、が明らかになった。
- モデルは239万個の抗ファージタンパク質を予測し、そのかなりの割合が単一遺伝子防御として存在し、共起する予測遺伝子によって約23,000のオペロン・ファミリーが定義され、その大部分はこれまで抗ウイルス防御との関連が知られていなかったファミリーであった。
こうして、抗ファージの全体像は想定を超えてはるかに大きく、多様であることが示され、研究チームは研究の成果を、その探索と実験的追跡を支援するためインタラクティブで検索可能な可視化可能な情報資源として公開した。
[出典]
- "Protein and genomic language models uncover the unexplored diversity of bacterial immunity" Mordret E, Hervé A [..] Bernheim A. Science 2026-04-02. https://doi.org/10.1126/science.adv8275 [所属] Institut Pasteur/Université Paris-Cité ( Molecular Diversity of Microbes; INSERM U1284; AgroParisTech; Bioinformatics and Biostatistics Hub)
[関連crisp_bio記事]
コメント