背景
細菌はファージとの進化的軍拡競争の中で、真核生物の自然免疫系と類似し、時には直接相同な高度な自然免疫系を発達させてきた。これらの原核生物の免疫系の一部は、標的分子に対する特異性が高いことから強力なバイオテクノロジーのツールとして応用されてきた。一方で、近年、数十もの新たな原核生物の免疫系が続々と発見されているが、その全容はまだ解明されていない。
抗ファージ免疫遺伝子は、原核生物のゲノムにおいて、いわゆる「防御アイランド」と呼ばれる領域に集中していることがよくある。この傾向を利用して数十もの新たな防御システムが同定されてきまたが、すべての防御システムが防御アイランドに存在するわけではない。多くの防御システムはプラスミド、プロファージ、トランスポゾンなどの可動遺伝因子上に存在し、また、その他多くのシステムが原核生物ゲノム全体に分散している。
仮説
MITの研究チームは、ゲノム上のどこにコードされているかに関わらず、これまで特徴づけられていない新たな防御システムを特定するために、抗ファージタンパク質を感度よく正確に識別できる機械学習モデルの開発を目指した。
仮説
MITの研究チームは、ゲノム上のどこにコードされているかに関わらず、これまで特徴づけられていない新たな防御システムを特定するために、抗ファージタンパク質を感度よく正確に識別できる機械学習モデルの開発を目指した。
モデル
防御システムを分類する機械学習モデルを構築するため、約17,000個の原核生物参照ゲノムセットにおいて、既知の防御遺伝子と非防御遺伝子の相同遺伝子にラベルを付けた [グラフィカルアブストラクトの左上参照]。これらの遺伝子によってコードされるタンパク質、およびゲノム内で最も近い4つの近傍遺伝子について、タンパク質言語モデルであるESM-2 (Evolutionary Scale Model-2)を用いて、コンピュータで計算可能な表現(representation)に変換した。次に、これらの表現に基づいて防御遺伝子と非防御遺伝子を区別するモデル「DefensePredictor」を訓練した。このモデルはin silicoで良好な性能を示し、モデル訓練後に発見された100個の防御システムのうち82個を正しく識別した。
検証
DefensePredictorを69種類の多様な大腸菌株に適用し、624種類のタンパク質が防御関連タンパク質として高い信頼度で同定された。その中には、既知の防御タンパク質とは、検出可能な相同性を示さないタンパク質が100種類以上含まれていた。同定された防御タンパク質の中には、防御アイランドあるいはプラスミドやプロファージコードされているものが見られた一方で、約50%はそうではなく、DefensePredictorが幅広いゲノムコンテクストにおけるシステムを同定できることが示された。
DefensePredictorを実験的に検証するため、予測された94種類のシステムを感受性大腸菌株にクローニングしたところ、42種類のシステムが試験した24種類のファージのうち少なくとも1種類に対して防御効果を示すことが確認された。これらの42種類のシステムにおいて、これまで防御機能を持つと検証されていなかった15種類のタンパク質ドメインが同定され、新たな免疫機構がまだ発見されていない可能性が示唆された
最後に、予測対象を大腸菌だけでなく1000種類の多様な原核生物ゲノムにまで拡大したところ、既知の防御タンパク質の明確な相同性を持たない5,000種類以上の防御タンパク質が、予測された。この結果は、まだ解明されていない防御機構が数多く存在することを示唆している。
新たな原核生物免疫システムの発見に強力なツールであることを示したDefensePredictorは、より多くの原核生物免疫システムの発見を促進するため、オープンソースとして公開されている。
[出典]
- "DefensePredictor: A machine learning model to discover prokaryotic immune systems" Deweirdt PC, Mahoney EM, Laub MT. Science. 2026-04-02. https://doi.org/10.1126/science.adv7924 [所属] MIT (Dept Biology, Computational and Systems Biology Program< HHMI), Johns Hopkins School of Medicine (Molecular Biology and Genetics Dept) (兼).
[関連crisp_bio記事]
コメント