[出典] "A catalog of small proteins from the global microbiome" Duan Y [..] Zhao X-M, Bork P, Coelho LP. Nat Commun. 2024-08-31. https://doi.org/10.1038/s41467-024-51894-6 [所属] Fudan U, Lingang Laboratory (Shanghai), U Federal de São Carlos – UFSCar, EMBL, Max Delbrück Centre for Molecular Medicine, U Würzburg, Queensland U Technology
100コドンより短い小さなオープンリーディングフレーム(smORF)は微生物に広く存在し、シグナル伝達経路、ストレス応答、抗菌活性など、いくつかの細胞機能で活性を持つタンパク質をコードしていることが知られている。しかし、自然界に広く分布しているマイクロバイオームにおける低分子タンパク質の生態、分布、役割については不明な点が多い。

GMSCには、包括的なアノテーションを持つ9億6500万個の冗長でないsmORFsが含まれている。その中で、アーケア由来のsmORFsの方が細菌由来より多いことが見えてきた。

[詳細]
smORFは、生命の3つのドメイン全てに存在し、注釈付き遺伝子の5-10%と推定されている。smORFによってコードされる小型のタンパク質は、微生物細胞において重要な機能を果たすことが報告されており、遺伝子発現を制御する転写、大型のタンパク質複合体の安定化、シグナル伝達経路、トランスポーターの制御、胞子形成、光合成、環境からのキューへの応答などに関与していることが分かっている。さらに、小型のタンパク質は抗菌活性を発揮したり、毒素/抗毒素(TA)系を構成することも知られている。
しかし、ゲノム情報だけからsmORFを確実に同定することが難しいため、(メタ)ゲノミクスに基づくマイクロバイオームの地球規模での研究において、小型のタンパク質は捉えられてこなかった。一方で、Ribo-Seq [eLife, 2014]やプロテオゲノミクスと比較ゲノム解析の手法の進歩により、様々な微生物において、ますます多くの小型のタンパク質が発見されるようになった。例えば、最近の系統的研究により、ヒトマイクロバイオーム [crisp_bio 2019-10-03] から4,539の新規な小型タンパク質のファミリーが同定され、そのうちの30%は膜貫通タンパク質または分泌タンパク質をコードしていると予測された。しかし、smORFに焦点を当てた研究のほとんどは、単離された微生物や特定の環境にアプローチしており、異なる生息環境にわたる地球規模での微生物smORFの機能的・生態学的理解は、極めて限定的である。
研究チームは、同じ小型のタンパク質(またはそのマイナーバリエーション)が繰り返し、独立に、観察されると、偽陽性smORF予測の可能性が最小化されるという原理を利用し、SPIREデータベース [Nucleic Acids Res, 2023] の63,410件のアセンブルされたメタゲノムとProGenomes2データベース [Nucleic Acids Res, 2019]の87,920件の微生物株のゲノムのコンティグから、最大300 bpsのORFをsmORFとして同定した。合計で4,599,187,424個のsmORFが予測され、そのうち99.25%がメタゲノム由来、0.75%が微生物ゲノム由来であった。100%のアミノ酸同一性(AAI)と100%のカバレッジで冗長性を除去することにより、smORFの数は2,724,621,233に減少した。さらに、冗長でないsmORFを、アミノ酸同一性(AAI)90%カットオフで、287,926,875個のクラスターに分類した。
90%-AAIの最大のsmORFファミリーには4,577配列が含まれ、47.5%のファミリーが1配列のみからなり、GMSC smORF全体の15%未満を占めた。また、ごく一部の大きなファミリーがGMSC smORFの大部分を占めていた(12.2%のファミリーが50%のsmORFを含む)。
GMSCのsmORFのうち、他の配列カタログに相同な配列が存在したのはわずかに5.35%である。一方、RefSeqデータベースのバクテリアおよびアーケアの小型タンパク質の80%以上について、GMSCにそのホモログが存在した。Sberroヒトマイクロバイオーム[Cell, 2019 ] データセットから得られた444,054の小型タンパク質クラスターについては、GMSCのタンパク質と相同性のあるものは67.3%に過ぎないが、相同配列のないクラスターのほとんどは1つの配列しか含んでいなかった。Sberroヒトマイクロバイオームデータセットから得られた4,539の保存された小型タンパク質ファミリーのうち、97.4%がGMSCのカタログと相同であった。
このカタログは、分類学的分類、生息域の割り当て、品質評価、保存ドメイン(conserved domain, CD)アノテーション、予測される細胞局在を含む包括的なアノテーションを提供している。さらに、ホモログの存在によって偽陽性が報告される確率が低くなるため、このカタログはゲノムとメタゲノムをアノテーションする際の参照データベースとして利用できる。
そうしたアノテーションを促進するために、GMSC-mapperと称するツールを開発した。このツールは、分類学、生息地、地理的な観点から、一致するsmORFの分布に関する情報をユーザーに提供する。
本研究で構築・開発したカタログと関連ツールは、地球規模でのsmORFの存在、出現率、分布、潜在的な生態学的役割の研究に利用でき、微生物内でsmORF/小型タンパク質がどのように機能するかについての新たな洞察を提供する。
[図一覧]
コメント