細胞には約100億個のタンパク質分子が存在し、そのアミノ酸配列が機能する構造をコードしている。近年、深層学習モデルによって、アミノ酸配列情報からそのような構造を正確に予測することが可能になった。生命の誕生して以来、細胞内コンパートメントに集合したタンパク質が、特定の機能を発揮する仕組みが進化してきた。MITとその関連機関の研究チームは今回、深層学習を介して、集合して特定の機能を発揮する一連のタンパク質が、細胞内の然るべきコンパートメントの目的地に導くアミノ酸配列コードを共有していることを実証した。
研究チームが深層学習を介して開発したタンパク質言語モデルProtGPSは、トレーニングセットから除外されたヒトタンパク質の特定のコンパートメントへの局在を正確に予測ことに成功した。さらに、ProtGPSによって、細胞内コンパートメントの一種である核小体に特異的に集合する新規タンパク質配列の生成が可能なことを、実験的に検証することに成功した。また、ProtGPSのコードを改変することで、タンパク質の細胞内局在を変化させる病的変異を同定することにも成功した。
本研究は、タンパク質の配列には、然るべき機能を発揮するタンパク質への折りたたみがコードされているだけではなく、そのタンパク質の、多様な細胞内コンパートメントへの分布を支配する、これまで認識されていなかったコードも含まれていることを示した。
ProtGPSをベースに将来、タンパク質の細胞内局在のアノテーションの改良、ネスト化したコンパートメントのモデル化、生成したタンパク質の大規模試験の実施、in vivoでのコンパートメント化を測定するためのロバストな技術の開発、代替的な機械学習アプローチの導入、病原性変異の影響のさらなる探索などにより、この分野が発展することが期待される。
[図一覧]
[出典] "Protein codes promote selective subcellular compartmentalization" Kilgore HR, Chinn I, Mikhael PG, Mitnikov I [..] Barzilay R, Young RA. Science. 2025-02-06/03-07. https://doi.org/10.1126/science.adq2634 [著者所属] Whitehead Institute for Biomedical Research, MIT (omputer Science and Artificial Intelligence Laboratory, Abdul Latif Jameel Clinic for Machine Learning in Health, DEPT Biology, Computational and Systems Biology Program), Harvard Medical School (Dept Pathology/Brigham and Women's Hospital)
[関連crisp_bio記事]
- crisp_bio 2019-01-10 [データベース] SubCellBarCode: 12,000を超えるタンパク質の細胞内局在データ
コメント