crisp_bio

論文・記事紹介:CRISPR生物学・技術開発・応用 (ゲノム工学, エピゲノム工学, 代謝工学/遺伝子治療, 分子診断/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野); タンパク質工学;情報資源・生物資源;新型コロナウイルスの起源・ワクチン・後遺症;研究公正

 タンパク質の細胞内局在はその機能にとって重要であり、その誤った局在は多くの疾患と関連している。既存のデータセットは、タンパク質と細胞株の組み合わせが限られており [*]、既存のタンパク質局在予測モデルは細胞種特異性を考慮に入れておらず、また、未知のタンパク質に一般化不可能である。
[*] Human Protein Atlas (HPA) の状況:13,147個の遺伝子によってコードされるタンパク質の細胞内局在を網羅しているが、ヒトプロテオームの65%をカバーするに留まっている;各タンパク質の測定は最多で3つの細胞株に限定されいる (述べ37種類の細胞株);同一細胞内で同時に測定可能なタンパク質の数に限界がある;細胞株間だけでなく、同一細胞株の間でも局在に変動が見られる。

 MITとハーバード大学の研究チームが今回、未知のタンパク質の細胞内局在予測(Prediction of Unseen Proteins’ Subcellular localization: PUPS)手法を紹介する。

[詳細]

背景

 近年、機械学習の近年の進歩により、タンパク質配列から、局在や構造といったタンパク質の様々な特性を推測するモデルが開発されている。

 配列に基づくタンパク質局在予測は未知タンパク質への一般化を可能にするが、異なる細胞コンパートメント間の相対的なタンパク質存在量、単一細胞間の局在の文脈的差異、あるいは細胞株間の細胞種特異的な局在差異を捉えるには至らない。

 タンパク質画像に基づいて、特定のタンパク質が局在する細胞コンパートメントを自動的にアノテーションまたは予測するための、教師あり学習モデルと教師なし学習モデルの双方が開発されている。これらのモデルの中には、単一細胞におけるタンパク質局在の変動が明らかにできるものもあるが、細胞コンパートメント・アノテーションのためのこれらのモデルには、タンパク質画像の実際の測定が必要であり、未知タンパク質や測定されていない細胞におけるタンパク質局在の予測には展開できない。

 既存のアトラスでは測定されていないタンパク質や細胞株が多数存在し、細胞タイプによってタンパク質の局在が異なっていることが分かっているため、計算モデルのトレーニングに使用されていないタンパク質や細胞株について、単一細胞レベルでのタンパク質の局在を予測するための新しい計算モデルが必要である。

成果

 研究チームは、タンパク質配列と細胞のランドマーク画像の両方を使用して PUPS を実行し、モデルのトレーニングに使用されていないタンパク質と細胞株に一般化できる方法を紹介する [Fig. 1: PUPS enables the prediction of subcellular localization of unseen proteins in unseen cell lines.参照]。

 PUPS は、タンパク質言語モデルと画像修復 (image inpainting)モデルを組み合わせて、ランドマーク染色のタンパク質配列と細胞画像の両方を利用してタンパク質の局在を予測する。これら 2 つの要素により、PUPSは「背景」のセクションで触れたこれまでのアプローチの制限を克服する。

 タンパク質配列入力により、未知のタンパク質への一般化が可能になり、ランドマーク染色により、単一細胞の変動を捉えて未知の細胞株に一般化できる細胞タイプ固有の予測が可能になる。

 トレーニングでタンパク質と細胞株の両方を使用しなかった場合でも、このモデルの予測誤差は低く、局在予測にタンパク質配列のみまたはランドマーク画像のみを使用する既存の方法よりも優れている。 

 PUPSは未知のタンパク質や細胞株にも一般化できるため、すべてのタンパク質と細胞株のすべての組み合わせたデータが捉えられていない状況においても、細胞株間だけでなく、細胞株内の単一細胞間でのタンパク質局在の変動を評価することが可能になる。

 こうして、細胞株間で核と細胞質との間で比率が最も変動するタンパク質は、転写、細胞分化、クロマチン制御に関連することが明らかにされた。一方、細胞株内の単一細胞におけるタンパク質局在の大きな変動は、主に細胞分裂、転写、二本鎖切断修復、アポトーシスに関連することが明らかになった。

 PUPSが、モデルの学習に使用したHPA以外の実験において、タンパク質局在予測に使用できることを検証するために、新たにタンパク質細胞内局在実験を行い、その結果、予測画像に基づくタンパク質局在の変動が正確であることが示された。

 最後に、PUPSが局在に関連する既知のタンパク質配列特徴を抽出し、タンパク質と細胞株の意味のある表現を学習可能なことが、確認された。 

  総合的に、PUPSは、細胞株間および細胞株内の単一細胞におけるタンパク質局在の差異、さらには変異によって引き起こされるタンパク質局在の変化を予測するための枠組みを提供する

[細胞内タンパク質局在関連crisp_bio記事]
[出典] "Prediction of protein subcellular localization in single cells" Zhang X, Tseo Y, Bai Y, Chen F, Uhler C. Nat Methods. 2025-05-13. https://doi.org/10.1038/s41592-025-02696-1 [著者所属] MIT (Dept Electrical Engineering and Computer Science, Computational and Systems Biology Program), Broad Institute of MIT and Harvard, Harvard U (Dept Stem Cell and Regenerative Biology);Fig. 1: PUPS enables the prediction of subcellular localization of unseen proteins in unseen cell lines参照
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット