[注] MuSIC: MUlti-Scale Integrated Cell
[出典]"A multi-scale map of cell structure fusing protein images and interactions" Qin Y [..] Lundberg E, Ideker T. Nature 2021-11-24. https://doi.org/10.1038/s41586-021-04115-9
[出典]"A multi-scale map of cell structure fusing protein images and interactions" Qin Y [..] Lundberg E, Ideker T. Nature 2021-11-24. https://doi.org/10.1038/s41586-021-04115-9
[概要]
真核生物細胞は、オルガネラなどの大きな構成要素からなり、それらが再帰的に凝縮体やタンパク質複合体などの小さな構成要素で構成され、複雑なマルチスケール構造を形成している.UCSDに,Harvard Medical School, KTH Royal Institute of Technology, Université Libre de Bruxelles, Peking University, およびStanford Universityが加わった研究グループは今回,Human Protein Atlas (HPA) [*1]とBioPlex [*2]のデータを,深層ニューラルネットワーク (deep neural network: DNN)を介して融合することで,一細胞内のタンパク質の集合体のマルチスケール・マップを作成可能なことを示し,multi-scale integrated cell (MuSIC 1.0) として発表した .
[*1] Human Protein Atlas (http://www.proteinatlas.org/) [参考 crisp_bio 17種の癌/7,932人のデータから病理アトラス構築・公開 - 個別化医療の情報基盤へ.https://crisp-bio.blog.jp/archives/3369338.html]
[*2] BioPlex (https://bioplex.hms.harvard.edu) [参考 crisp 2017-05-20 データ資源:ヒト・インタラクトーム BioPlex 2.0. https://crisp-bio.blog.jp/archives/2042382.html]
[詳細]
Human Protein Atlas (HPA)は,共焦点顕微鏡と免疫蛍光法を利用して,単細胞内のタンパク質分布をin situ でスキャンし,これらの技術と抗体ライブラリーを組み合わせることにより,ヒトタンパク質を細胞内コンパートメントに位置づけたアトラスである.BioPlexは,質量分析 (MS)とアフィニティ精製 (AP-MS)に,近接依存性標識を組み合わせて,タンパク質-タンパク質の会合を迅速に測定することで構築されたほとんどのヒトのタンパク質を対象とした包括的な相互作用マップである.MuSIC 1.0は,タンパク質を核などの細胞内のランドマークと相対的に位置付けたHPAのデータと,タンパク質を近傍のタンパク質と相対的に位置付けたBioPrexのデータを,統合したマルチスケールのマップである.
- はじめに,HPAの免疫蛍光画像とBioPlexのAP-MS データをマッチングさせたデータセットを構築した.その結果,ヒト胎児腎細胞 (HEK293)において,1,451件の画像 (複製を含む)と661種類 ("ベイト" 291種類と"プレイ" 370種類)のタンパク質に関するAP-MSデータを獲得し,これらのタンパク質が全てのヒトタンパク質に見られるのと同様に,細胞内位置の広い分布をカバーしていることを同定した.HPAとBioPlexに含まれる他のタンパク質は異なる細胞種で測定されていたことから,双方のデータをマッチングさせることができなかった.従って,MuSIC 1.0はHEK293細胞に限定されている.
- 次に,HPAデータにはニューラルネットワーク 'DenseNet'7を利用し,AP-MSデータについては, ニューラルネットワーク'node2vec'を使用し,それぞれをDNNに埋め込んだ [原論文 Fig. 1 および Extended Data Fig. 2 参照].
- 続いて,すべてのタンパク質ペアについて,免疫蛍光法とAP-MSのそれぞれのDNNエンベッディングにおいて,タンパク質間距離を計算した.その結果,一方の手法で測定された最も近いペアは,他方の手法で近いペアに富んでおり,HPAとBioPlexが実質的に情報を共有していることを確認することができた.そこで,DNNエンベッディングにおける距離を細胞内の物理的距離に較正するために,20 nm未満のタンパク質複合体から1 µm以上の小器官まで,直径が既知または推定される細胞内構成要素の参照セットを用意し,この直径をトレーニングのラベルとして,教師あり機械学習モデル (ランダムフォレスト回帰)を用いて,免疫蛍光法とAP-MSのエンベッディングにおける座標から、任意のタンパク質ペアの距離を直接推定した.
- 661種類のタンパク質間の距離を全て分析し,互いに近接しているタンパク質の共同体 (community) を探索したが,最小のタンパク質間距離で形成されるものから,近接と判定する距離を緩和していくことで,複数の分解能での大が小を兼ねるような階層的な共同体 が特定された.ここで,共同体 の検出感度は,Human Cell Map [*3]で報告されたタンパク質相互作用(HEK293細胞を用いた近接ビオチン化)と,Cancer Cell Dependency Map [*4]で示された遺伝子共依存性のパターンと最もよく一致するように調整した.
[*3] 参考 crisp_bio 2019-10-14 BioIDを用いてHEK293細胞内タンパク質4,145種類の局在と35,902種類のPPIを同定. https://crisp-bio.blog.jp/archives/20335125.html
[*4] 参考 crisp_bio 2017-11-30 [News and Views] CRISPR必須遺伝子スクリーニングにおける多コピー遺伝子の偽陽性を判別可能に.https://crisp-bio.blog.jp/archives/5409862.html
- 最終的な階層構造マップであるMuSIC 1.0は、87種類の階層的な包含関係に依存する推定細胞内システムをもたらす69種類のタンパク質共同体を含んでいる [原論文のFigure 2 と Supplementary Table 3 参照).
- 推定したうち16の細胞システムは、複数の大きなシステムの中に含まれており、複数の細胞内位置や多面性が示唆された。推定細胞システムの中には,例えば,32種類のタンパク質共同体からなるサイズ479 nmのRNAプロセッシング複合ファミリーといった既知の細胞構成要素に相当するものが存在したが,Gene Ontologyに記載されている細胞構成要素とマッチしたのは約46%に止まり,残りの54%は新規な細胞構成要素であることが示唆された.
- そこで,134種類のアフィニティ精製を追加で行いタンパク質共同体の階層関係を検証した結果,プレリボソームRNAアッセンブリーとアクセサリー因子とその機能 (rRNA成熟調節),クロマチンにおけるSRRM1とFAM120Cの機能,およびスプライシングにおけるRPS3Aの機能を明らかにするに至った.
今回,HPAとBioPlexという2種類の大規模なマッピングを統合することで,既知のタンパク質共同体の確認とともに,新規タンパク質共同体の同定および機能解析が可能になるといった相乗効果が得られた,今後,HEK293細胞以外の細胞株を共通の対象とする多面的なプロジェクトを共同で進めることで,MuSICマップが広がっていくことを期待する.
コメント