タグ:データベース

[出典] The functional landscape of the human phosphoproteome. Ochoa D [..] Beltrao P. Nat Biotechnol. 2019-12-09. < bioRxiv. 2019-02-05
# crisrp_bio注:  (*) the phosphosite functional score; 本記事に引用したFigure 1はbioRxiv投稿版からCC  BY 4.0のライセンスで引用(Nature Biotechnolgy版と同一)

 タンパク質のリン酸化は殆どの生物過程の制御に関与する翻訳後修飾であり、その異常は疾患を引き起こす。ヒトにおけるリン酸化の全貌は解き明かされておらず、質量分析を介したリン酸化部位の同定が精力的に進められている。例えば、単独の細胞 (HeLa細胞)を対象とする"ultradeep phosphoproteome" (論文データベース)から、50,000種類を超えるリン酸化ペプチドが同定され、プロテオームの75%がリン酸化されていることが示唆され、こうした研究から同定された200,000ヶ所を超えるリン酸化部位が、PhosphoSitePlus (PSP)といったデータベースに収録されている。
 リン酸化部位の同定が進行する一方で、各部位のリン酸化の生物学的意味の解明はこれからである。リン酸化の保存性は低いとされることから、細胞のフィットネスに関与するのは一部のリン酸化であることが示唆される。そこで、保存性、位置などの特徴や変異導入実験などから、重要な機能を担っていると思われるリン酸化部位からその機能を同定する試みがされているが、プロテオーム・ワイドでの機能同定までの道は通い。

 EBI, EMBL, Gladstone Institutes/Quantitative Biosciences Instituteの英独米の研究グループは今回、機械学習によるリン酸化の生物学的意味の解明を試みた。
  • PRIDEデータベース (論文データベース)に由来する104種類のヒトの細胞型そしてまたは組織から同定されたリン酸化されているタンパク質のデータセット112種類をマニュアルで評価し、設定した品質基準を満たした6,801種類のプロテオミクス実験を再解析し、ヒトにおける119,809ヶ所のリン酸化部位を網羅したレファランス・プロテオームを構築した (再解析した結果の概要について、Figure 1引用下図参照)。in-vivo human phosphosites
  • レファランス・プロテオームでは、各リン酸化部位について、質量分析のデータ (スペクトルカウントと局在)、制御関係のデータ (キナーゼのモチーフとのマッチングなど)、構造上の環境、進化上の保存性の4種類のカテゴリーからの59種類の特徴に基づいて定義したフィットネスへの貢献を示すスコア、the phosphosite functional score (以下、PFS)、が付与されている。PFSの定義は、PSPでキュレートされタンパク質の機能制御に関与することが明らかにされている2,638ヶ所のリン酸化部位のデータをもとに、Gradient Boostingに基づく機械学習モデルに依った。
  • PFSに基づいて、LCKキナーゼ、STATS3転写因子、PTPN11ホスファターゼ、H2AFXヒストンにおいてタンパク質の機能制御に関与するリン酸化部位を正確に同定した。また、その変異が疾患をもたらすリン酸化部位の同定も可能にした。SWI/SNFクロマチン再構成複合体 (chromatin remodeling complex)のメンバーであるSMARCC2において、神経細胞分化を制御するリン酸化部位をPFSに基づいて推定し、マウスでの実験で裏付けることにも成功した。
  • Reference proteomeデータ入手先:Supplementary Tables https://www.nature.com/articles/s41587-019-0344-3#Sec30
    関連プログラム入手先: GitHub funscoR - R package for functionally scoring phosphorylation sites https://github.com/evocellnet/funscoR

1. PADS Arsenal: 原核生物の防御システムに関する遺伝子の網羅的データベース
[出典] PADS Arsenal: a database of prokaryotic defense systems related genes. Zhang Y, Zhang Z, Zhang H, Zhao Y, Zhang Z, Xiao J. Nucleic Acids Res. 2019-10-17. Webサイト
  • National Genomics Data Center/BIG Data Center (CAS)を主とする研究グループが、CRISPR-Casシステム、制限修飾系 (R-Mシステム)、毒素 - 抗毒素システム (TAシステム)などの原核生物の防御システムに関連する遺伝子を集積したデータベースPADS Arsenalを開発・提供した (PADSはprokaryotic antiviral defense systemに由来する。
  • 33,390種のバクテリアとアーケアに由来する63,701ゲノムから、18カテゴリーの防御システムに関与する6,600,264遺伝子を抽出しデータベース化した (原論文Table 1引用左下図参照)。Webサイトは、データベース検索に加えて防御システムのオンラインアノテーション機能も備えているPADS Arsenal  Webサイトの画面キャプチャ右下図参照)。
PADS Arsenal Table 1 PADS Arsenal
2.  CRISPRCasdb: 完全ゲノム配列から抽出したCRISPRアレイとcas遺伝子を網羅し、反復配列とスペーサのダウンロードと検索サービスを提供
[出典] CRISPRCasdb a successor of CRISPRdb containing CRISPR arrays and cas genes from complete genome sequences, and tools to download and query lists of repeats and spacers. Pourcel C et al. Nucleic Acids Res. 2019-10-18.
  • CRISPRdbの後継データベース:GenBankからダウンロードしたデータをもとに、バクテリア2,973種由来の16,650株とアーケア300種由来の340株の完全ゲノムに対して、CRISPRCasFinderによりCRISPRsとcas遺伝子をアノテーションし、その他のメタデータとともに、CRISPR-Cas++ Webサイトから公開した。
  • 左下図は、原論文Figure 1から引用したデータベース構築のワークフロー、右下図はWebサイトのトップページの画面キャプチャである。右下図の下の行に、CRISPRCasdbの分類木を介したアクセス機能とblastを介したアクセス機能のメニューが見える。
CRISPRCasdb CRISPR-Cas++
3. [レビュー] 膵臓癌研究におけるCRISPR Cas9
[出典] CRISPR Cas9 in Pancreatic Cancer Research. Yang H, Bailey P, Pilarsky C. Front Cell Dev Biol. 2019-10-18. 
  • Universitätsklinikum Erlangenの研究チームが、膵臓癌の主たる治療法は手術、放射線療法および化学療法であるが、この10年間、患者生存に大きな改善が見られていなかったが、近年、CRISPR/Cas9技術による療法の可能性が見えてきたとし、CRISPR/Csa9技術の進歩、膵臓癌研究への応用、特に、膵臓癌のドライバー遺伝子を特異的に標的とする療法をレビューした 
  • 左下図はTable 1から引用したCRISPR/Cas9ノックアウトによる機能ゲノミクスの例、右下図はTable 2引用から引用したプール型CRISPRスクリーンによるドライバー遺伝子同定例 。
Table 1 Table 2
4. [インタビュー記事] ロシアの研究者、難聴 (deaf)遺伝子編集をの女性の卵子のゲノム編集を開始
[出典] Russian ‘CRISPR-baby’ scientist has started editing genes in eggs from a deaf woman. Cyranoski D. Nature. 2019-10-18.
  • 2019年6月にヒト胚ゲノムにおけるCCR5遺伝子編集の意図をNature誌に伝えていたDenis Rebrikov (Kulakov National Medical Research Center for Obstetrics)が10月17日からのNature誌との電子メールの中で明らかにした:聴力損失をもたらす変異の遺伝子治療を目指す中で、オフターゲット編集を検証することを目的として健常な女性の卵子の遺伝子編集を行い、遺伝子編集した胚の移植は目論んでおらず、実験結果を難聴の患者由来の体細胞のGJB2遺伝子変異の修復実験の結果とともに、公開する。
  • Rebrikovは、これから難聴者由来の卵子の編集に進むとしているが、Jennifer Doudnaは、これを致死性ではない疾患の治療を目的とするヒトゲノム胚編集として、批判した。
  • なお、Ministry of Health of the Russian Federationは、遺伝子編集ベービーは時期尚早としている。また、国際的な規範は、WHOおよび米国アカデミーと英国王立協会が設置した国際委員会で検討中であり、委員会は2020年春に生殖細胞系列の臨床研究のガイドの枠組みを発表する予定である。
4. ディスカッションペーパー:ゲノム編集の科学的妥当性および倫理問題、法的問題および社会問題
[出典] 
Genome Editing Working Group of the Ethics Council of Max Planck  Society (2019 May). 
  • Christina Gross & Emmanuelle Charpentier: CRISPR-Cas9を中心とするゲノム編集技術の発展と広がりDetlef Weigel: 植物ゲノム編集 (基礎研究、穀物育種および規制)
  • Guy Reeves: 遺伝子ドライブと改変ウイルスの環境放出
  • Hans R. Schöler &Thomas Rauen: 幹細胞研究におけるゲノム編集 (Christiane Walch-Solimena: CRISPR-Cas9と動物愛護)
  • Stefan Mundlos & Hans Schöler: ヒトゲノム編集
  • Silja Vöneky: 法制度 (植物その他の生物; ヒト; デュアルユース(軍民両用技術)研究)
  • Klaus Tanner & Christiane Walch-Solimena:倫理問題と社会問題 (考察すべき6つの問いかけ)

[出典] Research Highlight "A map of human individuality" Koch L. Nat Rev Genet. 2019-06-25.; "A genomic atlas of systemic interindividual epigenetic variation in humans" Gunasekara CJ [..] Coarfa C, Waterland RA. Genome Biol. 2019 Jun 3;20(1):105.

 CpG部位のDNAメチル化は哺乳類の正常な発生と細胞分化の鍵を握っている。DNAメチル化と遺伝子発現の解析はこれまで、主として、細胞型そしてまたは組織に特異的なDNAメチル化の状態を、全ゲノムバイサルファイトシーケンシング (whole genome bisulfite sequencing; WGBS)によって解析する試みが続いてきた。Baylor College of Medicineの研究グループは今回、DNAメチル化プロファイルの細胞型や組織に依存する変動ではなく、個人に依存する変動 (systemic interindividual variations; SIV)に注目した。

 研究グループは、NIH Genotype-Tissue Expression (GTEx)プロジェクトに登録されている10人のオートプシーまたは臓器移植の際に得られた組織に由来する三胚葉にわたるサンプル、甲状腺 (内胚葉)、心臓 (中胚葉)、脳 (外胚葉)、を対象として、偏りのないdeep WGBS解析を行った。のべ30サンプルから150-bpペアエンドの~12億リード (reads)を得て、リード深度 (read depth)は平均~40xに達した。100-bp分解能でCpGメチル化を同定し、少なくともCpGサイトを一つ含むリード深度が十分な ~ 1,300万ヶ所の領域 (bin)を、3種類の組織ごとにクラスタリングした (原論文Fig. 1引用下図  a, b 参照)。CoRSIV
 各binのメチル化レベルをもとに、bin-binの相関係数に続いて組織間の相関係数 (inter-tissue correlation: ITC)を計算し、ITC ≥ 0.71 の領域 (同一サンプル内でのCpGメチル化レベルの組織依存性が比較的低い領域)を“correlated regions of SIV" (CoRSIVs)と定義し、その中で、少なくとも5つのCpGsを帯び個体間の変異が大きい (> 20%) (上図 f 参照) CoRSIVs 9,926種類を選択し、解析を続けた (以下、単にCoRSIVsと表記)。
  • CoRSIVsはゲノム領域の~0.1%に過ぎないが、互いにゲノム上で長距離にわたる相互作用を帯びていた。
  • CoRSIVのメチル化の個人差の60%は、シスエレメントにおける変異に対応していたが、残る40%についの遺伝的作用は明確にならなかった。
  • GTExからのサンプルに基づくデータ解析に続いて、Multiple Tissue Human Expression Resource (MuTHER)をもとにし先行研究(Am J Hum Genet, 2013)で得られたDNAメチル化と遺伝子発現のデータを再解析し、645遺伝子に関連する (associated) CoRSIVsについて、DNAメチル化と遺伝子発現の相関関係が、他の組織 (皮膚とリンパ芽球様細胞)と共通することを確認した。したがって、侵襲性の低いリキッドバイオプシーを介して末梢血のデータを解析することで得られるCoTSIV領域のメチル化プロファイルから、そのCoTSIV領域と関連する遺伝子の脳における遺伝子発現プロファイルを推定可能となる。
  • さらに、最近発表された1,319件の“epigenome-wide association studies” (EWASdb) (Nucleic Acids Res, 2019)のデータを再解析し、コントロール領域に対してCoRSIVには癌を除く多様な疾患関連CpGサイトが顕著にエンリッチされていることを同定した。
  • アトラスのWebサイト:A Genomic Atlas of Systemic Interindividual Epigenetic Variation in HumansCoRSIV Web

[出典] "Next-generation characterization of the Cancer Cell Line Encyclopedia" Mahmoud Ghandi M, Huang FW. [..] Garraway LA, Sellers WR. Nature. 2019 May;569(7757):503-508. Online 2019-05-08.
  • 2012年に発表された癌細胞株エンサイクロペディア(CCLE)(*1)は、36種類の腫瘍型を網羅した947種類の癌細胞株のゲノムデータと遺伝子発現データ、ならびに、479癌細胞株にわたる24種類の抗癌剤の薬理プロファイリングを擁し、薬剤標的と薬剤感受性予測に有用なバイオマーカの同定に、活用されてきた。
  • 著者らは今回、2012年版CCLEのデータを大幅に拡充し、CCELポータルサイトから公開し、Nature誌にて他のデータセットとの統合解析から得られた知見とともに報告した。2017年9月に公開した新CCELポータルサイトはこれまでに129ヶ国88,000人に利用されている。
  • 次世代CCELで拡充された基本データは、多様な系統と民族集団にわたる癌細胞株 1,072種類について、deep RNA-seq (1,019株)、全エクソームシーケンス (WES) (326株), 全ゲノムシーケンス(WGS) (329株)、RainDanceを介したターゲット遺伝子シーケンス (657株)、逆相タンパク質アレイ (RPPA)  (899株)、 Reduced Representation Bisulfite Sequencing (RRBS)によるDNAメチル化解析(843株), マイクロRNA発現プロファイル (954株)、ならびにヒストンH3修飾プロファイル (897株)、加えて、Nature論文と同日にNature Medicine誌にオンライン出版された姉妹論文(*2)にて報告された225種類の代謝物プロファイル (928株)に及ぶ。
  • 基本データのWES、WGS、deep RNA-seqならびにターゲット遺伝子シーケンスとSanger Genomics of Drug Sensitivity in Cancer (GDSC)のWESデータとを統合してバリアントをコールし直し、各細胞株の特性データに加え、次世代CCLEは構造多型 (329株)と遺伝子融合 (1,109細胞株)のデータを擁している。
  • 著者らはさらに、薬剤感受性のデータセットやProject Achilles and Project DRIVE由来のRNAi遺伝子ノックダウンスクリーンのデータセットとCRISPR-Cas9遺伝子ノックアウトスクリーンのデータセットを加えて統合解析することで、抗癌剤の標的候補および抗癌剤感受性のバイオマーカを同定可能なことを示した。
 参考論文

[出典] "Metascape provides a biologist-oriented resource for the analysis of systems-level datasets" Zhou Y [..] Chanda SK. Nat Commun. 2019-04-03;Metascapeポータルサイト http://metascape.org;クイックガイド http://metascape.org/gp/index.html#/menu/quickguide
  • 生体システムの研究は、多様なオミックス・データセットにおける生物学的パスウエイとタンパク質複合体の偏りを見つけ出すことから始まる。そのためには、最新の広汎なバイオ・データベースと解析パイプラインを統合した上で、その生物学的意味をストレスなく把握できる形で解析結果を提供する情報環境が必要である。
  • Sanford Burnham Prebys Medical Discovery Institute、Genomics Institute of the Novartis Research FoundationおよびUCSDの研究グループは今回、いわゆる実験生物学者 (experimental biologists)を利用者と設定した情報環境、Metascpae (http://metascape.org/)、をNature Communicationsに発表した。
  • Metascapeはモデル生物10種類にわたる40種類を超えるデータセットを基盤として、機能エンリッチメント解析、インタラクトーム解析、遺伝子アノテーション検索、特定のGOタームなど一定の条件を満たすデータへの絞り込み (membership search)の機能の組み合わせを実現している。
  • [crisp_bio] Metascapeの解析ワークフローの概要図をFig. 1から引用した左下図の左側に表示し、その右側にMetascapeに用意されている遺伝子IDsサンプルデータの入力から解析開始までのWeb画面キャプチャを配置し、右下図にサンプルデータ解析結果をパワポイントファイル形式でダウンロードしたファイルからの一部コピーを提示した。
Metascpae 1 Metascape 2
Metascape 4 Metascape 3
  • 今回の報告には、解析結果の可視化ツールの利用動向もFig. 5に紹介されている (左上図参照)
  • 研究グループが検証した25のバイオデータ解析ポータルサイトの60%で、それぞれの基盤データベースが1年以上更新されていなかった。Metascapeでは、Fig. 4から引用した右上図にあるワークフローにて半自動で毎月更新している。
  • Metascapeの大きな特徴の一つが、複数の遺伝子リストの解析を同時に実行可能な点である (同時実行可能な遺伝子リストの数にはソフトウエアからの制限は無いが、使用可能なメモリーと計算時間で制限される)。論文ではインフルエンザウイルスに関する3つの独立したデータセットからの3種類の遺伝子リストを同時解析した結果が紹介されている (FIg. 3から引用した下図参照)Metascape 5

↑このページのトップヘ