背景
  • 異なる研究室やプラットフォームから生み出されるscRNA-seqデータセットの融合解析は、データセットを構成する細胞集団が必ずしも共通ではなく、また、バッチ効果(batch effect)の問題がつきまとうことから、容易ではない。
  • この融合解析を可能とする情報環境を、New York Genome Cenerの研究グループと、Broad Instituteの研究グループがCell誌に発表した。いずれも、多重なデータセットに共通する部分集合の同定から細胞集団全体のデータ融合を目指す戦略を取っている。
New York Genome Cener版
[出典] "Comprehensive Integration of Single-Cell Data" Stuart T, Butler A [..] Satija R. Cell 2019-06-06.  (bioRxiv 2018-11-02)
  • scRNA-seqデータの解析に利用されてきたRパッケージSeuratのリリース 3.0は、研究室やプラットフォームを異にする複数の実験に由来するデータセットの間で、相互対応する細胞群 ('anchors')の同定を実現
  • 'anchors'を介して、多様なデータセットからノイズを除去して単一のレファランス・データセットへと融合
  • レファランス・データセットの問い合わせデータセットへの敷衍を実現
  • データ・モーダリティーをscRNA-seq (トランスクリプトーム)から単一細胞のタンパク質 (プロテーム)、クロマチン・アクセサビリティー (エピゲノム)、および生体組織内の位置データ (spatial data)にまで拡張
  • SEURAT Webサイト:SEURAT R toolkit for single cell genomics
Broad Institute版
[出典] "Single-Cell Multi-omic Integration Compares and Contrasts Features of Brain Cell Identity" Welch JD [..] Macosko EZ. Cell 2019-06-06 ("Integrative inference of brain cell similarities and differences from single-cell genomics" bioRxiv 2018-11-02)
  • Broad Instituteの研究グループは、非負値行例因子分解 (non-negative matrix factorization strategy: NMFF)に基づいて、各細胞を特徴付けるデータセットに特有な因子と全てのデータセットに共通な因子を同定・判別 (この因子を'metagene'と命名)することで、異なる実験に由来する単一細胞マルチモーダルデータの融合解析を実現するLINGER (Linked Inference of Genomic Experimental Relationship)アルゴリズムを開発
  • LINGERをヒトとマウスの脳細胞の解析に応用: 床核と黒質における個体差を同定;in situおよび分離した細胞のscRNA-seqデータを統合し、細胞型の脳内マップを作成;scRNAデータとエピゲノム・プロファイルを融合して皮質の細胞型を同定
参考
[2019-06-20 crisp_bio注] 後日追記の予定