[出典] "CHESS: a new human gene catalog curated from thousands of large-scale RNA sequencing experiments reveals extensive transcriptional noise" Pertea M [..] Salzberg SL. Genome Biol. 2018 Nov 28;19(1):208. ; "Thousands of large-scale RNA sequencing experiments yield a comprehensive new human gene list and reveal extensive transcriptional noise" bioRxiv 2018-05-28.
- JHUのM. PerteaとS. L. Salzbergらの研究チームは今回、Genotype-Tissue Expression (GTEx)プロジェクト (NatureAsia 2017/10/12)におけるRNAディープシーケンシング9,795件の結果をもとに、ヒト遺伝子と転写物のカタログを改訂し、CHESS2.1 (Comprehensive Human Expressed SequenceS) としてWebサイトhttp://ccb.jhu.edu/chess から公開した (データ解析パイプライン 原論文Fig. 5引用下図参照)。
- CHESS 2.1には、42,611種類の遺伝子と323,258種類の転写物が網羅されている:収録遺伝子は、タンパク質コーディング遺伝子20,352種類、lncRNA遺伝子18,887種類を含むノンコーディング遺伝子22,259種類である;収録転写物は、タンパク質アイソフォーム26,331種類とノンコーディングRNAsである。
- CHESS 2.1は、RefSeq (2017年時点)およびGENCODEの遺伝子を網羅し、さらに、新奇なタンパク質コーディング遺伝子、lncRNAs遺伝子、および転写物をそれぞれ、224種類、2,671種類、および116,156種類、含んでいる。
- CHESS 2.1は、GTExデータセットからStringTieを介して当初668,018遺伝子座にわたり30,467,424種類の転写物を検出し、続いて、偽遺伝子 (pseudogene)や単一エクソンからなるノンコーディング転写物など機能をもたないと推定される転写物を除いた結果である。すなわち、CHESS2.1 構築の過程で結果的に、ヒト細胞における転写ノイズの大きさが示された。
原論文の図表一覧
- Table 1. CHESSとRefSeqとの遺伝子比較表
- Table 2. RefSeqに存在しCEHSSでは日検出のタンパク質コーディング遺伝子 (その後、CHESS論文に基づきRefSeqから削除)
- Table 3. CHESSとRefSeq/GENCODE/FANTOMとの転写物比較表
- Fig. 1 CHESS新奇タンパク質コーディング遺伝子の構造例
- Fig. 2 CHESS (v2.1), RefSeq (rel 108)およびGENCODE (v28)のイントロンと転写物の一致度べン図
- Fig. 3 CHESS新奇タンパク質コーディング遺伝子とlncRNA遺伝子について、その発現の性差および組織依存性を示すグラフ
- Fig. 4 CHESS新奇タンパク質コーディング遺伝子2種類について、他の霊長類5種類の相同配列のマルチプルアラインメントと、MS/MSスペクトルから同定したペプチド配列
コメント