[出典] Terminating contamination: large-scale search identifies more than 2,000,000 contaminated entries in GenBank. Steinegger M, Salzberg SL. bioRxiv. 2020-01-26.

 メタゲノムシーケンシングから環境中の生物の組成を知るには、分類群が特定されている参照配列が必須である。JHUの研究チームは今回、NCBIが提供している配列データベースについて全配列-対-全配列を悉皆的に比較することで、ラベルされた生物種に誤りがある配列を効率的に検出・除去するプログラム、Conterminator、を開発・実行・公開した。ソースコードはGitHubサイト"Detection of incorrectly labeled sequences across kingdoms"から公開されている。
  • GenBankには500,000件を超えるゲノム配列が蓄積されてきたが、その殆どは、完全ゲノムに達していないドラフトゲノム配列であり、このドラフトゲノム配列には、ラベルされている生物種とは異なる生物種のDNAがcontaminants (コンタミ配列)として、配列決定の過程で紛れ込んだ可能がある。
  • NCBIではVecScreenで合成配列を検出・除去し、BLASTアラインメントでよく見られるコンタミ配列を検出・除去しているが、それでもコンタミ配列の混在が指摘されている。
  • 今回論文の著者の一人であるSalzbergのグループは、バクテリアとアーケアとされているドラフトゲノム配列のうち、2,250ゲノムがヒト由来であり、その多くが自動アノテーションを介してバクテリアとアーケアのタンパク質として登録・公開されていることを指摘していた (Genome Research, 2019 [1])。
  • ゲノムシーケンシングの現場には常にヒトが存在するために、ヒトゲノム配列がコンタミネーションの主犯であり続けている。加えて、その他の生物種間のゲノム配列のコンタミも知られている。
  • コンタミが2次コンタミを引き起こすことがないように、コンタミ配列を網羅したいところであるが、単純なアラインメントでは非現実的な計算コストがかかることになる。NCBIのRefSeqデータベースのサイズは~1.5 Tbであり、全配列についてall-against-all BLASTアライメントしようとすると、その計算コストは~30,000 CPU年 と試算される。
  • Conterminatorは、all-against-allの比較を計算時間が入力データサイズとともに線形に延びていくプログラムLinclust (Nat Commun, 2018 [2])につづいて並列化アライメントプログラムMMseqs2 (Nat Biotechnol, 2017 [3])を走らせる。
  • Conterminatorを32コア/メモリー2TBのコンピュータで走らせて、GenBankデータベースRefSeqデータベースを解析した。それぞれのデータベースの規模、計算に要した日数、コンタミ配列件数とコンタミ配列の影響を受けた生物種数はそれぞれ以下の結果となった:
  1. GenBank: 3.3 Tb、12日、2,161,746 配列、6,795 生物種 (95%が真核生物ゲノム);全データからみるとその比率はかなり低いとも言えるが、公共データベースを参照することで、誤った結論に至るリスクが潜在することになる。
  2. RefSeq: 1.5 Tb、5日、114,035 配列、2767 生物種 (52%が真核生物ゲノム)
  3. [注] コンタミ配列をもたらした生物種はGenBankとRefSeqでそれぞれ13,981種と2,881種類であり、ヒト, Saccharomyces cerevisiae, Stenotrophomonas maltophiliaおよびSerratia marcescensが上位に来た。
  • 高品質とされるゲノム配列であるFDA-ARGOS (Nat Commun, 2019 [4])の微生物ゲノム928配列と、モデル生物 (S. cerevisiae, Danio rerio, Mus musculusDrosophila melanogaster, Arabidopsis thaliana, Caenorhabditis elegans)、およびヒトの完全ゲノムについてもコンタミ配列の同定を試み、ヒト完全ゲノムにAcidithiobacillus thiooxidans配列を、Caenorhabditis elegans完全ゲノムにE. coli配列を検出した。
  • タンパク質配列については、まず、RefSeq内のコンタミ配列の19.4% (47,943配列)にタンパク質がアノテーションされていた。そこで、NR (非冗長タンパク質配列データベース)についてクラスターの均一性から判定する手法を組み入れて、14,132件をコンタミ・タンパク質配列とし、その中で7,359件はUniProtデータベースにも連鎖しているとした。
 [引用文献リスト]
  1. Human contamination in bacterial genomes has created thousands of spurious proteins. Breitwieser FP, Pertea M, Zimin AV, Salzberg SL. Genome Res. 2019 Jun;29(6):954-960. Online 2019-05-07
  2. Clustering huge protein sequence sets in linear time. Steinegger M, Söding J. Nat Commun. 2018 Jun 29;9(1):2542
  3. MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets. Steinegger M, Söding J. Nat Biotechnol. 2017 Nov;35(11):1026-1028. Online 2017-10-16.
  4. FDA-ARGOS is a database with public quality-controlled reference genomes for diagnostic use and regulatory science. Sichtig H, Minogue T et alNat Commun. 2019 Jul 25;10(1):3313