2020-04-28 国立感染症研究所「新型コロナウイルス SARS-CoV-2 ゲノム情報によるネットワーク解析」を発表 (2020-04-27) in 新型コロナウイルスSARS-CoV-2のゲノム分子疫学調査 (2020/4/16現在): "2020年3⽉末から4⽉中旬における⽇本の状況は、初期の中国経由(第1波)の封じ込めに成功した⼀⽅、渡航⾃粛が始まる3⽉中旬までに海外からの帰国者経由(海外旅⾏者、海外在留邦⼈)で “第2波” の流⼊を許し、欧⽶経由(第2波)の輸⼊症例が国内に拡散したものと強く⽰唆された (crisp_bio: 感染研の資料から一部編集)"
[以前の更新履歴は文末に移動]

[出典] "Phylogenetic analyses of the severe acute respiratory syndrome coronavirus 2 reflected the several routes of invasion in Taiwan, the United States, and Japan" Matsuda T, Suzuki H, Ogata N. arXiv.prg 2020-02-20 15:29:37 UTC

 日本バイオデータのデータ解析チームによる解析結果はウイルス核酸の時期まで特定するものではないが、少なくとも、投稿のタイトルにあるように複数のルートで、各国にウイルスが拡散したことを示唆しているように思われる [crisp_bio]
  • 中国科学院のNational Genomics Data Centerが公開している2019 Novel Coronavirus Resourceからデータを取得 (2020-02-16時点) 
  • 完全ゲノムに近い長い配列 (26,973 - 29,903 nt)48種類を解析対象として選択した。
  • コアゲノム (core-genome*)のマルチプルアライメントを経てコアゲノムにおけるSNPsデータを、Parsnp v1.2. (* Genome Biol, 2014)で解析し、分子進化・系統学的解析ソフトウエアMEGA (Mol Biol Evol, 2018)のMac版で、系統分類群の判別性能が高いサイト (parsimony-informative sites [*], 以下PI-site)を同定した [* A site is parsimony-informative if it contains at least two types of nucleotides (or amino acids), and at least two of them occur with a minimum frequency of two].
  • 解析プログラムGithubで公開: https://github.com/Hikoyu/SARS-CoV-2
  • Wuhan-Hu-1由来株の配列をレファランスとして系統樹を作成した (その後、コウモリ由来配列を外群とした系統樹がツイートされている[* 文末参照])。
  • コアゲノム領域の中で68サイトがウイルス株の間で変異し、13サイトがMEGAでPI-siteと判定され、その中から、3サイト (8782; 28144; 29095)に注目し、レファランスに見られるC-T-Cの組み合わせの他に、T-C-CとT-C-Tの2種類の組み合わせを同定した。
先行研究
[出典] The global spread of 2019-nCoV: a molecular evolutionary analysis. Benvenuto D [..] Ciccozzi M. Pathog Glob Health 2020-02-12
  • 全ゲノム配列29種類の完全ゲノムデータのMAFFT [$ crisp_bio関連記事]によるアライメントから、IQ-TREEで最尤法系統解析を行った [$ 2019-05-13 MAFFT-DASH: 配列ホモロジーが弱い構造もホモロジーモデリングに利用可能とするWebサービス登場]。
  • 武漢からタイのNonthamburiに伝播し、系統樹上で2つに別れた。その一つは、Nonthamburi内で拡がった。もう一方は、Nonthamburiから広東省珠海市を経て米国シカゴ、イリノイとシアトルへと伝播するのと並行して、Nonthamburiから浙江省の杭州市へ、また、浙江省を経て神奈川へと伝播した、と推定した [crisp_bio: 2020-02-29 14:20 経路の記述を修正]。
  • また、コウモリ内在コロナウイルスが祖先配列と推定した。
[コメント]
  • 先行研究の結果とあわせて見ると、武漢あるいは湖北省に限らず、米国が比較的早期に中国全土からの入国を止めたのは、感染の拡大を遅らせるという意味では [crisp_bio 2020-03-01追記]、正しい選択であったと思われる。
  • 現時点で株間の配列同一性が99%を超えており、また、今回の解析は、配列が完全ではないデータも含まれており、より多くの地域からのより多くの全ゲノム配列をもとに、再解析を繰り返すことで、精度を上げていくことが期待される。
  • [*] 日本バイオデータのCTC、TCCおよびTCTの定義と系統樹および株の由来が、コウモリ内在コロナウイルスを外群としてORF配列を元に構築した系統樹ではより見やすくなっている (以下に、日本バイオデータのツイートを引用)。
 [*] Genomic epidemiology of novel coronavirus (HCoV-19) 
https://nextstrain.org/ncov2020-03-03 17.42.36
[**] Genomic epidemiology of novel coronavirus (HCoV-19) 日本語版
2020-03-13: 410種のゲノムを分析した結果
https://nextstrain.org/narratives/ncov/sit-rep/ja/2020-03-13

[更新履歴]
2020-03-18 GISAIDでの配列解析結果に日本語解説が03-13に更新されていた [**]
2020-03-15 2020-02-28にarXiv投稿はv2へと更新されましたが、本記事への反映は未定です。
2020-03-03 GISAID (Global Initiative on Sharing All Influenza Data)が、新規配列登録に応じてPhylogenyを刻々と更新・公開し、順次ツイート (https://twitter.com/nextstrain)している (本記事文末に、https://nextstrain.org/ncov から3月3日にキャプチャした画面を添付) [*]