[出典] NEWS “‘Google for DNA’ indexes 10% of world’s known genetic sequences” Offord C. Science 2024-06-05 11:20 AM ET. https://doi.org/10.1126/science.zam1hsh

 公開されているDNARNA、およびタンパク質配列全てを、生物学的配列データを、ありふれたラップトップコンピュータで自在に検索可能にする可能性をスイスの研究チームが示した。研究グループは、MetaGraph最近開発したMetaGraphと呼ばれる計算ツールを使って [Figure 1引用右図参照]全配列の10%にあたる数兆の塩基対と数十億のアミノ酸からなる配列のインデキシングに成功し、プレプリントサーバーbioRxivに投稿した[*]

 DNARNAタンパク質の配列データを保存するリポジトリは、指数関数的に拡大している。NCBI/NIH, EBI, DDBJ/NIGが共同して構築・運営する遺伝子データベースであるシーケンス・リード・アーカイブ(Sequence Read ArchiveSRAには、ヒトをはじめとする動物、植物、バクテリアなどの生物の5万兆塩基対 (50ペタベース)以上が格納され、増え続けている。既存のツールでは、これだけのデータを一度にスキャンすることはできないことから、検索する前に、配列のメタデータを利用して絞り込む必要がある。そこで、より整理されたデータ構造に配列を圧縮することによって、この問題を解決しようとする研究開発が進められている。

 2020年、チューリッヒ工科大学のバイオインフォマティシャンのAndré Kahles、コンピュータサイエンストのGunnar Rätschらが、MetaGraph初期バージョンを発表した [bioRxiv, 2020]。このツールは、配列間の重なりを表すde Bruijnグラフとして知られる構造で、SRA100万件以上のレコード、合計約3ペタベースのインデックスを作成するのに使われた。彼らはすでに、さまざまな都市のマイクロバイームの構造を特定するなどのプロジェクトにMetaGraphを採用している。

 今回はMetaGraphの改良版を利用して、SRAやその他のデータベースから、微生物、真菌、植物、ヒト、ヒト腸内細菌叢の配列からなる5つのデータベースをインデキシングした。データの圧縮率は最大5800×に及び、この大規模なデータを安価なノートパソコンで扱えるようになった。この成果によって、低・中所得国の科学者にとってもゲノム研究の機会が拡大することになる。

 配列データのインデキシングについては、他の研究チームも前進している。昨年、パスツール研究所は欧州研究評議会から200万ユーロを獲得し、SRAの全データを目録化するIndexThePlanet (Planetary-Scale Indexing of Sequencing Data) プロジェクトを立ち上げた。また、NCBIの研究者たちは、PebbleScoutと呼ばれる独自のインデックス作成ツールに取り組んでいる。また、EBIを主とする研究チームによるAllTheBacteriaプロジェクトの成果がbioRxivから公開されている [bioRxiv, 2024]

 メリーランド大学の計算生物学者Rob Patroは、スイスの研究チームの成果が全配列の印キシングにおけるこれまでで最大の成果であることした上で「MetaGraphのインデックスサイズのため、サンプルから数百万の配列を同時に検索するような、特に大規模なタスクでは、他のツールよりも遅くなる可能性がある。また、新しい配列データでどのようにインデックスを更新するのがベストなのか、まだ明確になっていない」とコメントした。

 アルゴリズムの課題に加えて、全配列インデキシングプロジェクト全般に、
資金調達や、印でキシングに伴う計算コストという課題もある。このツールが広く採用されるかどうかは、「このような重要なリソースをどのようにホストし、更新し、維持するかという社会的、管理的な問題に取り組むか」にかかっている。KahlesRätschもこれに同意し、「この仕事が他のグループや、NCBIのような大きな組織がこのプロジェクトを立ち上げ、残りの90%の配列データを研究者が利用できるようにインデックスを作成する手助けをするきっかけになることを期待している」と語った。

[Indexing All Life’s Known Biological Sequences” Karasikov M, Mustafa H, Danciu D, Zimmermann M, Barber C, Rätsch G, Kahles A. bioRxiv. 2024-05-14. https://doi.org/10.1101/2020.10.01.322164  [所属] ETH Zurich, U Hospital Zurich, Swiss Institute of Bioinformatics, ETH AI Center

 公開リポジトリで利用可能な生物学的シーケンスデータの量は飛躍的に増加しており、貴重な生物医学研究リソースを形成している。しかし、生命科学やデータサイエンスの研究者が全文検索可能で容易にアクセスできるようにすることは、未解決の問題である。

 チューリッヒの研究チームは今回、最近開発された、配列セットを表現するための非常に効率的なデータ構造とアルゴリズムを利用することで、ウイルス、バクテリア、菌類、植物、動物、ヒトなど、あらゆる生物群にわたるペタベース (patenases)DNA配列データを完全に検索可能にし、そのインデックスを研究コミュニティに提供した。

 インデックスは入力配列の高度に圧縮された表現であり (最大5800×)、一般の消費者向けハードドライブ1台 (≒100米ドル)に収まる。MetaGraphと呼ばれる方法論的フレームワークにより [冒頭の挿入図参照]、注釈付きde Bruijnグラフを用いて、極めて大規模なDNA配列やタンパク質配列のインデックスをスケーラブルに作成することができる。今回、既存の塩基配列データの全容をインデックス化することが可能であることが実証され、1Mpbあたり0.10ドルのオンデマンドコストで効率的かつコスト効率の良い全文検索が実現された。

 また、既存のアーカイブから興味深い関連性を探し出すための実用的なユースケースをいくつか検討した。特定の特性や関心のあるグループ(例えば、個々のサンプル、患者サブグループ、またはそれらの任意の集合) に特異的な生物学的配列を提供する能力である。例えば、MetaGraphは「サンプルxyで見つかったが、サンプルzには存在しない配列をすべて取得する」といった問い合わせに答えることができる。理論的には、ラベル上の任意の論理式 を使用することができる。