[出典] "CRISPR-powered quantitative keyword search engine in DNA data storage" Zhang J, Hou C, Liu C. Nat Commun. 2024-03-15. https://doi.org/10.1038/s41467-024-46767-x [所属] U Connecticut Health Center, U Connecticut.
全てがデジタル化される時代になり、データ・ストレージの世界的需要は2025年までに1.75×1014 GBに達し、急増し続けると予測されている。この状況に対応するにあたって、ハードディスク・ドライブのような従来の電気機械式記憶装置は、その記憶密度と容量に限界がある。DNAの利用は、情報爆発時代に対応する潜在的なデジタル記憶媒体として浮上してきた。
DNAは、物理的密度、データの寿命、さらには情報の暗号化能力の点で、従来の記憶媒体よりも優れていることが証明されている。新しい符号化方式を用いれば、1グラムのDNAあたり215ペタバイトの密度から、情報の完全な検索が可能であることが報告されており、これは市販されている1テラバイトのハードディスク・ドライブの8,800万倍以上である。DNAの極めて高い耐久性は、100万年以上前の化石が復元されたことからも証明されている。対照的に、ハードディスク・ドライブの寿命は、環境条件や機械的故障の影響を受ける可能性がある。
DNAドライブの検索法がいくつか提案されてきたが [*1,2]、主にハイブリダイゼーションに依存しており、検索の特異性を確保するために異なるクエリーを表す直交配列を注意深く選択する必要がある。
[*] "Molecular-level similarity search brings computing to DNA data storage" Bee C [..] Strauss K, Ceze L. Nat Commun. 2021-08-06;"Random access DNA memory using Boolean search in an archival file storage system" Banal JL, Shepherd T [..] Bathe M. Nat Mater. 2021-06-10.
原核生物で発見された獲得免疫機構であるCRISPR-Casシステムは、細胞内の標的遺伝子 (プロトスペーサ) を持つ外来DNA配列を特定する。このプロセスは、データベースのキーワード検索に類似している。著者らはこの類似性から、CRISPR-Casシステムの応用を、ゲノム編集やCRISPR Dxから、DNAに保存されたデータの検索エンジンへと広げることを発想した。
CRISPR-Cas12aをベースとするCRISPR Dxは、いわばクエリーであるcrRNAに相補的な配列を認識すると同時に、一本鎖 (ssDNA) を非選択的にトランス切断するコラテラル活性を活性化し、ssDNA蛍光団-消光団 (ssDNA-FQ) レポーター集団を分解し、蛍光を発するプロセスをベースとしている。このアプローチは、Cas12a-crRNAシステムの特徴からハイブリダイゼーションに基づくアプローチに比べ、ヌクレオチドのミスマッチに対する感受性が高いことから、キーワード同定においてより高い特異性と少ないエラーを達成できる可能性がある。Cas12aは核酸分解酵素 (nucleagse; nucleolytic enzyme) であることから、著者らはこの方法をSearch Enabled by Enzymatic Keyword Recognition (SEEKER)と命名した。
- 検索可能なDNAデータ・ストレージ・システムには、データの書き込み (writing)、検索 (searching)、
および読み出し (reading) が含まれる [Fig. 1引用右図 a 参照]。 - テキストデータを格納するオリゴプールは、リファレンス鎖とデータ鎖の2つの部分に分けて構築される [右図 b 参照]。リファレンス鎖は通常100-200オリゴからなり、データ鎖をバイナリコードにマップするために使用される辞書と、意図されたクエリのcrRNAスペーサー配列を決定するために、事前に配列を決定することができる。例えば、キーワード "courage "はcrRNAの配列 "CTGTGCTAGCGTATGGCTCAT "に対応する。データ鎖はファイルIDに従って選択的に増幅され、Cas12a-crRNA RNP複合体とインキュベートされる。増幅されたファイルに "courage "というキーワードの繰り返しが多く含まれる場合、蛍光強度は急激に増加し、短時間で強い蛍光シグナルを発生する。キーワード "courage "の出現がファイル中に少なければ、蛍光増強は遅れ、終点の蛍光強度は弱くなる。 キーワード "courage "がファイル中に見つからなければ、蛍光は検出されない。すなわち、蛍光強度の増加率がファイル中のキーワードの頻度に比例し、SEEKERは、DNAストレージを対象にした定量的な検索を実現する。
- 検索後、ポジティブシグナルを発生するファイルは、目的のデータが含まれていると認識され、次世代シーケンシングを介して、完全な内容が復元される。右図の例では、"courage "というキーワードが2回現れると強いシグナルが発生し、1回だけ現れると弱いシグナルが発生する。

- テキストのコーディングは、今回開発したnon-collision grouping (NCG) によって実装した [Fig. 2引用右図参照]。
- 実証実験として、SEEKERを用いて、プレーンテキスト形式の研究論文の抄録からキーワード検索を行った。
- 4種類のクエリについて、~8000種類の無関係な用語を含む40件のファイルのキーワードを正しく識別した [論文Fig. 3参照]。
著者らは、DNAデータ保存の潜在的な可能性が実証されたことから、SEEKERを、負担のかかる作業や複雑な手順、厳しい実験条件なしにデータ検索を行うための便利なツールとして実装した。すなわち、DNAデータストレージとマイクロ流体工学を統合し、より簡単に操作できるようにすることで、SEEKERを3次元 (3D) プリントしたマイクロ流体チップ上に凍結乾燥試薬とともに実装した [Fig.4引用右図参照]。
コメント