2026-02-12 ゲノム言語モデルEvoにより, ゲノムのコンテクストだけから新規な抗CRISPR (Acr) タンパク質と毒素-抗毒素系が創出された。Evoは、研究チームが「セマンティックデザイン」と呼ぶアプローチをベースにしている。
Nature 誌刊行原著論文を紹介しているCell Genomics 誌刊行Perspective記事へのリンクを追記:Perspective "Semantic design: Programming functional genes from genomic context" Huang Y, Lin P. Cell Genomics. 2026-02-11.https://doi.org/10.1016/j.xgen.2025.101132 [所属] Southwest University (Chongqing Technology Innovation Center of Breeding, Academy for Advanced Interdisciplinary Studies)
2025-11-21 Nature 誌刊行論文に準拠した初稿
- 9,000種類の機能プロンプトに対して, 新規なDNA配列(ひいてはドメインやタンパク質)をレスポンスする1,200億-bp規模の合成遺伝子データベースSynGenomeを構築・公開
Nature 誌刊行原著論文を紹介しているCell Genomics 誌刊行Perspective記事へのリンクを追記:Perspective "Semantic design: Programming functional genes from genomic context" Huang Y, Lin P. Cell Genomics. 2026-02-11.https://doi.org/10.1016/j.xgen.2025.101132 [所属] Southwest University (Chongqing Technology Innovation Center of Breeding, Academy for Advanced Interdisciplinary Studies)
2025-11-21 Nature 誌刊行論文に準拠した初稿
- 9,000種類の機能プロンプトに対して, 新規なDNA配列(ひいてはドメインやタンパク質)をレスポンスする1,200億-bp規模の合成遺伝子データベースSynGenomeを構築・公開
スタンフォード大学とArc Instituteに籍を置く研究者達は今回、ゲノム言語モデルであるEvo [#1] が、関心のある機能に関連する遺伝子を含む自然なコンテクストを提示することで、類似した機能を帯びながら、自然の進化の結果として存在する配列空間を超えた新奇遺伝子を生成可能なことを示した。
そうしたAI合成遺伝子の大規模なデータベースSynGenome(https://evodesign.org/syngenome/)を構築・公開した [右図はWebサイトのトップページのスクリーンキャプチャ]。このSynGenomeは、世界中の研究者が、合成生物学の新たな部品を自由に探索できる情報資源である。
そうしたAI合成遺伝子の大規模なデータベースSynGenome(https://evodesign.org/syngenome/)を構築・公開した [右図はWebサイトのトップページのスクリーンキャプチャ]。このSynGenomeは、世界中の研究者が、合成生物学の新たな部品を自由に探索できる情報資源である。[詳細]
自然言語の世界では、単語の意味は単語の共起性によって定義されるという「分布仮説」に基づく分布意味論(Distributional semantics)が確立されている。分布仮説は、「テキストの中で同じような分布をしている単語は、
類似した意味を帯びる傾向がある」と言い換えられる [Fig. 1引用右図 a 参照]。一方で、生物学では、遺伝子の機能は他の遺伝子との相互作用(共起性)によって定義されるという分布仮説が [#1]、利用されてきた。
類似した意味を帯びる傾向がある」と言い換えられる [Fig. 1引用右図 a 参照]。一方で、生物学では、遺伝子の機能は他の遺伝子との相互作用(共起性)によって定義されるという分布仮説が [#1]、利用されてきた。 原核生物では、機能的に関連する遺伝子は、しばしば遺伝子クラスターまたはオペロン内で隣接して配置されている。研究者たちは、この「ギルト・バイ・アソシエーション(連座制)」と呼ばれる特性を利用して、機能的に特徴付けられた遺伝子に隣接する機能未知の遺伝子の機能を特定してきた。このアプローチによって、自然に存在する新たな分子メカニズムや重要なバイオテクノロジーツールが発見されてきた。近年では、CRISPR-Casシステムの(再)発見が、その好例である。
原核生物のゲノム配列の生成モデルは、機能の分布仮説を学習して機能指向型設計を実行できる可能性がある。最近、極めて長いテキストを一気に処理・理解可能にするロングコンテキスト機械学習の進歩により、数キロベース規模のゲノム配列生成モデルEvoが生成された [#2]。Evoでは、配列中の次の塩基対を予測し、ゲノム配列の入力(AIの世界でいうプロンプト)に基づいてDNA配列を生成する。
スタンフォード大学とArc研究所の研究チームは今回、連座制の成功をベースに、既知の機能を持つ配列を用いたゲノム言語モデルを迅速に設計することで、モデルが応答において、機能的に関連する新規配列を、巨大な配列空間からサンプリングできると、想定し、このアプローチを「セマンティックデザイン」と呼んだ。すなわち、原核生物ゲノムにおける複数遺伝子の関係性を利用して、目的とする生物学的機能を帯びた新規遺伝子を設計する生成戦略を実装した。
具体的には、これまでのEvoのバージョンを超える4,500億トークンの規模のEvo1.5を開発し、原核生物に見られる機能的関係性を反映した新規配列を機能から誘導することを可能にすることが実証された:
- プロンプトとして、ネイディブに保存されている遺伝子の部分配列を与えると、Evo1.5はほぼ完璧なアミノ酸配列の復元とオペロン全体の双方向の完成を達成し、しかも基盤となる多様なDNA配列を生成し、セマンティックデザインの可能性が確認された。
- 次に、セマンティックデザインを適用し、新規性が高く特定の機能活性を持つ遺伝子を生成した。既知の細菌毒素と有意な配列類似性を持たない毒性遺伝子や、機能性RNA抗毒素など、高い実験的成功率を有する複数の新規毒素-抗毒素ペアを創製することに成功した。
- さらに、既知の抗CRISPR (anti-CRISPR)タンパク質(Acr)との配列類似性または構造類似性が見られないが、SpCas9に抗する機能を帯びている複数のAcrを創製することに成功した。
研究チームは、セマンティックデザインがゲノムコンテククストのみから機能性タンパク質を生成できることを検証した後、セマンティックデザインは原核生物のあらゆる生物種から遺伝子を創製するために適用できると推論した。そこで、170万個の原核生物およびファージ遺伝子をモデルに入力することで、原核生物ゲノムにコードされている幅広い機能的多様性を網羅する配列を生成した。SynGenomeの構築にあたり、UniProtデータベースを活用し、原核生物およびバクテリオファージからタンパク質コード遺伝子とその隣接配列を同定した。各コード配列について、上流領域、コード配列、下流領域、およびそれぞれの逆相補配列という6つの異なるプロンプト(のべ9,000件の機能タームに相当)を抽出した [論文Fig. 4: 120 billion base pairs of AI-generated genomic sequences with SynGenome.参照]。Evo 1.5モデルを用いて、各プロンプトに対して複数の合成配列を生成し、1200億を超えるDNA塩基対を含むデータベースを作成した。SynGenomeは、世界中の研究者が新たな合成生物学の部品を提供する情報資源であり、機能する新規遺伝子、すなわち、タンパク質創製の情報基盤でもある。
これらの結果は、ゲノム言語モデルを利用することで、自然な進化を超える進化を実現できることを示しているが、それを真核生物へと拡張するには、真核生物の複雑なゲノムコンテクストに合わせた新たなアプローチが必要になる。
[#] 参考論文とcrisp_bio記事
- crisp_bio 2024-11-19 ゲノムを生成するAI "Evo"出現 - 進化を超えて新奇なCRISPR-Casシステムを創出
- "On knowing a gene: a distributional hypothesis of gene function" Kwon JJ, Pan J, Gonzalez G, Hahn WC, Zitnik M. Cell Syst. 2024-06-19. https://doi.org/10.1016/j.cels.2024.04.008
[出典] 論文 "Semantic design of functional de novo genes from a genomic language model" Merchant AT, King SH, Nguyen E, Hie BL. Nature 2025-11-19. https://doi.org/10.1038/s41586-025-09749-7 [所属] Stanford University (Bioengineering; Chemical Engineering; Stanford Data Science), Arc Institute
コメント