2025-03-22 NVIDIAが主催したGTC2025 AIカンファレンスにおける生命科学関係のハイライト記事を引用
2025-02-22 Arc Instituteのニュース記事に準拠した初稿 米国のアーク研究所(Arc Institute)がエヌビディアと共同で、スタンフォード大学、カリフォルニア大学バークレー校、カリフォルニア大学サンフランシスコ校の研究者を結集し、これまでで最大規模の生物学向けAIモデルを開発
- 40 か国以上から 700 社を超える医療健康関連企業が参加し、タンパク質設計や基盤モデル(foundation model)の可能性から医療記録のデジタル化や完全自律型ラボまで、最新の AI アプリケーションについて議論した。
- 創薬をサポートするNVIDIA BioNeMoと, それを融合したSapio Sciencesの Sapio Lab Informatics PlatformとCadenceのOrion, およびNVIDIAとArc InstituteのEvo2 (BioNeMoプラットフォーム上で対話型のEvo Designerを介して利用可能)などが紹介された。
- カンファランスでのNVIDIA CEO Jensen Huangの基調講演のリアル参加者とバーチャル参加者はそれぞれ〜2万5,000人と〜30万人
[出典] "NVIDIA GTC 2025 Highlights Foundation Models and AI Drug Discovery" Lin F. GEN (Genetic Engineering & Biotechnology) 2025-03-21. https://www.genengnews.com/topics/artificial-intelligence/nvidia-gtc-2025-highlights-foundation-models-and-ai-drug-discovery/
2025-02-22 Arc Instituteのニュース記事に準拠した初稿
[詳細] (Arc Instituteのニュース記事に準拠)
昨年(2024年)11月に、Science 誌から刊行されたEvo 論文では、細菌とアーケアの単細胞生物のゲノムを対象したAIの基盤モデル(foundation model)であるEvo (今回から、Evo 1と称される) が紹介されていた。この基盤モデルは、機能不明であった遺伝子の機能を推測することに加えて、新たな機能を帯びたゲノムを生成することができる。Evo 1 論文では、例えば、天然に存在しないが機能するCRISPR-Casシステムの生成が報告されていた。また、「将来、ヒトや他の真核生物の多様なゲノムから学び、より大きなゲノムスケールでの長距離のゲノム相互作用を捉えるために、より大きなコンテキスト長を使うかもしれない」と記されていた。それから3ヶ月で、それを実装したEvo 2の予稿がアーク研究所のWebサイトから公開された。
Evo Designerと呼ばれるユーザーフレンドリーなインターフェースを利用して開発されたEvo 2は、アーク研究所のGitHubから一般公開されており、また、アーク研究所とエヌビディアの共同プロジェクトの一環として、NVIDIA BioNeMoフレームワークにも統合されている。アーク研究所はまた、AI研究所のGoodfireと協力して、
モデルがゲノム配列で認識するように学習する主要な生物学的特徴やパターンを明らかにする機構論的な解釈を可能にするビジュアライザー(Evo Mechanistic Interpretability Visualizer)を開発した [スクリーンショットを右図に引用]。Evoチームは、学習データ、学習と推論のコード、モデルの重みの共有に向けて、これまでで最大規模の完全にオープンなAIモデルをリリースしている。
モデルがゲノム配列で認識するように学習する主要な生物学的特徴やパターンを明らかにする機構論的な解釈を可能にするビジュアライザー(Evo Mechanistic Interpretability Visualizer)を開発した [スクリーンショットを右図に引用]。Evoチームは、学習データ、学習と推論のコード、モデルの重みの共有に向けて、これまでで最大規模の完全にオープンなAIモデルをリリースしている。 Evo 2は、単細胞ゲノムのみで学習させた前身のEvo 1をベースに、128,000以上の全ゲノムとメタゲノムデータから9兆3,000億以上のヌクレオチドを学習させた成果であり、生物学におけるこれまでで最大のAIモデルである。Evo 2には、細菌、アーケア、およびファージの情報を拡張し、かつ、ヒト、植物、その他の真核生物領域の単細胞および多細胞の種の情報が含まれている。
「Evo 1とEvo 2の開発によって、マシンがヌクレオチドの言語で読み、書き、考えることができるようになり、生成生物学(generative biology)という新分野に飛躍をもたらした」と、アーク研究所の共同設立者、研究所のコア研究員、カリフォルニア大学バークレー校のバイオエンジニアリング助教授およびDEB (Designated Emphasis in Biotechnology) Faculty Fellowであり、Evo 2の予稿の共同責任著者であるPatrick D. Hsuは言う。「Evo 2は生命樹(Tree of Life)の全体像を理解し("Evo 2 has a generalist understanding")、病気の原因となる突然変異の予測から人工生命の潜在的なコードの設計まで、多くのタスクに役立ちます。私たちは、研究コミュニティーがこれらの基盤モデルの上に何を構築するのか楽しみです。」
スタンフォード大学の化学工学助教授であり、Dieter Schwarz Foundation Stanford Data Science Faculty Fellowであり、アーク研究所rc Institute Innovation InvestigatorでもあるBrian Hieは「進化はDNAとRNAに生物学的情報を符号化し、Evo 2が検出・利用できるパターンを作り出しました。何百万年もかけて洗練されたこれらのパターンには、分子の働きや相互作用に関するシグナルが含まれています」と言う。
Evo 2は、2,000以上のエヌビディア H100 GPUを利用し、エヌビディアの研究者やエンジニアとの共同によって強化されたAWS経由のエヌビディア DGX Cloud AIプラットフォーム上で数ヶ月間、学習させられた。このモデルは、最大100万塩基の遺伝子配列を一度に処理できるため、ゲノムの離れた部分間の関係を理解することができる。この技術的偉業を達成するために、研究チームは、AIモデルがこの規模のデータを素早く取り込み、推論を行う方法を再考する必要があった。OpenAIの共同設立者兼社長であるグレッグ・ブロックマンは、サバティカルの一部を費やしてこの問題に取り組んだ。その結果、StripedHyena 2と呼ばれるAIアーキテクチャにより、Evo 2はEvo 1の30倍のデータで学習し、一度に8倍以上のヌクレオチドを推論できるようになった。
このモデルはすでに、タンパク質の機能や生物のフィットネスに影響を与える遺伝的変化を特定するのに十分な汎用性を示している。例えば、乳がん関連遺伝子BRCA1 の変異を用いたテストでは、Evo 2は、どの変異が良性か潜在的な病原性かを90%以上の精度で予測した。このような洞察は、ヒトの病気の遺伝的原因を発見し、新薬の開発を加速することによって、細胞実験や動物実験に必要な数え切れないほどの時間と研究費を節約することができる。
また、真核生物の遺伝子制御をシミュレートするために、望ましいクロマチンアクセシビリティープロファイルを持つDNA配列をデザインする「生成エピゲノミクス」のワークフローも紹介されている。
また、真核生物の遺伝子制御をシミュレートするために、望ましいクロマチンアクセシビリティープロファイルを持つDNA配列をデザインする「生成エピゲノミクス」のワークフローも紹介されている。
遺伝子解析に加え、Evo 2は新しい生物学的ツールや治療法の開発にも役立つ可能性がある。例えば、「副作用を避けるために神経細胞でのみ、あるいは肝臓細胞でのみ活性化する遺伝子治療法が開発された場合、その特定の細胞でのみアクセス可能な遺伝子要素を設計することができる」と、予稿の共著者で計算生物学者の Hani Goodarziは言う。
研究チームは、Evo 2を基盤として、より具体的なAIモデルを構築することを想定している。「ざっくり言えば、Evo 2はオペレーティング・システムのカーネルのようなものだと考えることができます。DNAの突然変異がタンパク質の機能にどのような影響を与えるかを予測することから、異なる細胞タイプで異なる振る舞いをする遺伝要素を設計することまで、私たちがモデルを改良し続け、研究者が創造的な方法でそれを使い始めるにつれて、私たちはまだ想像もしていなかったEvo 2の有益な使い方を目にすることができると期待しています」。
潜在的な倫理的リスクと安全性を考慮して、科学者たちはEvo 2の基本データセットからヒトや他の複雑な生物に感染する病原体を除外し、これらの病原体に関するクエリに対してモデルが回答を返さないようにした。共著者であるスタンフォード大学医学部教授のTina Hernandez-Boussardと研究室のメンバーは、この技術の責任ある開発と展開を実施するためにチームを支援した。
エヌビディアのデジタル・バイオロジー部門を率いるAnthony Costaは「Evo 2は、生物システムの理解を根本的に前進させました。Evo 2は、独自のアーキテクチャとこの種のモデルとしては最大規模の統合データセットにより、生物学的基盤モデルの規模におけるこれまでの限界を克服することで、これまでのどのモデルよりも多くの既知の生物学に汎化します。そして、これらの能力を広く公開することで、アーク研究所は世界中の科学者に、人類の最も差し迫った健康と病気の課題を解決するための新たなパートナーを提供しました」と、言う。
[出典と参考資料]
[出典] NEWS "AI can now model and design the genetic code for all domains of life with Evo 2" Arc Institute. 2025-02-19. https://arcinstitute.org/news/blog/evo2
[先行研究]
- crisp_bio 2024-11-19 ゲノムを生成するAI "Evo"出現 - 進化を超えて新奇なCRISPR-Casシステムを創出
[予稿1] "Genome modeling and design across all domains of life with Evo 2" Brixi G, Durrant MG, Ku J, Poli M [..] Burke DP, Goodarzi H, Hsu PD, Hie BL. Arc Institute 2025-02-19 (一段組 65頁). https://arcinstitute.org/manuscripts/Evo2
[予稿2] "Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale" Ku J, Nguyen E, Romero DW [..] Poli M. Arc Institute 2025-02-19. (一段組 28頁) https://arcinstitute.org/manuscripts/Evo2-ML
[X投稿]
[X投稿]
Generative Biology
— CRISP_SCIENCE (@ScienceCrisp) February 21, 2025
NEWS "AI can now model and design the genetic code for all domains of life with Evo 2"
Arc Institute. 2025-02-19.https://t.co/qboCOvN5g5
コメント