2024-07-10 Nature 誌NEWS記事の書誌情報と一部の記述を以下に追記し、Alexander Rivesの講演ビデオ (2023年)へのリンクを記事文末に追記
[出典] "Ex-Meta scientists debut gigantic AI protein design model" Callaway E. Nature 2024-07-08. https://doi.org/10.1038/d41586-024-02214-x

 ESM3は、2023年の大統領令に基づき、「AIモデルのトレーニングに十分な計算能力を使用することで安全や倫理を侵す産物を生成するリスクを軽減する方策 (risk-mitigation measures)を報告することが義務付けられた (以下、"閾値を超えた") 最初の生物学的AIモデルのひとつである。EvolutionaryScale社によれば、同社はすでに米国科学技術政策局と連絡を取っているという。

 この閾値を超えたESM3のバージョンは、1000億近いパラメータ (モデルが配列間の関係を表現するために使用する変数) で構成されているが、一般には公開されていない。より小さなオープンソースのバージョン (ESM3-open)では、ウイルスや米国政府の病原体や毒素のリストなど、特定の配列はトレーニングから除外されている。ESM3-openは、科学者であればどこでもダウンロードして独自に実行することができるが、ウイルス、病原体、毒素といったタンパク質の生成を促すことはできない。

 独自のタンパク質言語モデルを利用してCRISPRシステムをベースとする新たな塩基エディターを生成した研究チーム [*]の一員であるスイス連邦工科大学の構造生物学者Martin Pacesaは、「ESM3は、研究者がその特性や機能を自然言語で記述して設計を指定できるようにした最初の生物学的モデルのひとつであり、この機能や他の機能が実験的にどのように機能するかを確認すること」を熱望している。

 METAのFAIRチームの解散後に、8人でEvolutionaryScaleを立ち上げたAlexander Rivesは、ESM3をさまざまな蛋白質の設計に応用することを熱望している。EvolutionaryScaleのWebサイトで公開されている1分31秒のESM3紹介ビデオでは、持続可能な開発目標 (SDGs)の達成の観点から、ニ酸化炭素をに水などへ分解する炭酸脱水酵素やプラスチックを消化するタンパク質が取り上げられている。

2024-07-09
bioRxiv 投稿に準拠した初稿
[出典] ”Simulating 500 million years of evolution with a language model" Hayes T, Rao R, Akin H, Sorfoniew NJ, Oktay D, Lin Z, Vermeil R [..] Rives A. bioRxiv. 2024-07-02 (preprint).
 https://doi.org/10.1101/2024.07.01.600583  [所属] EvolutionaryScale [*1]  , Arc Institute, UC Berkeley.
  • [*1] EvolutiobaryScaleは、ESMFold[*2]を開発していたメタのAI生物学研究チームの解散直後、そのチームリーダーであったAlexander Rivesが設立した企業であり、ESM3モデル [*3]を発表 [Work Wonders 2024-06-26]
  • [*2] 2023-04-27 タンパク質構造予測:Google/DeepMindのAlphaFoldに対してMetaからESMFold. 
  • [*3] ESM3: ジェネレーティブ・バイオロジーの画期的成果 [”AWS と EvolutionaryScale によるジェネレーティブ・バイオロジー(生成生物学)の革新” Kataoka Y. Amazon Web serviceσ ブログ. 2024-06-26.  から引用] - EvolutionaryScale の ESM3 は、配列、構造、機能を同時に推論できるバイオロジー向けの画期的で最先端の生成モデルで、従来のタンパク質言語モデルには無い機能です。38 億年の進化を経た数十億のタンパク質配列で複数のモダリティを学習した ESM3 は、さまざまなソースからの複雑なバイオロジーデータを理解し、自然界には存在しない全く新しいタンパク質を生成できます。ESM3 モデルファミリーには、3 つの独自モデル(パラメータ数 98B、7B、1.4B)と 1 つのオープンソースモデル(パラメータ数 14 億)が含まれ、オープンソースバージョンは本日から Amazon SageMaker と AWS HealthOmics で、2024 年後半に Amazon Bedrock でも利用可能になる見込みです。
[注] 以下のテキスト中の四角括弧の中の#付数字は, bioRxiv投稿中の参考文献番号を意味する。

 現存するタンパク質は、自然が数十億年という地質学的な時間を費やしてきた並行実験において、ランダムな突然変異を起こし、無数の配列、構造、および機能の観点から淘汰してきた成果である。すなわち、現存するタンパク質のパターンは、われわれまだ認識していない多様な変数が進化の過程で作用してきた結果である。

 地球上の自然の多様性を対象とする網羅的ゲノムシーケンシングプロジェクトの進行やAlphaFoldをはじめとする構造モデリングの進展と共に、何十億ものタンパク質の配列と構造がカタログ化されつつある。そうして蓄積された数十億の配列と数億の構造から、生命界における変異のパターンが明らかにされつつある。同時に、タンパク質配列の根底には、言語モデルを用いて理解できるタンパク質生物学の基本言語があるというコンセンサスが生まれつつある [#6-11]。

 すでに、タンパク質配列の言語モデル数多く開発され、評価されている [#5-10, #12-17]。言語モデルの中に現れる表現は、タンパク質の生物学的構造と機能を反映しており、それらの特性に関して教師なしで学習を経て、スケールとともに改善されることが知られている。人工知能の分野では、スケールが大きくなるにつれて能力が向上することを予測するスケーリング則が発見されている。

 ESM3は、タンパク質の配列だけでなく、構造と機能も推論するマルチモーダル生成モデルである。ESM3は、各モダリティの離散トークンに対する生成マスク言語モデルとして学習される。構造推論は、最近のタンパク質の予測モデル [#25]や生成モデル[#26-28]で採用されている3次元空間における複雑な構造や拡散ではなく、3次元原子構造を離散トークンとして符号化することで達成される。離散トークンのAll-to-Allモデリングはスケーラブルであり、ESM3はそのモダリティの任意の組み合わせでプロンプトを出すことができ、プロンプトの組み合わせに沿った新たなタンパク質の生成を可能にする。

 最大規模のESM3は、27億8,000万個のタンパク質と7億7,100億個のユニークトークンに対して、1.07×1024の浮動小数点演算 (FLOP)で学習され、980億個のパラメータを持つ。ESM3は、パラメーターのサイズがこの規模まで拡張されたことで、配列、構造、機能の表現、および生成的評価が改善された。

 ESM3はプロンプトに対して高い応答性を示し、プロンプトの複雑な組み合わせに対して創造的な解決策を見出す。すべてのスケールのモデルは、プロンプトによりよく従うようにアラインメントすることができ、より大きなモデルはアラインメントに対してはるかに良く反応し、アラインメント後に最も難しいプロンプトを解く能力を示す。

 研究チームは、ESM3を利用して、自然界に存在しなかった (知られていなかった) 新しい緑色蛍光タンパク質 (GFP) を創製した。蛍光タンパク質は、クラゲやサンゴの輝く色の原因であり、現代のバイオテクノロジーにおける重要なツールである。11本鎖のβバレルとその中心を通るヘリックスというエレガントな構造を持ち、タンパク質自身の原子から発光発色団を形成する足場となっている。このメカニズムは自然界でもユニークであり、タンパク質自身の構造から自発的に蛍光発色団を形成するタンパク質は他にない。

 研究チームが今回esmGFPと名付けた新規タンパク質は、オワンクラゲ (Aequorea victoria) GFPと36%の配列同一性を持ち、最もよく似た既知の蛍光タンパク質と58%の配列同一性を持つ。既知のGFPからこれほど遠い距離にある新しいGFPが得られたことは、ESM3を利用することで、5億年以上の進化をシミュレートしたことに相当する。

[Alexander Rivesの講演ビデオ]
2023年のMachine Learning in Computational BiologyでのAlexander Rivesの講演