[出典] "Deep learning for protein design" in TECHNOLOGY FEATURE "Seven technologies to watch in 2024" Eisenstein M. Nature 2024-01-22. https://doi.org/10.1038/d41586-024-00173-x

 Nature 誌の「2024年に注目すべき7つの技術」の一つに、深層学習によるタンパク質設計が取り上げられた。

 今やデノボ・タンパク質設計は、酵素やその他のタンパク質を創出するためのツールとして成熟してきた。ワシントン大学の生化学者でDavid Baker チームと共同でタンパク質ベースのワクチンや薬物伝達担体を設計しているNeil Kingは、「1年半前には不可能だったことが、今ならできるのです」と言う。

 このタンパク質設計の進歩の多くは、タンパク質の塩基配列と構造を結びつける膨大なデータセットの増加によるものだ。しかし、AIの一種である深層学習 (ディープラーニング) の洗練された手法無くして達成されなかった。

 「配列をベースとする」アプローチは、 大流行中のチャットボットChatGPT [*]のようなツールのベースになっている大規模言語モデル (large language models: LLM) を使用する。タンパク質配列をポリペプチドの "単語 "で構成される文書のように扱うことで、LLMのアルゴリズムは実世界のタンパク質が3次元構造を形作る脚本 (playbook) の根底にあるパターンを見分けることができる。2022年にProtGPT2と呼ばれるアルゴリズムを開発したスペイン、バルセロナ分子生物学研究所のタンパク質生化学者、Noelia Ferruzは言う、「このアルゴリズムは、実験室で合成タンパク質を作製すると、安定して折り畳まれる合成タンパク質を一貫して作り出すことができる」[1]。Ferruzが共同開発したZymCTRLと呼ばれる別のツールは、配列データと機能データを利用して、天然に存在する酵素ファミリーの新たなメンバーを設計する [2]

 配列をベースとするアプローチは、既存のタンパク質の特徴をベースに新たなフレームワークを形成することができるが、特定の構造要素または特徴を帯びたタンパク質を設計することには長けていない。例えば、特定のターゲットに予測可能な機構で結合するタンパク質の設計には向いていない。そうしたテーラーメード設計には、「構造をベースとする」アプローチが
適している。2023年には、この種のタンパク質設計アルゴリズムにも顕著な進歩が見られた。最も洗練されたものは、DALL-Eなどの画像生成 (image-generating) ツールのベースになっている「拡散 / diffusion」モデルを用いたものである。これらのアルゴリズムは、まず、大量の実構造からコンピュータが生成したノイズを除去するように訓練され、ノイズから現実的な構造要素を識別することを学習することにより、生物学的に妥当な、ユーザーが定義した構造を形成する能力を獲得する。

 Baker研究チームが開発したRFdiffusionソフトウェア [3] や、マサチューセッツ州サマービルにあるGenerate Biomedicines社のChromaツール [4] は、この戦略を利用して驚くべき効果を上げている。例えば、Baker研究チームは、RFdiffusionを利用して、目的のターゲットとぴったり接する界面を形成するタンパク質を創出している。RFdiffusionの新しい「全原子」モデル [5] では、DNAや低分子、さらには金属イオンといった非タンパク質ターゲットの周囲にタンパク質を配置することができる。その結果、人工酵素、転写制御因子、機能性バイオマテリアルなどを創出する可能性が広がった。

[*] ChatGPTは, 多分, 2025年注目の技術に

 Nature 誌の読者の多くが深層学習の手法に注目しているであろう。しかし、そのようなツールのひとつは最終選考に残らなかった。ChatGPTを代表とするチャットボットは、多くの研究者が日常利用するツールになりつつあり、2023年のNature's 10 round-upの一部 [6] として賞賛された。9月に行われたNature 誌の調査 [7]では、ChatGPTを最も有用なAIベースのツールとして挙げており、コーディング、文献レビュー、管理業務におけるその可能性に関心を示している。

 このようなツールは、英語が母国語でない人たちが論文を洗練させ、それによって出版やキャリアアップへの道を容易にするのに役立ち、公平性の観点からも価値があると証明されている。しかし、このようなアプリケーションの多くは、研究プロセスを変革 (tranform)するというよりは、研究プロセスの省力化 (labour-saving)を実現するものである。さらに、ChatGPTが誤解を招くような回答や捏造された回答を飽きることなく出し続けることは、調査回答者の3分の2以上が最も懸念していることである。監視する価値はあるが、これらのツールが成熟し、科学の世界でより広範な役割を確立するには時間が必要である。

[参考文献]
  1. "ProtGPT2 is a deep unsupervised language model for protein design" Ferruz N, Schmidt S & Höcker B. Nature Commun. 2022-07-27. 
  2. "ZymCTRL: A Conditional Language Model for the Controllable Generation of Artificial Enzymes" Munsamy G, Lindner S, Lorenz P & Ferruz N. Machine Learning in Structural Biology. 2022. 
  3. "De novo design of protein structure and function with RFdiffusion" Watson JL, Juergens D, Bennett NR et al. Nature 2023-07-11/08-31. ;crisp_bio 構造予測ネットワークと拡散生成モデルを統合することで、汎用性が高く精密なタンパク質設計を実現
  4. "Illuminating protein space with a programmable generative model" Ingraham JB, Baranov M, Costello Z. et al. Nature 2023-11-30. 
  5. "Generalized Biomolecular Modeling and Design with RoseTTAFold All-Atom" Krishna R, Wang J, Ahern W [..] Baker D. bioRxiv 2023-10-09 (preprint). ;crisp_bio 生体分子全般のモデリングと設計を実現する全原子RoseTTAFoldとその拡散モデル版を開発
  6. "ChatGPT and science: the AI system was a force in 2023 — for good and bad" Van Noorden R, Webb R. Nature 2023-12-13.  
  7. "AI and science: what 1,600 researchers think" Van Noorden R, Jerffrey JM. Nature 2023-09-27. 
  8. crisp_bio 2023-07-22 タンパク質生成AI:AIによるバイオ医薬品のデノボ設計