crisp_bio

科学分野の比較的新しい論文と記事を記録しておくサイト: 主に、CRISPR生物学・技術開発・応用 (ゲノム編集, エピゲノム編集, 遺伝子治療, 分子診断/代謝工学, 合成生物学/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野) の観点から選択し、時折、タンパク質工学、情報資源・生物資源、新型コロナウイルスの起源・ワクチン・後遺症、機械学習・AIや研究公正からも選択

[出典] NEWS FEATURE "AI tools are designing entirely new proteins that could transform medicine" Callaway E (Senior Reporter). Nature 2023-07-11. https://doi.org/10.1038/d41586-023-02227-y

 ここ数年、UW Institute for Protein DesignのDavid Baker (TED講演) が率いるチームや他の研究者たちは、AIベースのタンパク質設計ツールを数多く発表している。これらのツールが用いる手法のひとつは「幻視化 (hallucination)」と称されるアミノ酸列をランダムに作成し、それをAlphaFoldやRoseTTAFoldと呼ばれる類似のツールで最適化する。もうひとつは「インペインティング (inpainting) 」と呼ばれるもので、タンパク質の配列や構造から指定された断片を取り出し、RoseTTAFoldを使ってそれを中心に分子の残りの部分を構築する。

 しかし、これらのツールはタンパク質のデノボ設計ツールとしては完璧には程遠かった。実験によると、幻視化でデザインした構造は多々、然るべき3次元構造をとるとなく、試験管の底に沈んでしまうことがあった。また、幻視化は大きな構造の設計には向いていなかった(ただし、他の研究チームが2月のプレプリントで、この手法を使ってより大きな分子を設計できることを示した)。一方で、インペインティングは、短い配列からの設計にくいていなかった。この手法で理論的なタンパク質構造が得られたとしても、与えられた課題の解決に至る多様な解にまでは至らなかった。

 その中で、ここ数ヶ月のうちに、RFdiffusion [*1]および類似のタンパク質設計AI [*2, *3]が登場した。これらは、Stable Diffusion XL (SDXL)DALL-E 、Midjourney (ミッドジャーニー) といった画像生成AI (ニューラルネットワーク)と同じ原理に基づいている。これらの「拡散 (diffusion)」ネットワークは、画像であれタンパク質の構造であれ、既存データを学習し、次第にノイズが大きくなり、最終的には学習開始時の画像や構造とは似ても似つかなくなる。その後、拡散ネットワークはデータを「ノイズ除去 (denoise)」することを学習し、タスクを逆に実行する。

 RFdiffusionのようなタンパク質を対象とするネットワークは、Protein Data Ban (PDB)に保存されている数万件のタンパク質構造を学習する。REdiffusionは、ランダムに並べられたアミノ酸 ('total noise')から「このノイズを生み出したタンパク質は何なのか」の問いを繰り返してノイズを除去していき、新しいタンパク質に似たものを生成する。

 Bakerチームが、RFdiffusionにタンパク質の長さだけを指示すると、PDB公開データで学習させた結果とは異なり多様でリアルに見えるタンパク質を生成する。続く「ノイズ除去」の過程で特定の目的に合わせた指示を与える'コンディショニング (conditioning)'と呼ばれるプロセスで、目的の機能を発揮するであろうタンパク質の設計が生成される。

 例えば、RFdiffusionのコンディショニングを介して、特定のフォールドを含むタンパク質や、他の分子の表面に寄り添う (nestle) ことができるタンパク質 (結合の基礎となる相互作用) を精製した [*1]。Gevorg Grigoryan (Dartmouth U) の研究チームは、Chromaと呼ばれる拡散ネットワークを開発し、英語で使われる26の大文字やアラビア数字に似た形状のタンパク質を作るようにコンディショニングした [*3]。 

 RFdiffusionはまた、薬物やワクチンを送達できるかもしれない複雑なナノ粒子に自己集合するタンパク質を作ることに長けていることが示されたが、標的のタンパク質に結合するタンパク質 (バインダー) の設計に真価を発揮するようだ。Bakerチームは、RFdiffusionを利用して、癌や自己免疫疾患などに関与するタンパク質のバインダーを作出し、RFdiffusioによる創薬の可能性を示した。

設計したタンパク質の機能検証

 Bakerチームでは、膨大な新規タンパク質の設計が可能になったことから、それらが意図したとおりに機能するかどうかのテストが深刻なボトルネックになっている。マサチューセッツ州ケンブリッジにあるマイクロソフト・リサーチの生物医学機械学習研究者 (biomedical machine-learning researche)、Kevin Yangは、「一人の機械学習研究者が、100人の生物学者を何カ月も忙しくさせるだけの設計を生み出すことができる」と言う。

 しかし、RFdiffusionの設計は本物である兆しが見えている。Bakerチームは、多くの癌で過剰に活性化するシグナル伝達分子であるp53の重要な部分を含むタンパク質を設計させ、得られた95種類の設計のタンパク質を、大腸菌で発現・精製し、機能をアッセイした結果、その半数以上がp53の本来の標的であるMDM2と結合する能力を維持したいることを同定した。しかも、最も優れた設計の結合親和性は、天然のp53の約1,000倍に及んだ。この一連の結果は、幻視化による設計からは得られなかった。

 Bakerによれば、「RFdiffusionで設計したバインダーの10〜20%が実用になるほどに高親和性で標的に結合する。一方で、バインダーの設計は機械学習では不可能であり、また、これまでのAIでは1%未満」であった。UWの同僚である生化学者のMatthias Gloeglは、「最近、成功率が50%に近づいている。あり得ない (“It’s really insane”) 」と言う。

 Baker論文の共著者の一人である進化生物学者 Sergey Ovchinnikov (U Cambridge, MA) によれば、RFdiffusionのクラウドベース・バージョンは、6月下旬までに毎日約100人のユーザーを獲得したという。生化学者Joel Mackay (U Sydney) ジョエル・マッケイは、RFdiffusionを使って転写因子に結合するタンパク質を設計し、細胞内で意図したとおりに遺伝子発現を変化させることができるかどうかをテストしている。

将来展望

 免疫学者やバイオテクノロジー企業が特に興味を持っている応用例のひとつは、T細胞に対する抗体やT細胞の受容体など、より複雑なバインダーの設計である。このようなバインダーは、RFdiffusionがこれまで得意としてきた平らな界面とは対照的に、標的に結合する柔軟なループを帯びている。Ovchinnikovらによれば、一般的に、さまざまな形状に変化する能力を持つ柔軟な領域によって機能が左右される生体分子を設計するのは難しいという。こうした特徴は、AIを使ってモデル化するのが難しいことが判明している。

 計算生物学者のTanja Kortemme (UCSF) は、RFdiffusionを使って、センサーとして、あるいは細胞を制御するスイッチとして使えるタンパク質を設計している。Kortemmeによれば、タンパク質の活性部位が数個のアミノ酸の配置に依存する場合、AIネットワークはうまく機能するが、より複雑な活性部位を持つタンパク質の設計には、柔軟性が必要と言う。

 最新の拡散法のもうひとつの限界は、天然のタンパク質とは大きく異なるタンパク質を作れないことだとYangは言う。それは、AIシステムは、その製作者たちによって、特徴づけをした既存のタンパク質だけを学習させられているため、それに似たタンパク質を作りがちだからだとYangは言う。斬新なタンパク質を生成するには、構造と機能の関係をより深く理解する必要があるだろう。そうすれば、天然のタンパク質が進化したことのないような機能を発揮するタンパク質を、より簡単に設計できるようになるかもしれないと、Yangは言う。

 計算生物学者のMohammed AlQuraishi (Columbia U) によれば、「最新のタンパク質設計ツールは、結合する標的のタンパク質の表面構造といった形状の情報を与えることで、目的とする機能を果たすタンパク質を設計するツールとして強力である。しかし、RFdiffusionのようなツールは、形状の如何にかかわらず目的とする機能を果たすタンパク質といった指示には対応することができない」

 Grigoryanによれば、将来のタンパク質設計ツールには、多くの異なる基準に合致したタンパク質を作り出す能力も必要になるという。潜在的な治療用タンパク質は、そのターゲットに結合するだけでなく、他のターゲットには結合せず、大量生産が容易な特性を持っていなければならない。

研究者たちが模索している一つの方向は、Midjourneyのような画像生成AIのように、平易なテキストで指示を与えるようにすることである。「タンパク質の説明を書き、それを合成してテストすることができるようになることは、本当に想像できます」とワトソンは言う。

 Grigoryanらは、この目標に向けて一歩を踏み出した。2022年12月に発表されたプレプリント3では、Chromaに、設計に説明を付加するように訓練し、また、「CHADドメインを持つタンパク質」(複数のらせんを組み込んだタンパク質の形状)や「アミノトランスフェラーゼの結晶構造」(タンパク質の生成と分解に関与する酵素)などのテキストベースの指示を理解するようにした。

 RFdiffusionを利用してJuergensが数分で設計したタンパク質は、3次元構造のモデルに過ぎない。その後、Juergensは別のAIツールを使って、その構造に折り畳まれるはずのアミノ酸の配列を設計する。最終に、その配列をAlphaFoldに与えて、設計した折りたたみ構造を予測するかどうかを確認する。AlphaFoldが予測したアミノ酸配列からの予測構造と設計図の違いは平均1Å (水素原子の幅) に過ぎなかった。Baker論文の筆頭著者Joseph L. Watsonは、「これは設計の成功と言える精度です。あとは、この大腸菌で生産・精製したタンパク質が細胞なでどのように機能するかを見るだけです」言う。

[*] 引用文献
  1. "De novo design of protein structure and function with RFdiffusion" Watson JL, Juergens D, Bennett NR, Trippe BL, Yim J [..] Baker D. Nature 2023-07-11
  2. Generating Novel, Designable, and Diverse Protein Structures by Equivariantly Diffusing Oriented Residue Clouds" Lin Y, AlQuraishi M. arXiv. 2023-01-29 (preprint)
  3. "Illuminating protein space with a programmable generative model" Ingraham J [..] Grigoryan G. bioRxiv. 2022-12-02 (preprint)
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット