- 2024年ノーベル物理学賞受賞の成功を支えた巨大タンパク質データベースは, 結晶学の専門家Helen Bermanの先見の明から始まった
[出典] NEWS Q & A "The huge protein database that spawned AlphaFold and biology’s AI revolution" Callaway E. Nature 2024-10-18. https://doi.org/10.1038/d41586-024-03423-0
2024年のノーベル賞は人工知能(AI)のものだった。物理学賞はAIの基礎となるニューラル・ネットワークのパイオニアが受賞し、化学賞は革新的なタンパク質構造予測ツール「AlphaFold」を開発した2人の科学者と、AIを取り入れて格段に強化したタンパク質設計のパイオニアが受賞した。
AlphaFoldのような画期的なツールの背後にある技術に驚嘆するのは当然のことだ。しかし、その成功の多くは、結晶学者Helen Berman (現 南カルフォルニア大学)と志を同じくする科学者たちによって1960年代に考案されたタンパク質構造のデータベースのおかげである。
タンパク質データバンク(PDB)には現在、20万以上のタンパク質の構造が保存されており、誰でも自由に利用できる。これらのデータは、AlphaFoldが配列からタンパク質の構造を予測したり、他のAIがボタンを押すだけで新しいタンパク質を想像したりするのに役立っている。
BermanはNature 誌に、シアトルにあるワシントン大学のDavid Bakerと、ロンドンにあるGoogle DeepMindのJohn Jumperが共にPDBを高く評価した (credit) したこと、他の科学分野において優れたデータをベースとするAIによるブレークスルーが進行していることを、喜んでいる、と語った。
[Q & A]
Q:PDB以前、科学者たちはどのようにタンパク質の構造を共有していたのですか?
A;PDBが誕生した時、実験的に解明されたタンパク質構造はほんの一握りでした。その頃、パンチカードか磁気テープを利用して、互いに郵送していました。
Q:PDB創設のきっかけは?
A:私は、1960年代、タンパク質の構造が明らかになり始めた頃、結晶学を専攻していた学生でした。当時、タンパク質結晶学者ではありませんでしたが、これらの構造が重要になりつつあることに衝撃を受けました。
私は、私と同じように構造に興味を持っていた数人の若い人たちと一緒に仕事をしていました。私たちの小さなグループは、タンパク質のデータバンクを作るにはどうしたらいいか、お互いに連絡を取り合い始めました。私たちがそれをそう呼んでいたかどうかは定かではありませんが、私たちが望んでいたのはそういうことでした。
Q:これらのデータをオープンにすることが重要な原則だったのでしょうか?
A:PDBの設立当初は、タンパク質の構造座標を取得し、それを失わないようにすることだけが目的でしたが、1980年代に入って、これらの構造は公衆衛生にとって重要であるという動きが始まりました。データの集積と保全は優れた科学への鍵だったのですが、当時はPDBへの登録が義務付けられていなかったことから、研究資金を提供する機関側から研究者への働きかけが必要でした。また、学術雑誌がPDBへのデータ登録を義務付けるという考えを受け入れるまでに時間がかかりました。今では、PDBにデータが登録されていなければ論文上で構造を発表することはできません。
Q:PDBがなければAlphaFoldは誕生しなかったと思いますか?
A:AlphaFoldがどのように機能するか私が知っている範囲では、非常に難しかったと思います。PDBのデータには2つの重要な点がありました。一つには、専門のキュレーターによってデータが検証されていることです。もう一つには、データが完全に機械可読だったことです。
Q:AlphaFold、RoseTTAFold、タンパク質設計ソフトウェアのようなツールで、生物学におけるAI革命を見て, どのように感じられますか?それらはすべてPDBでトレーニングされたものです。
A:鳥肌が立つ思いです。当時私が考えていたのは、タンパク質の配列と構造の関係をよりよく理解できるようになるということでした。AlphaFoldから生まれた結果や、David Bakerがタンパク質設計で行ったすべての仕事を見て、本当に、本当に、幸せを感じています(I am really, really happy about ...)。
Q:それは、科学におけるAIのブレークスルーをもたらした実験データの重要性を意味していますか?
A:はい、100%そうです。人々は、「PDBのデータは本当に特別だ(really specia)」と言うでしょう。しかし私たちは、PDBの何が特別なのかを知っています。データの扱い方、データの表現方法、データの収集方法を理解するのに長い長い時間がかかりました。私たちPDBコミュニティは、その方法を知っています。
私は、他のコミュニティもこれを行うことができ、行うべきであり、行わなければならないと考えています。そうでなければ、大きなブレークスルーを達成することはできないからです。タンパク質の予測やタンパク質設計を可能にした方法論は、化学でも同じことが起こります。地質学でも起こりうる。物理学でも起こりえます。
コメント