crisp_bio

科学分野の比較的新しい論文と記事を記録しておくサイト: 主に、CRISPR生物学・技術開発・応用 (ゲノム編集, エピゲノム編集, 遺伝子治療, 分子診断/代謝工学, 合成生物学/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野) の観点から選択し、時折、タンパク質工学、情報資源・生物資源、新型コロナウイルスの起源・ワクチン・後遺症、機械学習・AIや研究公正からも選択

2024-11-13 2024年11月11日に、AlphaFold3のソースコードがGitHubからアカデミア(非商業的な用途に)に公開され、また、「重み」(AIモデルがどのように機能するかを調整するのに役立つ数値)も、簡単な申請フォームに記入することで利用可能になった。それをNature 誌やScience 誌などがこぞって報道した。AlphaFold3の論文がNature 誌から刊行されたことを思うと、双方の記事タイトルの副題に相当するテキストのニュアンスの違いが、興味深い:

 いずれの記事も、AlphaFold3をベースにしたオープンソースのタンパク質構造予測ツールに言及している。 Googleに次ぐ検索エンジンを開発した百度(Baidu)とTikTokを開発したByteDanceという中国の2つの企業が、AlphaFold3にインスパイアされた独自のモデルを展開し、カリフォルニア州サンフランシスコのChai Discoveryという新興企業もAlphaFold3にインスパイアされたモデルChai-1を展開している。しかし、AlphaFold3のように、創薬などの商業的応用のためにライセンスされているものは存在しない。サンフランシスコに本社を置くLigo Biosciences社もAlphaFold3の無制限バージョンをリリースした。しかし、薬物やタンパク質以外の分子をモデル化する能力など、一連の機能はまだ備えていない。

 そうした制限のないAlphaFold3のバージョンに取り組んでいるチームもある。コロンビア大学のAlQuraishiは、OpenFold3と呼ばれる完全なオープンソースモデルを年内に公開したいと考えている。これによって、製薬会社は、異なる薬物と結合したタンパク質の構造など、独自のデータを使ってモデルの独自バージョンを再学習させることができるようになり、パフォーマンスが向上する可能性がある。

 また、すでに多くの研究チームがAlphaFold3のコードを使う計画を持っている。2024年11月11日にNature Computational Science  誌に発表された、MassiveFoldと呼ばれるプログラムについての論文を執筆したチームは、AlphaFold3を自分たちのソフトウェアに統合したいと述べている。MassiveFoldは、ユーザーがAlphaFold2で多くの予測を実行するのにかかる時間を、並列コンピューティングを利用して短縮するのに役立つ。DeepMindの新しいコードを統合することで、「ユーザーはAlphaFold2でもAlphaFold3でも、(このアプローチで)最高の予測を得ることができるようになる」と、MassiveFoldの開発者で、フランスの国立研究機関であるCNRSのバイオインフォマティシャン、Guillaume Brysbaertは言う。

 当初Nature 論文が物議を醸した件について、DeepMindの科学AI部門責任者であるプPushmeet Kohliは、「学術研究者と企業研究者の双方が参画するようになっているこの分野で、出版規範についてもっと議論してほしい」とコメントしている。

2024-05-31 [参考] AlphaFold3のオープンソース化への動き 
2024-05-27 Nature誌からのコメント記事を2024-05-26の投稿に追記
2024-05-26 ScienceSCIENCEINSIDER記事に準拠した初稿

[出典] SCIENCEINSIDER “Limits on access to DeepMind’s new protein program trigger backlash - Critics accuse Nature, which published the research, of failing to meet its own transparency standards” Offord C. Science 2024-05-15. https://doi.org/10.1126/science.znxeyt5

 58日に発表されたGoolge DeepMindAIプログラムAlphaFold3は、タンパク質の構造と相互作用の予測の精度と範囲を大幅に改善し、早くも創薬の新たなツールとして期待されている。しかし、DeepMind社とこの研究を発表したNature誌は、AlphaFold3への限定的なアクセスしか提供せず、その基礎となる計算コードを公開していないとして、批判されている。


 514日現在で650人以上の署名が寄せられている公開書簡の中で、「企業には発明を利用する権利があるが、結果を再現する可能性、ましてやそれを発展させる可能性なしに学術出版物の権威を利用することは、企業を堕落させる (subvert)」、「学術雑誌が、プラグラムのコードを利用可能にすることを掲げているにも関わらず、そのポリシーを恣意的に適用することは、不適切である」としている。


 AlphaFold 3は、AlphaFold 2RoseTTAFold All-Atomのようなプログラムを大きく前進させて、タンパク質とDNARNAのような生体分子との相互作用をより正確に予測するのに役立つとされている。しかし、AlphaFold2がダウンロード可能なコードでリリースされたのに対し、AlphaFold 3は現在ウェブサーバーからのみアクセス可能であり、そのアクセスも当初1110件に限定されていた (現在は20件まで)。また、ユーザーが解析できる分子のカテゴリーにも制限がある。例えば、DeepMindのスピンオフ企業であるIsomorphic Labsの創薬事業との競合を避けるためと言われているが、タンパク質と新薬候補の相互作用を予測することはできない。


 そもそも、AlphaFold 3のコードは、Nature論文の査読過程でも入手できなかった。Fox Chase Cancer Centerの計算構造生物学者で、公開書簡の共著者であるRoland Dunbrack氏によれば、「プログラムをテストする方法がないまま原稿を受け取った」、「Nature誌に問い合わせた後、ウェブサーバーの初期バージョンにアクセスすることができたが、出版に至るまで何度もコードを要求したが返事はなかった」、「Nature誌の編集者がなぜこのような状況で査読に出したのか理解できない」。


 UCSFの構造生物学者で、公開書簡の主導者の一人であるJames Fraser氏は、「この論文にはその正当な理由が示されないまま、単に『コードは提供されていません』と書かれている」。Nature誌の投稿規定には、「論文の主な主張をサポートするコードは、査読者の要求に応じて公開されなければならない」とされており、編集方針では、「著者は、過度な修飾なしに、読者が速やかに(コードを)利用できるようにすることが求められる」と明記されている。


 この明らかな矛盾が、研究者たちの怒りを買っている。ストックホルム大学の生物物理学者で、この公開書簡に署名したErik Lindahlは、ScienceInsiderに「事実上、商業サービスの広告である」と語った。


 Nature誌は、この論文の扱いを擁護している。「あらゆる機会において透明性を高めようとしている一方で、Nature誌は、研究データやコードがオープンに利用できない状況があり得ることを受け入れている」とMagdalena Skipper編集長は声明の中で述べている。また、「(編集者は)バイオセキュリティへの潜在的な影響や倫理的な課題など、さまざまな要因を考慮する。このような場合、我々は著者と協力して、再現性をサポートする代替案を提供する」、「論文には擬似コード  (pseudocode)” (プログラムが実行するステップの説明)が含まれている」としている。


 DeepMindは以前にもバイオセキュリティを理由に自社製品へのアクセスを制限したことがあるが、研究の共著者である同社の上級研究員John Jumperは先週、Fortune誌の取材に対し、「バイオセキュリティの専門家からAlphaFold3のリスクはごくわずかであり、潜在的なメリットの方が大きいと助言された」と述べたと報じられている。一方、Nature誌のニュース [*]は、DeepMindPushmeet Kohli研究担当副社長の言葉を引用し、Isomorphic Labsが商業的な創薬計画を推進する能力を損なわないように制限が実施されたことを示唆している。

[*] NEWS “Major AlphaFold upgrade offers boost for drug discoveryNature 2024-05-08.


 公開書簡が掲載されて以来、DeepMindの研究者たちは、AlphaFold3に関するさらなる情報が提供される予定であることを示唆している。DeepMindのメディア担当者は、513日のソーシャルメディアへの投稿で、Nature掲載論文の共著者でもあるPushmeet Kohliが、ウェブサーバーの1日のリクエスト上限を20に増やしたことを発表したことをScienceInsiderに指摘した。Kohliはまた、6ヶ月以内に学術利用向けに「AF3モデルをリリースする」と表明しており、Science誌が取材した研究者たちはこの動きを歓迎している。


 UCSFの計算構造生物学者で、この公開書簡のもう一人の主催者であるStephanie Wankowicz氏は、「特にこの分野で営利企業の影響力が増していることを考えると、このエピソードが計算生物学のコミュニティに、研究コミュニケーションに関する具体的な基準を設けるよう促すことを期待している」と言う。


 Fraser氏は、「これは学術雑誌にとっても、科学的規範を守る上での自分たちの役割について考える機会である。もし学術雑誌が基準を恣意的に適用するのであれば、それは公平ではありません」とコメントしている。

2024-05-27 Nature
誌からのコメント記事

[出典] EDITORIAL “Why did Nature publish AlphaFold3 without its code?” Criticism of the journal’s decision raises important questions. We welcome readers’ views. Nature 2025-05-22.  https://doi.org/10.1038/d41586-024-01463-0

 AphaFold2の論文が刊行された際には、ソースコードが公開されたが、AlphaFold3の論文については、ソースコードに何ができるのか、どのように動作するのかを自然言語で表現する「擬似コード (Pseudocode)」が公開されるに留まった。このことについて、AlphaFold3を開発したGoogle DeepMindNatureに対して疑問や批判が集まっている。ソースコードの非公開の他にも、WebアプリケーションとしてのAlphaFold3の利用についても、創薬への利用に対する制限や、1日あたりの利用件数に制限が付けられたことに対して、研究者から批判する書簡が公開された [*1]この論説は、Natureは「世界の研究の大半が私費で [*2]行われている今、すべての研究関係者が重要な対話をする機会なのです」として、ソースコードを公開しないままの論文刊行に踏み切った理由を説明している。

[*]

  1. “AlphaFold3 Transparency and Reproducibility” 2024-05-16;この公開書簡に対して、DeepMindは「6ヶ月以内に学術研究目的にAF3モデルを公開する」とXに投稿した。
  2. AlphaFold2は、公的資金で運営されているEMBL/EBIとの共同で開発されたのに対して、AlphaFold3は、Googleの親会社であるAlphabet傘下の創薬企業Isomorphic Labsとの共同で開発された。
論文出版時にデータとコードをなぜ公開しなかったのか?

Nature誌の編集方針

 「データ、コード、関連するプロトコルを論文出版と同時に (promptly)読者に公開」とし、また「論文投稿時に編集者に公開」としている。一方で、論文が関連する研究分野における公開基準が定まっていない場合、公開するインフラストラクチャーが整っていない場合、機密保持あるいは(confidentiality)/safetysecurity/法的な観点から、データやコードを公開しないことも認めている。これには、化学分野、気候変動、およびウイルス学の論文の例がある [記事の引用文献#3, #4, #5参照]

民間資金による研究の成果発表にあり方についてのNature誌の見解

 世界の研究開発のほとんどは民間部門が資金を提供しているが、そのような研究成果の多くは査読付き学術誌に掲載されていない。Nature誌は、民間セクターと関わり、その科学者たちと協力して、彼らが査読を受け、出版できるように研究を投稿することが重要だと考えている。これにより、知識の共有、研究の検証、研究者が目指す再現性が促進される。また、製品の安全性と有効性にも貢献する。進歩には、オープンなデータとコードが必要であり、Natureはそれを引き続き支援していく。

 このNatureが目指すところに到達するには、これから段階を踏んでいく必要があり、Natureは大学と企業の研究者、科学技術政策担当者、NGO、出版社などのあらゆる関係者の意見に耳を傾ける。

このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット