crisp_bio

科学分野の比較的新しい論文と記事を記録しておくサイト: 主に、CRISPR生物学・技術開発・応用 (ゲノム編集, エピゲノム編集, 遺伝子治療, 分子診断/代謝工学, 合成生物学/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野) の観点から選択し、時折、タンパク質工学、情報資源・生物資源、新型コロナウイルスの起源・ワクチン・後遺症、機械学習・AIや研究公正からも選択

- 非営利の生物学医学研究所であるArc Instituteが、NVIDIA10xGenomicsUltima Genomicsのスポンサーを得て企画

 ヴァーチャル・セル・コンペティション(Virtual Cell Competition: 以下、VCC)は、タンパク質構造予測技術の進化を促したCASP(Critical Assessment of protein Structure Prediction: タンパク質構造予測精密評価)コンペティション*に倣って、企画された。
[*] 2018年のCASP13でGoogle DeepMindのAlphaFoldが優勝し、続く2020年のCASP14で、AlphaFold2が極めて高い予測精度で優勝した。

 細胞が内部からのシグナルや外部からの刺激にどのように反応するかを理解し、予測し、最終的にはプログラムすることは、生物学における根本的な課題である。

 scRNA-seq技術の進歩により、遺伝的および化学的摂動 (perturbation) に対する細胞応答の大規模な測定が可能になり、細胞の予測モデリングを追究できる刺激的な時代が来た。VCCは、遺伝的・化学的摂動に対する細胞応答を予測する計算モデルの評価と改善を目的とした、コミュニティ主導で定期的に開催されるオープンなチャレンジである。

 その中でVCC 2025では、コンテクストの一般化に焦点を当てる。参加者には、神経系細胞、心筋細胞、血液系細胞などへの分化が確認されているH-1ヒト胚性幹細胞株(H1 hESC)における摂動の影響を予測することが求められる。具体的には、VCC 2025のために生成された新しい実験データを用いて、これらの影響を予測するモデルを構築する。

 評価の結果、上位3つのモデルには、それぞれ10万ドル、5万ドル、2万5千ドルの賞金が授与される。

[詳細]
  • VCCは、AIベースの細胞モデリングの進歩を加速させるために設計されたベンチマーク・コンペティションである。標準化された高品質の単一細胞データを用いて、計算モデルが遺伝子摂動に応じた細胞の遺伝子発現の振る舞いをどの程度正確に予測できるかを評価する。
  • VCC2025は、生物学的コンテクスト全体にわたる予測の一般化に重点を置いている。参加者は、他のコンテクストからのトレーニングデータを用いて、H1 hESC における遺伝子発現の変化を予測する。これは、AIにおける「Fewーshot学習」に相当する。
  • これまでの低分子による摂動や粗い表現型出力を用いる取り組みとは異なり、VCCでは、精密な遺伝子摂動に対するトランスクリプトームの応答の粒度の細かい予測を目標としており、生物学的理解とモデリング能力をより深く検証する。
  • 主催者は厳密な評価を可能にするためのデータセットを用意した。H1 hESCに加えた2,500件のCRISPRi摂動を含むシングルセル機能ゲノミクス(scFG)データセットから始め、応答の強度と多様性に基づいて300件の摂動を選択し、モデルのトレーニングに使用できる既存の摂動データセットとの重複を最大化しながら、これらの300個の遺伝子摂動を中心に、より深いリード深度と摂動あたり中央値1,000個の細胞を持つ高品質なデータセットを生成した。
  • モデルの性能評価には、3つの相互補完的な指標、すなわち、(1) 特定の遺伝子摂動に対する遺伝子発現変化を予測するモデルの精度、(2) 予測された遺伝子発現変化と他の摂動に対する実験的グランドトゥルース**値の類似度、(3) すべての遺伝子における摂動後のモデル予測遺伝子発現と真の発現との平均絶対誤差、が用いられる。モデルは、すべての指標において優れた性能を示すことが求められる。[**] 検証済みの真のデータ
  • 参加者には、トレーニング用に150個の遺伝子摂動、検証(リーダーボード)用の50個の遺伝子摂動、そして最終評価用の100個の遺伝子発現データが提供される。この設定により、公平で再現性の高い比較が可能になり、段階的なモデル改良が促進される。
  • VCCは、リーダーボード・コンテスト(モデルのランキング) としてだけでなく、生物学における標準の定義、ボトルネックの特定、そして堅牢な予測ツールの構築を目指すコミュニティ主導の取り組みとして設計されている。
  • Arc Instituteは、Tahoe-100MscBaseCountを含む、より広範なVirtual Cell Atlasでこのコンテストをサポートしている。これらは3億5000万以上の単一細胞プロファイルを含む2つの大規模リポジトリであり、参加者はモデル開発にあたって、こうした前例のないトレーニングデータにアクセスできる。
  • VCCを介して、組み合わせ(combinatorial)摂動の予測、細胞タイプ間の一般化、プロテオミクスやエピゲノミクスなどのマルチモーダル生物学的データの統合など、将来の取り組みの基盤を築き、包括的な細胞のデジタルツイン***の実現が近づいてくる。[***] リアル(物理)空間にある情報をIoTなどで集め、送信されたデータを元にサイバー(仮想)空間でリアル空間を再現する技術 [SoftBank ビジネスブログ 2020-09-18]
  • VCCは、最終的にヴァーチャル・セルの「チューリング・テスト」となることを目指している。すなわち、AIモデルが現実の生物系と区別がつかないほど細胞の挙動をシミュレーションできるかどうかを評価する場であり、定量的細胞生物学の未来に向けて進化し続ける野心的なベンチマークである。
[出典] 
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット