crisp_bio

科学分野の比較的新しい論文と記事を記録しておくサイト: 主に、CRISPR生物学・技術開発・応用 (ゲノム編集, エピゲノム編集, 遺伝子治療, 分子診断/代謝工学, 合成生物学/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野) の観点から選択し、時折、タンパク質工学、情報資源・生物資源、新型コロナウイルスの起源・ワクチン・後遺症、機械学習・AIや研究公正からも選択

[出典] 
  • RESEARCH BRIEFINGS "Machine-learning model makes predictions about network biology" Theodoris CV, Ellinor PT. Nature 2023-05-31. https://doi.org/10.1038/d41586-023-01504-0
  • 論文 "Transfer learning enables predictions in network biology" Theodoris CV [..] Ellinor PT. Nature 2023-06-15. https://doi.org/10.1038/s41586-023-06139-9 [著者所属] Dana-Farber Cancer Institute, Broad Institute of MIT and Harvard, Boston Children’s Hospital, Harvard Medical School Genetics Training Program, Massachusetts General Hospital, Bayer US LLC, Harvard T.H. Chan School of Public Health.

[課題設定]

 多種多様な遺伝子間の相互作用のネットワーク (遺伝子ネットワーク) のモデルは、生物学的過程と疾病過程を理解し、創薬標的を同定するために極めて有用である。遺伝子ネットワークのマッピングにはしかし、そのモデル構築に必要な遺伝子間の繋がりを学習するために、大量の遺伝子発現データを必要とする。したがって、希少疾患や臨床的にアクセスしにくい組織に影響を及ぼす疾患など、取得可能なデータが限られている環境における遺伝子ネットワークのマッピングは困難であった。

 そうした状況の中で近年、シーケンシング技術の進歩と普及により、獲得可能なデータが限られていた環境での遺伝子発現データも急速に拡大してきた。並行して、自然言語理解やコンピュータビジョン (computer vision) の研究分野で、転移学習 (transfer learning) が、画期的な成果をあげてきた。転移学習は、大規模な一般的なデータセットで事前学習させた深層学習モデルを、データが限られており学習の対象としていなかった事象のモデルへと微調整 (fine-tune) していく機械学習の手法である。

  Dana-Farber Cancer InstituteやBroad Institute を主とする研究チームは今回、大規模で一般的な遺伝子発現データセットを用いて事前学習させることで、遺伝子ネットワークのダイナミクスを「理解 (understand)」した深層学習モデルを構築することで、データが乏しい過程についても、遺伝子相互作用や細胞の状態に関する予測を可能にすることを目指した。

[成果]

 研究チームは、一般に公開されている約3000万個の単一細胞の遺伝子発現プロファイルを集積したデータセット (Genecorpus-30Mと命名) を構築し、このデータセットを用いて、遺伝子ネットワーク・ダイナミクスの基本的理解を得るために、Geneformerと命名 [*1]することになる深層学習モデルを事前学習させた 。
[*1] Gene と transformerからの造語

 Geneformerの事前学習は、完全な自己教師あり学習  (self-supervised learning: SSL) であり、ラベルが付されていないデータから学習する。また、Geneformerは'Attention base' [*2]の深層学習モデルであり、どの遺伝子に機械学習的な注意を払うべきか (重みをつけるか) を学習する。
[*2] 自然言語研究を中心に発展した深層学習の要素技術の一つであり、入力されたデータのどこに注目すべきかを動的に特定する [Qiita【深層学習】図で理解するAttention機構から引用] 

 この自己教師付きの事前学習を通して、Geneformerは、転写因子をコードする遺伝子や、遺伝子ネットワークの中心的な制御ノードなど、細胞内で重要な役割を持つ遺伝子により大きな注意を払うように学習した [文末の"遺伝子ネットワークのダイナミクスを学習する機械学習モデル"の項参照]。

 Geneformerはまた、コンテクストを認識し、各細胞のコンテクストに特化した予測を可能にする。この機能は、遺伝子の機能が、例えば異なる細胞タイプ、発生段階、病気の状態などで異なることを考えると、極めて重要である。

 事前学習によって、Geneformerには、どの遺伝子が他のどの遺伝子の発現に影響を与えるかなど、遺伝子ネットワークの階層構造がコード化されており、データが乏しい過程のモデル化に展開可能であった:
  • Geneformerを遺伝子ネットワークのダイナミクスやDNA-タンパク質複合体であるクロマチンの修飾に関連する多様なタスクのために改良すると、標準的な代替アプローチと比較して予測精度が一貫して向上した。
  • 心筋疾患に特異的な限られた遺伝子発現データを用いて微調整したところ、Geneformerは治療標的候補を同定した。
  • iPS細胞に基づく心筋疾患モデルにおいて、これらの候補のうち2つをターゲットにしたところ、iPS細胞由来の心筋細胞が生み出す収縮力が機能的に改善した。
 Geneformerで注目すべきは、より大規模で多様なデータセットによる事前学習が、学習対象でなかった過程に対するGeneformerの予測力を一貫して向上させたことである。このことは、公開されている遺伝子発現データの量に加えてマルチモーダルなデータが増えるにつれて、今回検討した例よりもさらにタスク固有のデータが乏しい、よりとらえどころのない状況においても、さらに優れた予測が可能になることを示唆している。

[遺伝子ネットワークのダイナミクスを学習する機械学習モデル] Fig. 1参照
  • Geneformerは複数のネットワーク層を含み、これらの層の接続強度 (または重み)を修正することによって、異なる遺伝子に機械学習モデルが「attention」を払うように学習する。 
  • 次に、ネットワークの重みのパターンをコピーし、次に「微調整」層を追加することで、Geneformerは、限られたデータしかない多数の異なる事象に対処するために、遺伝子ネットワークに関する知識を転送する。
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット