crisp_bio

論文・記事紹介:CRISPR生物学・技術開発・応用 (ゲノム工学, エピゲノム工学, 代謝工学/遺伝子治療, 分子診断/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野); タンパク質工学;情報資源・生物資源;新型コロナウイルスの起源・ワクチン・後遺症;研究公正

[出典] Domain-specific introduction to machine learning terminology, pitfalls and opportunities in CRISPR-based gene editing. O’Brien AR, Burgio G, Bauer DC. Briefings in Bioinformatics 2020-02-02

 ゲノム編集 (以下、GE)研究分野にも、標的部位の編集効率や編集結果の予測など、機械学習 (machine learning, ML)の利用が広がっているが、誤用のリスクを伴っている。すなわち、ML分野の専門用語とMLに特有な精度の測り方のために、MLからの結果を評価することが難しく、また、誤解に至るリスクを伴っている。

 Macquarie UniversityとAustralian National Universityの研究チームは今回、GEとMLの両分野のギャップを埋めることを目的として、GEでの利用例を取り上げながら、MLの使いこなし方をレビューした:
  • 教師あり機械学習における学習データの判定基準の選択 (例えば、sgRNAsの効率の高さ)
  • 学習に使用するデータの選択
  • 機械可読型データ形式への変換方式の選択
  • アルゴリズムの選択 (ランダムフォレスト、勾配ブースティング、深層学習、ベイジアン線形回帰など:crisp_bio機械学習コレクション参照)
  • モデルを左右する因子の推定
  • 誤差の最小化
  • 研究コミュニティーとして、MLに学習させるためのデータの規模の拡大を図ると共にポジディブデータに加えてネガティブデータも揃えていくべき。
[原論文の著者の一人Gaetan Burgioのツイートのリツイートを以下に引用]

このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット