[出典] Domain-specific introduction to machine learning terminology, pitfalls and opportunities in CRISPR-based gene editing. O’Brien AR, Burgio G, Bauer DC. Briefings in Bioinformatics 2020-02-02

 ゲノム編集 (以下、GE)研究分野にも、標的部位の編集効率や編集結果の予測など、機械学習 (machine learning, ML)の利用が広がっているが、誤用のリスクを伴っている。すなわち、ML分野の専門用語とMLに特有な精度の測り方のために、MLからの結果を評価することが難しく、また、誤解に至るリスクを伴っている。

 Macquarie UniversityとAustralian National Universityの研究チームは今回、GEとMLの両分野のギャップを埋めることを目的として、GEでの利用例を取り上げながら、MLの使いこなし方をレビューした:
  • 教師あり機械学習における学習データの判定基準の選択 (例えば、sgRNAsの効率の高さ)
  • 学習に使用するデータの選択
  • 機械可読型データ形式への変換方式の選択
  • アルゴリズムの選択 (ランダムフォレスト、勾配ブースティング、深層学習、ベイジアン線形回帰など:crisp_bio機械学習コレクション参照)
  • モデルを左右する因子の推定
  • 誤差の最小化
  • 研究コミュニティーとして、MLに学習させるためのデータの規模の拡大を図ると共にポジディブデータに加えてネガティブデータも揃えていくべき。
[原論文の著者の一人Gaetan Burgioのツイートのリツイートを以下に引用]