[出典] Domain-specific introduction to machine learning terminology, pitfalls and opportunities in CRISPR-based gene editing. O’Brien AR, Burgio G, Bauer DC. Briefings in Bioinformatics 2020-02-02.
ゲノム編集 (以下、GE)研究分野にも、標的部位の編集効率や編集結果の予測など、機械学習 (machine learning, ML)の利用が広がっているが、誤用のリスクを伴っている。すなわち、ML分野の専門用語とMLに特有な精度の測り方のために、MLからの結果を評価することが難しく、また、誤解に至るリスクを伴っている。
Macquarie UniversityとAustralian National Universityの研究チームは今回、GEとMLの両分野のギャップを埋めることを目的として、GEでの利用例を取り上げながら、MLの使いこなし方をレビューした:
- 教師あり機械学習における学習データの判定基準の選択 (例えば、sgRNAsの効率の高さ)
- 学習に使用するデータの選択
- 機械可読型データ形式への変換方式の選択
- アルゴリズムの選択 (ランダムフォレスト、勾配ブースティング、深層学習、ベイジアン線形回帰など:crisp_bio機械学習コレクション参照)
- モデルを左右する因子の推定
- 誤差の最小化
- 研究コミュニティーとして、MLに学習させるためのデータの規模の拡大を図ると共にポジディブデータに加えてネガティブデータも揃えていくべき。
[原論文の著者の一人Gaetan Burgioのツイートのリツイートを以下に引用]
CRISP_SCIENCE@ScienceCrisp
[レビュー] CRISPR遺伝子編集分野に向けた機械学習案内
2020/02/04 12:59:39
https://t.co/9ucFPVwahQ
crisp_bio: CRISPRゲノム編集を支援する機械学習コレクション
https://t.co/4dMz5JDn5p https://t.co/s9GGi2T2fn
コメント