タグ:機械学習-AI

1. CRISPR/CasシステムにおけるCRISPRアレイの作られ方 
[出典] "The size of the immune repertoire of bacteria" Bradde S, Nourmohammad A, Goyal S, Balasubramanian V. PNAS 2020-03-10; "CRISPR recognizes as many phage types as possible without overwhelming the Cas machinery" Deem MW. PNAS 2020-03-24

2. ファージのチャレンジに応じたバクテリアがCRISPRアレイに取り込むスペーサは液体培養では単一、固体培養では多様なスペーサを獲得することと、その意味
[出典] "Co-evolution within structured bacterial communities results in multiple expansion of CRISPR loci and enhanced immunity" Pyenson NC, Marraffini LA. eLife 2020-03-30

3. Cas12a/crRNA/dsDNA三者複合体の形成からDNA切断までの反応過程の動態モデル
[出典] "Conformational dynamics and cleavage sites of Cas12a are modulated by complementarity between crRNA and DNA" Zhang L [..] Chen C.iScience Accepted 2019-08-02Conformational dynamics and cleavage sites of Cas12a
4. #深層学習により、CRISPR/Cas9ゲノム編集におけるオフターゲット作用とオンターゲットのバランスを取るのに最適なsgRNAsの設計
[出典] "Optimized sgRNA design by deep learning to balance the off-target effects and on-target activity of CRISPR/Cas9" Jie Lan, Yang Cui, Xiaowen Wang, Guangtao Song, Jizhong Lou. bioRxiv 2020-03-05

5. バクテリアにおけるCRISPRaの活性はプロモーターと標的位置に依存する
[出典] "Effective CRISPRa-mediated control of gene expression in bacteria must overcome strict target site requirements" Fontana J, Dong C [..] Carothers JM, Zalatan JG. Nat Commun 2020-04-01
CRISPR 6 CRISPR 4 

6. 著者らが開発した哺乳類細胞でのCas9スクリーニング法を介して、小型 (3.3 kb)でNNGG PAMを認識し、高活性を発揮し、AAVで容易にデリバリー可能で、CBEとABEのエフェクタとしても機能するStaphylococcus auricularis由来Cas9 (SauriCas9)を発見
[出典] "A compact Cas9 ortholog from Staphylococcus Auricularis (SauriCas9) expands the DNA targeting scope" Hu Z, Wang S, Zhang C, Gao N, Li M, Wang D, et al. PloS Biol 2020-03-30

7. 小規模なin/del変異を対象として、1回のPCR反応で野生型、ヘテロ型およびホモ型変異アレルの同時同定を可能に - CRISPR遺伝子編集結果の評価にも利用可能
[出典] "Single-tube genotyping for small insertion/deletion mutations: simultaneous identification of wild type, mutant and heterozygous alleles" Lin B, Sun J, Fraser DC. Biol Methods Protoc 2020-03-28

8. CRISPR/Cas9またはsiRNAによるゲノムワイドスクリーンと#機械学習による機能ゲノミクス
[出典] "KCML- a machine‐learning framework for inference of multi‐scale gene functions from genetic perturbation screens" Sailem HZ, Rittscher J, Pelkmans L. Mol Syst Biol 2020-03-06KCML (Knowledge‐ and Context‐driven Machine Learning)

[出典] "CRISPR-based surveillance for COVID-19 using genomically-comprehensive machine learning design" Metsky HC, Freije CA, Kosoko-Thoroddsen TSF, Sabati PC, Myhrvold C. bioRxiv 2020-03-02

 SARS-CoV-2のサーベイランスは3つの課題を伴っている:(1) 現行の検査能力を超えたアウトブレイクに即応する; (2) SARS-CoV-2と極めて近縁なコロナウイルスの種と亜種から峻別する; (3) COVID-19患者は他の呼吸器ウイルスに感染している場合または共感染している可能性がある[medRxiv 2020-02-18]ことから、他のウイルスも同定する必要がある。
  • Broad Instituteの研究グループは、SHERLOCKによる核酸検出アッセイの迅速な設計 (RPAプライマーとLwaCas13a crRNAsの設計)を可能とするアルゴリズムと機械学習モデルを開発し、ADAPTシステム(原稿準備中)を構築した 。
  • ADAPTを利用して、SARS-CoV-2と系統的に近いウイルスおよび臨床症状が似ているウイルスを含む計67種類のウイルスの種と亜種を検出するアッセイ系を設計した (Webサイトのキャプチャを下図に引用)。2020-03-05 21.33.18
  • 合成SARS-CoV-2 RNAをモデルとして、SHERLOCK (LwaCas13aを使用)のSARS-CoV-2の検出限界として、既報のDETECTRSHERLOCK の感度がそれぞれ70-300 cp/µlと10–100 cp/µlであったのに対して、10 cp/μlを達成し、また、先の課題解決が可能なことを示した。
  • 共著者の一人Pardis C. SabetiはSherlock Biosciencesの共同設立者の一人でありアドバイザーである。

[出典]  "A Deep Learning Approach to Antibiotic Discovery" Stokes JM [..] Barzilay R, Collins JJ. Cell 2020-02-20 ; NEWS "Artificial intelligence yields new antibiotic" MIT News 2020-02-20

# HAL 9000は、SF小説およびSF映画の『2001年宇宙の旅』・『2010年宇宙の旅』などに登場する、人工知能 (AI)を備えた架空のコンピュータ (ウィキペディアのHAL 9000  より)

 MITを主とする研究グループは、広大な化合物空間から抗菌性を帯びた分子をこれまでにない短期間でin silicoスクリーン可能とする深層学習モデルを構築し、halicinを始めとする一連の有望な抗生物質候補を発見した。

深層学習モデル構築
  • In silicoスクリーニングに利用されてきた分子モデルは、一連の官能基の有る無しを反映した特徴ベクトルや計算可能な特性の記述子に基づくモデルであり、専門家の知識に駆動されたモデルであった。
  • 従来モデルに対して今回のモデルは、化合物のグラフ表現と抗菌活性を紐付ける深層ニューラルネットワーク (Message Passing Neural Network [1-2])により自動構築されるデータ駆動型のモデルである: [1] Predicting Properties of Molecules with Machine Learning. Dhal G (Google Brain Team). Google AI Blog 2017-04-07; [2] Neural Message Passing for Quantum Chemistry. Gilmer et al. arXiv.org 2017-06-12.
  • FDA承認薬1,760種類と動植物・微生物由来の天然物800種類の計2,560種類から重複を除いた2,335種類の化学構造と、大腸菌 (E. coli BW25113)に対する増殖阻害活性データを、深層ニューラルネットワークに学習させた。
Broad Instituteの次世代薬剤ライブラリーDrug Repurposing Hub (Nat Med, 2017; Webサイト)の探索からhalicin
  • モデルに基づいて開発段階の6,111種類の分子の抗菌性をランキングし、トップ99分子の活性の測定を経て51分子に絞り込み、前臨床試験または第1/2/3相試験の段階、学習に利用した分子に対する構造の非類似性、ClinToxデータベース (Cell Chem Biol, 2016) 基づく深層ニューラルネットワークモデルが示す毒性の低さの観点からさらに絞り込み、糖尿病薬として前臨床試験が進められていたc−Jun N-terminal kinase inhibitor SU3327に到達し、これをhalicinと命名した。
  • Halicinは、結核菌やカルバペネム耐性腸内細菌科細菌を含む系統樹上で広汎な病源菌をin vitroで殺菌した。
  • Halicinは、感染モデルマウスで、クロストリディオイデス・ディフィシル、「スーパー耐性菌」とも呼ばれる多剤耐性菌Acinetobacter baumanniiを殺菌・除去した。
  • 大腸菌がニューキノロン系シプロフロキサシンに対しては1~3日の暴露で耐性を獲得したのに対して、halicinに対しては30日暴露しても耐性を獲得しなかった。
  • Halicinの構造は最も近縁であるニトロイミダゾール系の抗原虫薬メトロニダゾールに対しても分子類似性が低く (Tanimoto係数~0.21)、なによりも、細胞膜のプロトン勾配を消失させることで抗菌性を発揮する独特の作用機序を帯びている。
  • したがって、耐性をもたらす多重変異を獲得することが、著しく困難であると想定できるが、一方で、強固なバイオフィルムを形成することが知られている緑膿菌に対しては有効でなかった。
ZINC15 (J. Chem Inf Model, 2015; Webサイト)由来107,349,233分子のスクリーン
  • モデルに基づく抗菌性のスコアを4日間で算出し、スコアが高く、既存の抗生物質に対するTanimoto係数が 0.4未満 (構造がより独特な)の分子23種類を選別し、大腸菌、黄色ブドウ球菌、クレブシエラ肺炎桿菌、緑膿菌、及び、Acinetobacter baumanniiの増殖阻害能を測定した。その結果、少なくとも1種類の病源菌にに対して効果的な8種類の分子と、その中で、2種類が5種類の病源菌全てに対して効果的であることを同定した。
モデリング機能提供サイト:Chemprop - Mashine Learning for Molecular Property Predicsion

[関連crisp_bio記事]
  • 2019-09-17 深層学習モデルにより、DDR1キナーゼ選択的阻害剤を3万の化合物から2ヶ月で同定
  • 2019-05-14 抗生物質がヌクレオチドプールの破綻を介して細胞死を誘導する回路を、ホワイトボックス型機械学習によって同定

[出典] Domain-specific introduction to machine learning terminology, pitfalls and opportunities in CRISPR-based gene editing. O’Brien AR, Burgio G, Bauer DC. Briefings in Bioinformatics 2020-02-02

 ゲノム編集 (以下、GE)研究分野にも、標的部位の編集効率や編集結果の予測など、機械学習 (machine learning, ML)の利用が広がっているが、誤用のリスクを伴っている。すなわち、ML分野の専門用語とMLに特有な精度の測り方のために、MLからの結果を評価することが難しく、また、誤解に至るリスクを伴っている。

 Macquarie UniversityとAustralian National Universityの研究チームは今回、GEとMLの両分野のギャップを埋めることを目的として、GEでの利用例を取り上げながら、MLの使いこなし方をレビューした:
  • 教師あり機械学習における学習データの判定基準の選択 (例えば、sgRNAsの効率の高さ)
  • 学習に使用するデータの選択
  • 機械可読型データ形式への変換方式の選択
  • アルゴリズムの選択 (ランダムフォレスト、勾配ブースティング、深層学習、ベイジアン線形回帰など:crisp_bio機械学習コレクション参照)
  • モデルを左右する因子の推定
  • 誤差の最小化
  • 研究コミュニティーとして、MLに学習させるためのデータの規模の拡大を図ると共にポジディブデータに加えてネガティブデータも揃えていくべき。
[原論文の著者の一人Gaetan Burgioのツイートのリツイートを以下に引用]

[出典] A Novel Hybrid CNN-SVR for CRISPR/Cas9 Guide RNA Activity Prediction. Zhang G, Dai Z, Dai X. Front Genet. 2020-01-08.

 中山大学 (広州)の研究グループが、深層学習の手法CNNによるgRNAsの配列とエピゲノムの特徴抽出に、SVMに基づく回帰解析 (Support Vector Regression, SVR) による高次元な特徴空間からの分類器生成を組み合わせることで、4種類のヒト細胞株 [1]全てについて既存のgRNA活性予測プログラム[2]に優るプログラムを開発しhttps://github.com/Peppags/CNN-SVRから公開
  1. HCT116; HEK293T; HeLa; HL90
  2. DeepCRISPR; Seq-deepCpf1 [3]sgRNA Designer; Spacer Scoring for CRISPR (SSC) [論文 / Webサイト]; WU-CRISPR [論文 / Webサイト]
  3. CRISPRメモ_2018/02/04 [第3項] CRISPR-Cpf1 gRNA活性予測精度を、深層学習(deep learning)により向上
[参考] 原論文から3つの図を以下に引用:
Figure 1 (CNN-SVRのワークフロー概要図)1
Figure 3 (深層学習または機械学習による既存のgRNA活性予測プログラムとの比較)2
Figure 5 (gRNAの配列の各位置におけるA/T/G/Cの種類とエピゲノムの状態が、gRNAの活性に及ぼす影響の大きさを表す図)3

↑このページのトップヘ