[出典] Machine-learning approach expands the repertoire of anti-CRISPR protein families. Gussow AB [..] Koonin EV. Nat Commun 2020-07-29; [Webサイト] Acr Catalog

 これまでに同定されたanti-CRISPRタンパク質 (Acrs)の殆どが、小型でかつ配列が多様であり、ゲノム配列からのin silico予測の手法が工夫されてきたが、包括的な同定は極めて困難であった。

 NCBIのKooninらは今回、ランダムフォレストのExtremely randomized trees版による機械学習により、テストセット中のAcrsを高精度で判定可能なモデルを構築し、新奇Acrsの同定に展開した。
  • 原核生物ウイルスと推定プロウイルスの配列からの10,938,430タンパク質から、機械学習モデルにより、1,546,505 Acrs候補を同定した。
  • 続いて、NCBI Conserved Domain Database (CDD)Prokaryotic Virus Orthologous Groups (pVOG)を参照し、保存性が高くanti-CRISPR以外の機能を帯びていると思われる候補を除くことでAcrs候補を892,830種類に絞り込み、その上でAcrs候補を232,616クラスタに分類した。
    さらに、既知Acrsの知見に基づくヒューリスティックなフィルタリングをかけることで、2,526種類の新奇Acr候補ファミリーを探り出した。
  • さらに、既知Acrsの知見に基づくヒューリスティックなフィルタリングをかけることで、2,526種類の新奇Acr候補ファミリーを探り出した。
  • 一連のトップヒットについて、P. aeruginosaのタイプI-C, I-EまたはI-F CRISPR-CASシステムに対するファージに基づく実験でanti-CRISPR活性を検証し、トップ候補の中からAcrIC9, AcrIC10, 続いて、AcrIC4およびAcrIC3を新奇なAcrsと認定した (この結果は、COVID-19に伴う研究室閉鎖のため中断するまでの実験に基づいている)。2020-07-30
  • [参考] Acrs発見の観点から検討した特性と、最終モデルで採用された特性の一覧表 [Table 1から右図へと引用]