[出典] "Casboundary: Automated definition of integral Cas cassettes" Padilha VA, Alkhnbashi OS [..] Backofen R. Bioinformatics 2020-11-23. https://doi.org/10.1093/bioinformatics/btaa984
[プログラム入手先] https://github.com/BackofenLab/Casboundary

 バクテリアとアーケアに見られるCRISPRシステムを構成する (CRISPR-associated: Cas)タンパク質をコードするcas 遺伝子群は、ファージやプラスミドとの進化的軍拡競争の中で、水平移動の機構も駆使して高速で進化してきた結果、タンパク質とその複合体として全体構造が互いに似ている場合でさえ配列が極めて多様である。このため、配列データからのcas 遺伝子発見、特に、メタゲノムデータからの発見、は容易ではない。

 一方で、完全ゲノムの比較解析から、CRIPR-Casシステムは、一連の機能モジュール (adaptation; processing; interference)に対応したオペロン、ひいては一連のcas 遺伝子がが連なったカセット(以下、CRISPRカセット)として宿主ゲノム上にコードされていることが明らかになってきた。

 University of São PauloとUniversity of Freiburgなどの研究グループは今回、Kooninグループが2015年と2019年に公開したデータセット [1, 2]をベースとして、HMMモデルに基づいて同定したCRISPRカセットのシグナチャー遺伝子を手がかりとするCRISPRカセットの境界同定プログラムと、CRISPRカセット内のcas遺伝子の分類とCRISPRカセットのモジュールを推定するプログラムをExtremely Randomized Trees (ERT) とDeep Neural Networks (DNNs) の2種類の機械学習アルゴリズムに基づいて開発し、ERTおよびDNNいずれも、CRISPRCasFinder よりも高性能であっることを示した (F-scoreでの比較)。

 CRISPRカセットの境界検出とCasタンパク質の分類を可能としたCasboundaryからの出力は、著者らがGigaScienceに発表していたCRISPRカセットをCRISPRシステムのサブタイプへと分類するCRISPRcasIdentifire [3]の入力としても利用できる。

 [参考論文とcrisp_bio記事]
  1. An updated evolutionary classification of CRISPR-Cas systems.  Makarova KS [..] Koonin EV. Nat Rev Microbiol. 2015 Nov;13(11):722-36. Online 2015 Sep 28.
  2. crisp_bio 2019-12-22 [レビュー] MakarovaとKooninら、CRISPR-Casシステムの分類体系を更新
  3. crisp_bio 2020-11-17 CRISPRcasIdentifier: 機械学習によるCRISPR-Casシステムの同定と分類