crisp_bio

論文・記事紹介:CRISPR生物学・技術開発・応用 (ゲノム工学, エピゲノム工学, 代謝工学/遺伝子治療, 分子診断/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野); タンパク質工学;情報資源・生物資源;新型コロナウイルスの起源・ワクチン・後遺症;研究公正

[出典] "A statistical framework for predicting critical regions of p53-dependent enhancers" Niu X, Deng K, Liu L, Yang K, Hu X. Brief Bioinform 2020-05-11

 華中農業大学の研究グループは、DNAの配列データからin silicoで、p53依存性エンハンサーにおけるcritical enhancer regions (CERs)を同定する手法を開発し、Computational_CRISPR_Strategy (CCS)として発表し、プログラムと関連データもGitHubから公開した。
  • エンハンサー領域の中に、遺伝子発現の活性化に決定的な役割を担うコアな領域であるCERsが同定されてきた。特に、CRISPR-Cas9システムを利用して、エンハンサー領域をsgRNAsライブラリーで敷き詰めるタイリング・スクリーンが実現されたことによってCERsのデータの蓄積が進んだことで、機械学習モデルの構築が可能になってきた。
  • 研究グループは始めに、Korkmazらが2016年に発表した [*]「p53依存性エンハンサを対象とするゲノムワイドCRISPR-Cas9タイリング・スクリーンのデータ (Korkmaz論文のFIg. 1 A comprehensive CRISPR-Cas9 genetic screen identifies p53-bound enhancers required for OIS.参照) から、訓練データセットと評価データセットを用意した。
  • 研究グループは次に、訓練データセットから機械学習モデルを構築するに適切な条件として、CERs候補を含む解析対象領域のサイズ4種類 (50-, 100-, 200-, および500 bp)と3種類の配列表現 (K-mer)、および、5種類の機械学習アルゴリズムを評価し、100-bp, 7-merおよび、ランダムフォレストを選択した。
  • その結果、配列データだけからKorkmazらの結果を再現するランダムフォレスト・モデルに至った。
  • 続いて、CDKN1Aから遠位のエンハンサー (CRISPR-deCDKN1A-Lib)の2K-bの領域を標的とする197 sgRNAsに由来する評価データセットに、ランダムフォレスト・モデルを適用し、モデルがトップヒットと判定し、Korkmazらの実験結果と一致したsgRNAsがp53依存性CERsであることを示すマーカが存在する連続した100-bpの領域に集中していることを見出した。
  • さらに、TWIST1, POU5F1およびSOX5といったTFモチーフが、p53依存性エンハンサーに由来した7-mersにエンリッチされていることも見出した(例 CCAGAGT/TWIST1; ATGCGAG, ATGCAAC, GATGCAA/POU5F1; GCAACAA/SOX5)。
[* 引用論文/crisp_bio記事]
CRISPR関連文献メモ_2016/01/16 #2.CRISPR/Cas9による非コード領域を対象とするゲノムワイド・スクリーニング ; Korkmaz G, Lopes R, Ugalde AP, et al. "Functional genetic screens for enhancer elements in the human genome using CRISPR-Cas9" Nat Biotechnol 2016;34(2):192
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット