[出典] "A joint NCBI and EMBL-EBI transcript set for clinical genomics and research" Morales J, Pujar S [..] Murphy T. Nature 2022-04-06. https://doi.org/10.1038/s41586-022-04558-8; NEWS "The MANE collaboration: working together to support genome science" EMBL-EBI. 2022-04-06. https://www.ebi.ac.uk/about/news/research-highlights/the-mane-collaboration-working-together-to-support-genome-science/
[統合結果の例]
MANEにおいてRefSeqとEnsemble/GENCODEの転写物に加えられた更新の概要 (左下図/Table 1から引用)と,MANE Select (MANEの概要の項を参照)データセットとClinVarとgnomeADを照合した結果 (右下図/Fig. 3から引用)参照
MANEにおいてRefSeqとEnsemble/GENCODEの転写物に加えられた更新の概要 (左下図/Table 1から引用)と,MANE Select (MANEの概要の項を参照)データセットとClinVarとgnomeADを照合した結果 (右下図/Fig. 3から引用)参照
[MANE提供Webサイト]

- Ensembl Transcript Archive: MANE http://tark.ensembl.org/web/mane_project/ [スクリーンキャプチャ引用右図参照]
- NCBI RefSeq MANE data https://www.ncbi.nlm.nih.gov/refseq/MANE/
[MANEプロジェクトの背景]
NCBIのRefSeqとEMBL-EBIのEnsembl/GENCODEのチームが20年以上にわたり構築・提供してきた高品質な参照 (reference)遺伝子および参照転写産物のデータセットは,医学生物学の研究や発見に広く利用され,また,ユースケースに応じて,使い分けられてきた.
例えば、RefSeqの転写産物は通常、ClinVarへのバリアント投稿や論文などでのバリアント記述に使用されてきた.一方で,ENCODE,gnomAD (Genome Aggregation Database),DECIPHER,GTExなどの大規模な研究プロジェクトでは、Ensembl/GENCODEセットが使用されてきた.
RefSeqの転写産物もEnsembl/GENCODEの転写産物も豊富なエビデンスで裏付けられているが,キュレーションのタイミング,方法論,データが乏しいゲノム領域でのエビデンスの解釈の違いにより,両者の間の差異が存在する.また,RefSeq転写産物の中には参照ゲノム配列と完全に一致しないものがあることから,配列の差異も存在する.しかし,2種類のデータソースからの転写産物の等価性を判断する簡便な方法が開発されていなかったことから,研究の過程でこれらの差異を認識し理解することが困難であった.
NCBIのRefSeqとEMBL-EBIのEnsembl/GENCODEのチームが20年以上にわたり構築・提供してきた高品質な参照 (reference)遺伝子および参照転写産物のデータセットは,医学生物学の研究や発見に広く利用され,また,ユースケースに応じて,使い分けられてきた.
例えば、RefSeqの転写産物は通常、ClinVarへのバリアント投稿や論文などでのバリアント記述に使用されてきた.一方で,ENCODE,gnomAD (Genome Aggregation Database),DECIPHER,GTExなどの大規模な研究プロジェクトでは、Ensembl/GENCODEセットが使用されてきた.
RefSeqの転写産物もEnsembl/GENCODEの転写産物も豊富なエビデンスで裏付けられているが,キュレーションのタイミング,方法論,データが乏しいゲノム領域でのエビデンスの解釈の違いにより,両者の間の差異が存在する.また,RefSeq転写産物の中には参照ゲノム配列と完全に一致しないものがあることから,配列の差異も存在する.しかし,2種類のデータソースからの転写産物の等価性を判断する簡便な方法が開発されていなかったことから,研究の過程でこれらの差異を認識し理解することが困難であった.
臨床の場では,バリアントを報告するための標準的な参照配列は認められていなかった.このため,個人ごとまたは検査室ごとに,転写産物の長さや生成日などに基づく独自の
基準に従って,転写産物を選択するのが一般的であった.加えて,臨床ゲノミクスで日常的に参照されるリソースやツールにも標準が無く様々である.こうした状況は,データの解釈を混乱させ,バリアントの分類・同定のエラーを引き起こし,臨床に実害をもたらす可能性もある.
これまでに述べた課題を解決するには,研究および臨床のコミュニティー全体で普遍的に利用できる転写産物のセットが必要である.実際,Ensemblが実施した2018年の調査において,この必要性がハイライトされ,回答者の大半が,RefSeqとEnsembl/GENCODEが各遺伝子の主要転写産物について整合することを望むと表明した.この調査の回答者は約800人で,そのうち約35%は医療従事者または臨床診断に携わっていた.
[MANEの概要]
基準に従って,転写産物を選択するのが一般的であった.加えて,臨床ゲノミクスで日常的に参照されるリソースやツールにも標準が無く様々である.こうした状況は,データの解釈を混乱させ,バリアントの分類・同定のエラーを引き起こし,臨床に実害をもたらす可能性もある.
これまでに述べた課題を解決するには,研究および臨床のコミュニティー全体で普遍的に利用できる転写産物のセットが必要である.実際,Ensemblが実施した2018年の調査において,この必要性がハイライトされ,回答者の大半が,RefSeqとEnsembl/GENCODEが各遺伝子の主要転写産物について整合することを望むと表明した.この調査の回答者は約800人で,そのうち約35%は医療従事者または臨床診断に携わっていた.
[MANEの概要]
- MANE Selectセットは,各ヒトタンパク質コード遺伝子の代表的な転写産物を提供し,これに対して,MANE Plus Clinicalセットが,現在知られているすべての臨床変異を報告する際に,MANE Select転写産物だけでは不十分な遺伝子座に,追加の転写産物を提供する.
- 各MANE転写物では,Ensembl/GENCODE転写物のエクソン配列とRefSeqの対応する配列が完全に一致し [本記事冒頭の対照表参照],両者の識別子を同義的に使用可能となっている.
- 現在,American College of Medical Genetics and Genomics Secondary Findings list v3.0の全遺伝子を含むヒトタンパク質コード遺伝子の97%について,MANE Select転写産物が利用可能になっている.
- MANE転写産物は,主要なゲノムブラウザーや主要なリソースからもアクセス可能になっている.
- これらの転写産物データセットが広く利用されることで,様々な研究グループからの報告の一貫性が高まり,アノテーションの内容がデータソースに左右されることが無くなり,データの共有が容易になり,臨床の場での遺伝子変異の解釈も合理化されるであろう.


コメント