1.前言
一般注释内容分为6个部分:
基因及区域注释(2-22)
数据库(频率)注释(23-33)
保守(有害)性预测(34-49)
变异位点信息(50-56)
基因功能及通路注释(57-68)
基因的组织特异性表达情况的注释(69-73)
数据库注释信息的解读基本包含,下面将分别对这六个部分进行介绍,基本上能用到的数据库注释信息都在这了,以下对每列表头信息进行解释:
第一部分:基因及区域注释信息
(1)CHROM: 染色体
(2)POS: 变异位点在染色体上的绝对位置
(3)ID: dbSNP注释ID
(4)REF: 参考基因组碱基型
(5)ALT: 样本基因组碱基型
(6)QUAL: 变异的质量值,值越高越好。文献中常见以变异的质量值大于20为过滤标准
(7)FILTER: 过滤TAG,如果该位点满足所有过滤条件,则标记为PASS(采用国际惯用的过滤标准)
(8)GeneName: 基因名称注释,列出该变异所在的基因
(9)Description: 变异位点所在基因的描述
(10)Func:对变异位点所在的区域进行注释(exonic, splicing, UTR5, UTR3, intronic, ncRNA_exonic, ncRNA_intronic, ncRNA_UTR3, ncRNA_UTR5, ncRNA _splicing, upstream, downstream, intergenic)。
(11)Gene: 列出该变异位点相关的转录本(只有功能符合Func列的转录本才列出)。如果Func列为intergenic,此处列出两侧的基因名
(12)GeneDetail: 描述UTR、splicing、ncRNA_splicing或intergenic区域的变异情况。
(13)ExonicFunc: 外显子区的SNV 或 InDel变异类型(SNV的变异类型包括synonymous_SNV, missense_SNV, stopgain, stopgloss和unknown;InDel的变异类型包括frameshift insertion, frameshift deletion, stopgain, stoploss, nonframeshift insertion, nonframeshift deletion和unknown)
(14)AAChange: 氨基酸改变。
(15)Gencode: Gencode注释的基因名称
(16)cpgIslandExt:CpG岛预测结果,注释结果为CpG岛名称,如CpG: 116(116是该CpG岛中CG二核苷酸的数目)
(17)cytoband:该变异位点所处的染色体区段(利用Giemas染色观察得到的)。如果变异位点跨过多个区段,用短横线连接
(18)wgRna: 基于miRBase和snoRNABase,对变异位点相关的microRNA和snoRNA进行注释,给出microRNA和snoRNA的基因名称
(19)targetScanS: UCSC提供TargetScanS注释数据库,库中包含在3’UTR中保守的microRNA结合位点,来源于TargetScanHuman 5.1的预测结果;该软件预测microRNA的靶点,预测结果依据microRNA与靶点之间结合的效能进行排序,排名越靠前,说明microRNA与其靶点的结合越可能是实际存在的事件。
(20)tfbsConsSites: 基于transfac矩阵数据库(v7.0),计算所有转录因子结合位点在人/小鼠/大鼠比对中的保守分值
(21)genomicSuperDups:检测该变异位点是否位于重复片段(segmental duplication)中。
(22)Repeat: 重复序列注释信息,重复序列来源于RepeatMasker注释。
第二部分:数据库(频率)注释
(23)avsnp: 该变异在dbSNP中的ID
(24)ClinVar: 注释变异与人类疾病之间的关系,临床意义的数据来源于NCBI
(25)gwasCatalog: 检测变异位点是否在以往的GWAS研究中被报导,表示该变异位点与哪些疾病相关联,"."表示没有GWAS报导。
(26)1000g_Chinese: 给出千人基因组计划数据的中国人群中,该变异位点上突变碱基的等位基因频率
(27)1000g_EAS: 给出千人基因组计划数据的东亚人群中,该变异位点上突变碱基的等位基因频率
(28)1000g_ALL:给出千人基因组计划数据的所有人群中,该变异位点上突变碱基的等位基因频率
(29)esp6500si_all: 国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project,esp6500si_all数据库中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率(alternative allele frequency)
(30)GnomAD_ALL_AF:指在所有人群中,该变异位点上突变碱基的等位基因频率
(31)GnomAD_ALL_AN:指在所有人群中,该变异位点上突变碱基的等位基因的数目
(32)GnomAD_EAS_AF:指在所有亚洲人群中,该变异位点上突变碱基的等位基因频率
(33)GnomAD_EAS_AN:指在所有亚洲人群中,该变异位点上突变碱基的等位基因基因的数目
第三部分:保守(有害)性预测
(34)dbscSNV_SCORE: dbscSNV是基于多种预测突变是否影响splicing的软件,通过Ada和RF两种机器学习方法得到两个综合的预测分值。
(35)spidex:预测基因突变如何影响RNA剪接,
(36)Interpro_domain: Interpro数据库注释的突变位点所在蛋白质的结构域
(37)SFT: SIFT分值(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是SIFT_score和SIFT_pred:SIFT_score是SIFT分值, SIFT_pred是预测结果,取值为T或者D。
(38)Polyphen2_HVAR: 利用PolyPhen2基于HumanVar数据库预测该变异对蛋白序列的影响,用于单基因遗传病(dbNSFP version3.0)。该列包含两个值,第一个是PolyPhen 2分值;第二个是D或P或B(D: Probably damaging (>=0.909), P: Possibly damaging (0.447<=pp2_hvar<=0.909); B: Benign (pp2_hvar<=0.446))
(39)Polyphen2_HDIV: 利用PolyPhen2基于HumanDiv数据库预测该变异对蛋白序列的影响,用于复杂疾病(dbNSFP version3.0)。逗号前后分别是Polyphen2_HDIV_score和Polyphen2_HDIV_pred:Polyphen2_HDIV_score是PolyPhen 2分值;Polyphen2_HDIV_pred是预测结果,取值为D或P或B(D: Probably damaging (>=0.957), P: Possibly damaging (0.453<=pp2_hdiv<=0.956); B: Benign (pp2_hdiv<=0.452))
(40)MutationTaster: MutationTaster预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是MutationTaster_score和MutationTaster_pred:MutationTaster_score是MutationTaster分值, MutationTaster_pred是预测结果,取值为A、D、N或者P。"A" ("Disease_causing_automatic"); "D" ("Disease_causing"); "N" ("Polymorphism"); "P" ("Polymorphism_automatic")。A和D都表示位点可能有害。
(41)LRT: LRT预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是LRT_score和LRT_pred:LRT_score是LRT分值, LRT_pred是预测结果,取值为D、N或者U(D: Deleterious; N: Neutral; U: Unknown)
(42)MutationAssessor: MutationAssessor预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是MutationAssessor_score和MutationAssessor_pred:MutationAssessor_score是MutationAssessor初始分值, MutationAssessor_pred是H、M、L或N(H: High; M: Medium; L: Low; N: Neutral.)。H和M表示功能性的,L和N表示non-functional
(43)FATHMM: FATHMM预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是FATHMM_score和FATHMM_pred:FATHMM_score是FATHMM初始分值, FATHMM_pred是D或T(D: Deleterious; T: Tolerated)
(44)SiPhy_29way_logOdds: SiPhy是基于29种哺乳动物的多序列比对得到位点的保守性分值,分值越大,位点越保守(dbNSFP version3.0)
(45)phyloP46way_placental: PhyloP预测结果(dbNSFP version3.0),基于46个哺乳动物物种的多序列比对得到位点的保守性分值,分值越大,位点越保守。
(46)phyloP100way_vertebrate: PhyloP预测结果(dbNSFP version3.0),基于100个脊椎动物物种的多序列比对得到位点的保守性分值,分值越大,位点越保守
(47)CADD:对SNV和InDel的有害性进行打分。注释结果中,有分值时,逗号前后分别是CADD和CADD_Phred;CADD列是初始分值,CADD_Phred是转换后的分值;CADD_Phred分值中,10表示score排名在前10%,20表示前1%,30表示前0.1%. 对于InDel,对全部有CADD分值的InDel给出分值,'.'表示没有CADD分值。对于SNP,仅对CADD分值排名在前10%的SNP给出分值,'.'表示CADD分值排名不在前10%。
(48)gerp++gt2: dbNSFP version3.0中的gerp++只包含coding variant的注释。为
(49)MCAP: 是一种致病性似然分数,即孟德尔临床应用致病性(Mendelian Clinically Applicable Pathogenicity,MCAP)分数。
第四部分:变异位点信息注释,包括变异位点的覆盖深度,突变前后碱基型和纯杂合信息
(50)INFO: 变异软件检测的变异位点信息
(51)FORMAT: 用“:”分隔了若干个字段:
GT:该位点基因型(Genotype)。0代表Allele和REF相同,1、2、3等代表Allele和REF不同;纯合:0/0,1/1;杂合:0/1
PL:标准化基因型似然值(逗号分隔的三个值,依次对应0/0、0/1、1/1三种基因型,值越小越好)
DP:该位点测序深度(覆盖的总reads数)
AD: 该位点参考碱基和测序碱基的测序覆盖深度,格式ref,alt(ref为参考碱基型的测序深度,alt为测序碱基型的测序深度)
(52)SampleName: 与FORMAT列对应,‘:’分隔的每一部分对应FORMAT‘:’分隔的每一部分
(53)Ori_REF: 该位点在VCF文件中REF列的值。
(54)Ori_ALT: 该位点在VCF文件中ALT列的值
(55)shared_hom: 在当前位点处发生纯合突变的样本数目
(56)shared_het: 在当前位点处发生杂合突变的样本数目
第五部分:基因功能及通路注释
(57)OMIM: 人类孟德尔遗传病数据库注释,给出与变异位点所在基因相关的遗传疾病名称
(58)GWAS_Pubmed_pValue: 该变异位点在以往的GWAS研究中,被哪篇文章报导与疾病相关联,并给出该位点在文章中的p-value。格式为:分号分隔的pubmedID(p-value)
(59)HGMD_Disease_ID: 人类基因突变数据库注释,给出该变异位点相关的疾病名称和在HGMD数据库中的ID。格式为:Disease_name(HGMD中的ID号)
(60)HGMD_Mutation_URL: 给出该变异位点在人类基因突变数据库(HGMD)中收录的文献报道中的突变形式以及参考文献网址
(61)PubMedID:给出与该突变位点或基因相关的PubMed文献编号,来源于HGMD和OMIM数据库,通过在Pubmed中输入编号可检索到编号对应的文献,PubMed编号以|分隔。
(62-64)GO_BP, GO_CC, GO_MF: Gene Ontology数据库注释,GO是基因本体学注释,包括了基因的生物学过程(Biological Process,BP),细胞组分(Cellular Component,CC)和分子功能(Molecular Function,MF)的注释。给出变异位点所在蛋白质或者基因参与的生物学通路名称
(65)KEGG_PATHWAY:全基因组及代谢途径数据库注释,给出变异位点所在基因参与的代谢通路名称
(66)PID_PATHWAY: 通路相互作用数据库注释,给出与变异位点所在蛋白相互作用的通路名称
(67)BIOCARTA_PATHWAY: BIOCARTA数据库注释,给出变异位点所在基因参与的分子通路名称
(68)REACTOME_PATHWAY:人类生物学反应及信号通路数据库注释,给出变异位点所在基因参与的信号通路名称
作者:oddxix
链接:https://www.jianshu.com/p/7995c899881b
共同学习,写下你的评论
评论加载中...
作者其他优质文章