为了账号安全,请及时绑定邮箱和手机立即绑定

【数据库注释】数据库注释信息总结

标签:
MySQL

webp


1.前言

一般注释内容分为6个部分:

  • 基因及区域注释(2-22)

  • 数据库(频率)注释(23-33)

  • 保守(有害)性预测(34-49)

  • 变异位点信息(50-56)

  • 基因功能及通路注释(57-68)

  • 基因的组织特异性表达情况的注释(69-73)

数据库注释信息的解读基本包含,下面将分别对这六个部分进行介绍,基本上能用到的数据库注释信息都在这了,以下对每列表头信息进行解释:

第一部分:基因及区域注释信息

(1)CHROM:  染色体

(2)POS:  变异位点在染色体上的绝对位置

(3)ID: dbSNP注释ID

(4)REF:  参考基因组碱基型

(5)ALT:  样本基因组碱基型

(6)QUAL:  变异的质量值,值越高越好。文献中常见以变异的质量值大于20为过滤标准

(7)FILTER:  过滤TAG,如果该位点满足所有过滤条件,则标记为PASS(采用国际惯用的过滤标准)

(8)GeneName:  基因名称注释,列出该变异所在的基因

(9)Description: 变异位点所在基因的描述

(10)Func:对变异位点所在的区域进行注释(exonic, splicing, UTR5, UTR3, intronic, ncRNA_exonic, ncRNA_intronic, ncRNA_UTR3, ncRNA_UTR5, ncRNA _splicing, upstream, downstream, intergenic)。

(11)Gene:  列出该变异位点相关的转录本(只有功能符合Func列的转录本才列出)。如果Func列为intergenic,此处列出两侧的基因名

(12)GeneDetail:  描述UTR、splicing、ncRNA_splicing或intergenic区域的变异情况。

(13)ExonicFunc:  外显子区的SNV 或 InDel变异类型(SNV的变异类型包括synonymous_SNV, missense_SNV, stopgain, stopgloss和unknown;InDel的变异类型包括frameshift insertion, frameshift deletion, stopgain, stoploss, nonframeshift insertion, nonframeshift deletion和unknown)

(14)AAChange:  氨基酸改变。

(15)Gencode: Gencode注释的基因名称

(16)cpgIslandExt:CpG岛预测结果,注释结果为CpG岛名称,如CpG: 116(116是该CpG岛中CG二核苷酸的数目)

(17)cytoband:该变异位点所处的染色体区段(利用Giemas染色观察得到的)。如果变异位点跨过多个区段,用短横线连接

(18)wgRna:  基于miRBase和snoRNABase,对变异位点相关的microRNA和snoRNA进行注释,给出microRNA和snoRNA的基因名称

(19)targetScanS: UCSC提供TargetScanS注释数据库,库中包含在3’UTR中保守的microRNA结合位点,来源于TargetScanHuman 5.1的预测结果;该软件预测microRNA的靶点,预测结果依据microRNA与靶点之间结合的效能进行排序,排名越靠前,说明microRNA与其靶点的结合越可能是实际存在的事件。

(20)tfbsConsSites:  基于transfac矩阵数据库(v7.0),计算所有转录因子结合位点在人/小鼠/大鼠比对中的保守分值

(21)genomicSuperDups:检测该变异位点是否位于重复片段(segmental duplication)中。

(22)Repeat:  重复序列注释信息,重复序列来源于RepeatMasker注释。

第二部分:数据库(频率)注释

(23)avsnp:  该变异在dbSNP中的ID

(24)ClinVar:  注释变异与人类疾病之间的关系,临床意义的数据来源于NCBI

(25)gwasCatalog:  检测变异位点是否在以往的GWAS研究中被报导,表示该变异位点与哪些疾病相关联,"."表示没有GWAS报导。

(26)1000g_Chinese:  给出千人基因组计划数据的中国人群中,该变异位点上突变碱基的等位基因频率

(27)1000g_EAS:  给出千人基因组计划数据的东亚人群中,该变异位点上突变碱基的等位基因频率

(28)1000g_ALL:给出千人基因组计划数据的所有人群中,该变异位点上突变碱基的等位基因频率

(29)esp6500si_all:  国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project,esp6500si_all数据库中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率(alternative allele frequency)

(30)GnomAD_ALL_AF:指在所有人群中,该变异位点上突变碱基的等位基因频率

(31)GnomAD_ALL_AN:指在所有人群中,该变异位点上突变碱基的等位基因的数目

(32)GnomAD_EAS_AF:指在所有亚洲人群中,该变异位点上突变碱基的等位基因频率

(33)GnomAD_EAS_AN:指在所有亚洲人群中,该变异位点上突变碱基的等位基因基因的数目

第三部分:保守(有害)性预测

(34)dbscSNV_SCORE: dbscSNV是基于多种预测突变是否影响splicing的软件,通过Ada和RF两种机器学习方法得到两个综合的预测分值。

(35)spidex:预测基因突变如何影响RNA剪接,

(36)Interpro_domain: Interpro数据库注释的突变位点所在蛋白质的结构域

(37)SFT: SIFT分值(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是SIFT_score和SIFT_pred:SIFT_score是SIFT分值, SIFT_pred是预测结果,取值为T或者D。

(38)Polyphen2_HVAR:  利用PolyPhen2基于HumanVar数据库预测该变异对蛋白序列的影响,用于单基因遗传病(dbNSFP version3.0)。该列包含两个值,第一个是PolyPhen 2分值;第二个是D或P或B(D: Probably damaging (>=0.909), P: Possibly damaging (0.447<=pp2_hvar<=0.909); B: Benign (pp2_hvar<=0.446))

(39)Polyphen2_HDIV:  利用PolyPhen2基于HumanDiv数据库预测该变异对蛋白序列的影响,用于复杂疾病(dbNSFP version3.0)。逗号前后分别是Polyphen2_HDIV_score和Polyphen2_HDIV_pred:Polyphen2_HDIV_score是PolyPhen 2分值;Polyphen2_HDIV_pred是预测结果,取值为D或P或B(D: Probably damaging (>=0.957), P: Possibly damaging (0.453<=pp2_hdiv<=0.956); B: Benign (pp2_hdiv<=0.452))

(40)MutationTaster: MutationTaster预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是MutationTaster_score和MutationTaster_pred:MutationTaster_score是MutationTaster分值, MutationTaster_pred是预测结果,取值为A、D、N或者P。"A" ("Disease_causing_automatic"); "D" ("Disease_causing"); "N" ("Polymorphism"); "P" ("Polymorphism_automatic")。A和D都表示位点可能有害。

(41)LRT: LRT预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是LRT_score和LRT_pred:LRT_score是LRT分值, LRT_pred是预测结果,取值为D、N或者U(D: Deleterious; N: Neutral; U: Unknown)

(42)MutationAssessor: MutationAssessor预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是MutationAssessor_score和MutationAssessor_pred:MutationAssessor_score是MutationAssessor初始分值, MutationAssessor_pred是H、M、L或N(H: High; M: Medium; L: Low; N: Neutral.)。H和M表示功能性的,L和N表示non-functional

(43)FATHMM: FATHMM预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是FATHMM_score和FATHMM_pred:FATHMM_score是FATHMM初始分值, FATHMM_pred是D或T(D: Deleterious; T: Tolerated)

(44)SiPhy_29way_logOdds: SiPhy是基于29种哺乳动物的多序列比对得到位点的保守性分值,分值越大,位点越保守(dbNSFP version3.0)

(45)phyloP46way_placental: PhyloP预测结果(dbNSFP version3.0),基于46个哺乳动物物种的多序列比对得到位点的保守性分值,分值越大,位点越保守。

(46)phyloP100way_vertebrate: PhyloP预测结果(dbNSFP version3.0),基于100个脊椎动物物种的多序列比对得到位点的保守性分值,分值越大,位点越保守

(47)CADD:对SNV和InDel的有害性进行打分。注释结果中,有分值时,逗号前后分别是CADD和CADD_Phred;CADD列是初始分值,CADD_Phred是转换后的分值;CADD_Phred分值中,10表示score排名在前10%,20表示前1%,30表示前0.1%. 对于InDel,对全部有CADD分值的InDel给出分值,'.'表示没有CADD分值。对于SNP,仅对CADD分值排名在前10%的SNP给出分值,'.'表示CADD分值排名不在前10%。

(48)gerp++gt2: dbNSFP version3.0中的gerp++只包含coding variant的注释。为

(49)MCAP:  是一种致病性似然分数,即孟德尔临床应用致病性(Mendelian Clinically Applicable Pathogenicity,MCAP)分数。

第四部分:变异位点信息注释,包括变异位点的覆盖深度,突变前后碱基型和纯杂合信息

(50)INFO:  变异软件检测的变异位点信息

(51)FORMAT:  用“:”分隔了若干个字段:
GT:该位点基因型(Genotype)。0代表Allele和REF相同,1、2、3等代表Allele和REF不同;纯合:0/0,1/1;杂合:0/1
PL:标准化基因型似然值(逗号分隔的三个值,依次对应0/0、0/1、1/1三种基因型,值越小越好)
DP:该位点测序深度(覆盖的总reads数)
AD: 该位点参考碱基和测序碱基的测序覆盖深度,格式ref,alt(ref为参考碱基型的测序深度,alt为测序碱基型的测序深度)

(52)SampleName:  与FORMAT列对应,‘:’分隔的每一部分对应FORMAT‘:’分隔的每一部分

(53)Ori_REF:  该位点在VCF文件中REF列的值。

(54)Ori_ALT:  该位点在VCF文件中ALT列的值

(55)shared_hom:  在当前位点处发生纯合突变的样本数目

(56)shared_het:  在当前位点处发生杂合突变的样本数目

第五部分:基因功能及通路注释

(57)OMIM:  人类孟德尔遗传病数据库注释,给出与变异位点所在基因相关的遗传疾病名称

(58)GWAS_Pubmed_pValue:  该变异位点在以往的GWAS研究中,被哪篇文章报导与疾病相关联,并给出该位点在文章中的p-value。格式为:分号分隔的pubmedID(p-value)

(59)HGMD_Disease_ID:  人类基因突变数据库注释,给出该变异位点相关的疾病名称和在HGMD数据库中的ID。格式为:Disease_name(HGMD中的ID号)

(60)HGMD_Mutation_URL:  给出该变异位点在人类基因突变数据库(HGMD)中收录的文献报道中的突变形式以及参考文献网址

(61)PubMedID:给出与该突变位点或基因相关的PubMed文献编号,来源于HGMD和OMIM数据库,通过在Pubmed中输入编号可检索到编号对应的文献,PubMed编号以|分隔。

(62-64)GO_BP, GO_CC, GO_MF: Gene Ontology数据库注释,GO是基因本体学注释,包括了基因的生物学过程(Biological Process,BP),细胞组分(Cellular Component,CC)和分子功能(Molecular Function,MF)的注释。给出变异位点所在蛋白质或者基因参与的生物学通路名称

(65)KEGG_PATHWAY:全基因组及代谢途径数据库注释,给出变异位点所在基因参与的代谢通路名称

(66)PID_PATHWAY:  通路相互作用数据库注释,给出与变异位点所在蛋白相互作用的通路名称

(67)BIOCARTA_PATHWAY: BIOCARTA数据库注释,给出变异位点所在基因参与的分子通路名称

(68)REACTOME_PATHWAY:人类生物学反应及信号通路数据库注释,给出变异位点所在基因参与的信号通路名称



作者:oddxix
链接:https://www.jianshu.com/p/7995c899881b

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消