【数据库-3】dbSNP数据库
单核苷酸多态性数据库dbSNP(dbSNP, The Single Nucleotide Polymorphism Database)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据,以及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息。
dbSNP接受明显中性的多态性,对应于已知表型的多态性和无变异的区域。它于1998年9月创建,用于补充NCBI收集的公众可获得的核酸和蛋白质序列GenBank。从构建131(2010年2月开始)开始,dbSNP已经收集了超过1.84亿份提交文件,代表了55种生物的超过6400万种不同变种,包括智人,小家鼠,水稻和许多其他物种。 NCBI将在2017年逐步停止对dbSNP和dbVar中的所有非人类生物的支持。
image
dbSNP是一个在线资源,用于帮助生物学研究人员。其目标是作为一个单一的数据库,包含所有已识别的遗传变异,可用于调查各种基因遗传自然现象。具体而言,访问dbSNP中编目的分子变异有助于基础研究,如物理作图,群体遗传学,进化关系研究,以及能够快速,轻松地量化给定感兴趣位点的变异量。此外,dbSNP指导药物基因组学的应用研究以及遗传变异与表型特征的关联。
dbSNP数据流
首先各种来源提交数据,为每个变体分配唯一的提交的SNP ID(ss#)( ss,NCBI Assay ID)。 然后由于不同研究结构提交的SNP会存在冗余,提取SNP位点上下游区域的序列,比对参考基因组,如果多个ss # 比对上相同的位置,说明这几个SNP位点是冗余的,会赋予一个新的reference SNP ID, 以rs开头 。用户可以检索特定rs#记录的数据并分析这些变化。
2.dbSNP的数据结构
2.1数据下载及目录
dbSNP数据下载地址:ftp://ftp.ncbi.nih.gov/snp/
dbSNP下载目录
dbSNP包含了许多目录,其中最有用的是:
organisms/:目录包含了一列有SNP数据的生物体目录,其按通用名后接NCBI分类id号来组织的。
database/:包含模式(schema)、数据、创建表格和索引的SQL语句。
specs/:目录包含重要的文件的格式,内容及其基本介绍。
相关详细信息见ftp://ftp.ncbi.nih.gov/snp/00readme.txt
点击特定的生物体子目录即可访问其中的ftp报表文件,你还可以选择同一个物种的不同版本。比如你点击了human_9606 目录,那么你会发现人体组织子目录包含以下子目录:ASN1_bin/、ASN1_flat/、XML/、VCF/、chr_rpts/、gene_report/、Genome_report/、rs_fasta/、ss_fasta/、genotype_by_gene/、genotype/、haplotypes/、database/、misc/、Enterz/
human_9606 目录
目录说明:
/ASN1_bin : ASN.1 二进制格式的RefSNP文档综述 (.bin)
/ASN1_flat :从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)
/XML: 提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)
/chr_rpts :包含特定染色体上的RefSNPs 的完整列表(.txt)
/genotype :以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)
/genome_reports :包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log)
/ss_fasta :包含FASTA格式的生物体的所有可用的submitted SNP(ss)序列数据(.fas)
/rs_fasta :包含FASTA格式的人类所有可用的参考SNP (RS)序列数据(.fas)
2.2 /chr_rpts 中的txt文件内容:
1 RefSNP id (rs#)rs代号
2 mapweight where 匹配个数
1 = Unmapped
2 = Mapped to single position in genome
3 = Mapped to 2 positions on a single chromosome
4 = Mapped to 3-10 positions in genome (possible paralog hits)
5 = Mapped to >10 positions in genome.
3 snp_type where snp类型
4 Total number of chromosomes hit by this RefSNP during mapping 匹配到的染色体个数
5 Total number of contigs hit by this RefSNP during mapping 匹配到的conting个数
6 Total number of hits to genome by this RefSNP during mapping 匹配到基因组的个数
7 Chromosome for this hit to genome 匹配到的染色体
8 Contig accession for this hit to genome 匹配到conting 序号
11 Position of RefSNP in contig coordinates 在conting中匹配到突变的位置
12 Position of RefSNP in chromosome coordinates (used to order report) 在染色体中匹配到突变的位置
Locations are specified in NCBI sequence location convention where:
x, a single number, indicates a feature at base position x
x..y, denotes a feature that spans from x to y inclusive.
x^y, denotes a feature that is inserted between bases x and y
13 Genes at this same position on the chromosome 匹配到的基因名字
18 Genotypes available in dbSNP for this RefSNP 基因型是否可知
1 = yes
0 = no
gene_report/中有各个基因的突变信息
bed/中包含各个染色体上的snp
ASN1_flat /中包含了各个染色体的SNP的详细信息(包含以下9个信息):rs, ss, SNP, VAL, CLINSIG,GMAF,CTG,LOC,SEQ。
VCF/: 具体信息查看:http://www.ncbi.nlm.nih.gov/variation/docs/humanvariationvcf/#table-1
主要的突变与临床的关系的文件包含的内容:染色体,突变的位置,rs代号,突变过程,info。其中info包含了突变是否为同义突变;突变实在coding 区还是内含子或UTR;也包含了CLNSIG(0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other);CLNDSDB(Variant disease database name);CLNDBN(Variant disease name)
更多详细信息见:http://www.ncbi.nlm.nih.gov/variation/view/help/
3.dbSNP数据查询
SNP数据库的数据内容分为两类:一类是提交数据,即观察所得的原始序列变异;另一类是计算内容,即通过对原始提交数据的计算在每个“build”周期中产生的内容。
dbSNP现已并入NCBI的Entrez系统,能使用与其他Entrez数据库(如PubMed 和GenBank)相同的查询方式来查询数据。
dbSNP批量查询方式:使用一组变异IDs(包括RefSNP (rs) IDs, Submitted SNP (ss) IDs和Local SNP IDs)来生成各种SNP报表。
标记间查询方式:如果你对两个STS(sequence tagged site ,序列标签位点)标记间的特定基因感兴趣,可以使用这种方式。
位点信息查询方式:现已被Entrez Gene方式所取代。
dbSNP查询方式
部分查询方式
dbSNP的快速查询
dbSNP的快速查询
dbSNP的快速查询
dbSNP的快速查询
目前页面更新了
搜索出来的结果界面如下:
dbSNP的快速查询
egfr示例
点击Switch to classic site可以转至原来的页面
4.dbSNP查询结果
首先会给出一个综合信息,RefSNP中给出了的物种,dbSNP数据库的版本号等信息;Allele中给出了突变类型,碱基变化情况等信息;HGVS Names给出了根据HGVS命名规则指定的突变信息。
4.1Map
这部分给出了SNP位点在不同版本的基因组上的位置信息,可以看到,对于hg19和hg38两个不同版本,位置差别还是挺大的。
4.2GeneView
SNP所在基因组的位置信息,所在转录本和蛋白序列上的位置信息,以及导致碱基改变和氨基酸改变的情况。
SNP在DNA序列上的位置,以及上下游的SNP。
4.3 ss ID
SNP提交人提交到数据库上信息,包括NCBI assay ID和Submitter SNP ID,该SNP是否被验证过,序列的方向,等位基因,上下游的序列,提交时间,更新时间,数据库版本号以及提交序列的类型。这部分可以看到rs号对应的多个ssID。
ss ID
4.4 SNP位点的fasta序列
4.5 Population Diversity
SNP在各个人群研究中的人群频率。
需要注意的是,该数据库将于2017年9月1日开始停止接收非人类物种的SNP提交信息,于2017年11月1日开始停止非人类物种的SNP查询功能,但是之前的所有非人类物种的SNP数据仍然可以在dbSNP数据库的FTP上下载。所有非人类物种的SNP信息提交可以上传到European Bioinformatics Institute (EBI) -European Variation Archive数据库。dbSNP 数据库的简单使用今天为大家介绍到这儿,以后再为大家推荐更多有用的数据库哦。
作者:oddxix
链接:https://www.jianshu.com/p/3d8600af2928
共同学习,写下你的评论
评论加载中...
作者其他优质文章