dbSNP数据库.ppt

上传人:夺命阿水 文档编号:241832 上传时间:2023-03-16 格式:PPT 页数:39 大小:2.18MB
返回 下载 相关 举报
dbSNP数据库.ppt_第1页
第1页 / 共39页
dbSNP数据库.ppt_第2页
第2页 / 共39页
dbSNP数据库.ppt_第3页
第3页 / 共39页
dbSNP数据库.ppt_第4页
第4页 / 共39页
dbSNP数据库.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《dbSNP数据库.ppt》由会员分享,可在线阅读,更多相关《dbSNP数据库.ppt(39页珍藏版)》请在课桌文档上搜索。

1、dbSNP数据库,SNP(Single Nucleotide Polymorphism)综述,有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。2001年二月,美、英等国宣布完成了人类基因体定序及分析初稿,这项划时代的创举将人类基因体科技带入新的境界,也连带开启了分子生物学、蛋白质体学、药物基因体学等新研究趋向。人类基因译码初稿的完成,象征着人类基因体解读计划的第一阶段已告一段落。但接下来对于基因定序数据的检测与分析,以及运用这份

2、草图来寻找个体间基因序列差异性的任务,才刚刚开始。了解个体间基因序列差异性的研究,不但对族群遗传学、演化学的研究相当重要,在利用连锁不平衡(Linkage Disequilibrium)进行复杂性遗传疾病(multiple genes diseases)的相关性研究上也扮演重要的角色。,SNP概念及其类型,SNP,念法为snIp,是Single Nucleotide Polymorphism的英文简称,其中文译为“单一核苷酸多型性”,意思是“DNA序列中的单一碱基对(base pair)变异”,也就是DNA序列中A、T、C、G的改变,即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性,

3、它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每5001000个碱基对中就有1个,估计其总数可达300万个甚至更多。目前科学界已发现了约400万个SNPs。SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。,DNA分子示意图,DNA变异类型,部分密码子:UAU酪氨酸,UCU丝氨酸,UAC酪氨酸,UUG 亮氨酸,UGC 半胱氨酸,UUU 苯丙氨酸,AUG 甲硫氨酸,编码连,基因示意图,基因的表

4、达过程,一一对应,一一对应,基因表达,一一对应,基因的表达,碱基的互补配对原则T-AA-UC-G保证了遗传信息准确无误地表达。,模板链(无义链),非模板链(有义链或编码连),密码子,密码子表,dbSNP简介,dbSNP:database of SNP(Wikipedia:The Single Nucleotide Polymorphism Database)单核苷酸多态性数据库dbSNP(http:/www3.ncbi.nlm.nih.gov/SNP/)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,它是关于单碱基替

5、换以及短插入、删除多态性的资源库。因为开发dbSNP 是为了补充和辅助 GenBank,所以它包含了来自任何生物体的核苷酸序列。dbSNP接收来自公共实验室和私人组织的提交。,dbSNP简介,每个提交至少包括以下10个主要数据元素:侧翼序列上下文DNA或cDNA、等位基因、方法、种群、样本大小、特定种群的等位基因频率、特定种群的基因型频率、特定种群的杂合度估计、个体基因型、验证信息。dbSNP最新版本公告:,可以通过不同的组件获取想要的信息,dbSNP的数据库结构,完整的数据以多种格式存于ftp站点:ftp:/ftp.ncbi.nih.gov/snp/数据库结构:自版本125起,dbSNP的设

6、计改为“中心和辐条”模型,其中dbSNP_main表格为车轮的中心,其存储着数据库的主要表格,而车轮的辐条是具体生物体的数据库,其包含着具体生物体的最新数据。dbSNP使用标准的SQL DDL(Data Definition Language)为表格和索引创建模式表(schema tables)、视图。FTP数据库目录(ftp:/ftp.ncbi.nih.gov/snp/database/)包含模式(schema)、数据、创建表格和索引的SQL语句。,dbSNP的数据库结构,shared_schema(ftp:/ftp.ncbi.nih.gov/snp/database/shared_sche

7、ma/)子目录包含dbSNP_main中表格的模式DDL(SQL Data Definition Language)。shared_data(ftp:/ftp.ncbi.nih.gov/snp/database/shared_data/)子目录包含所有生物体共享的dbSNP_main的数据。organism_schema(ftp:/ftp.ncbi.nih.gov/snp/database/organism_schema/)子目录包含每种生物体具体数据库的模式DDL的链接。主表格的表索引提供于位于shared_schema子目录中的dbSNP_main_index_constraint.sql

8、.gz和dbSNP_main_foreign_key.sql.gz文件。每种生物体具体数据库的表索引位于organism_schema子目录中的organism_taxID_constraint.sql.gz 和organism_taxID_index.sql.gz文件。包含表格和列描述的数据字典位于http:/www.ncbi.nlm.nih.gov/SNP/snp_db_list_table.cgi。SNP的模式实体联系图位于ftp:/ftp.ncbi.nih.gov/snp/database/b124/mssql/schema/erd_dbSNP.pdf。,创建dbSNP本地拷贝的资源需

9、求,软件需求:关系数据库软件,如Sybase,Microsoft SQL server,或 Oracle。NCBI的dbSNP运行于MSSQL server version 2000。数据加载工具:将dbSNP FTP站点数据加载到一个数据库需要批量数据加载工具,如伴随Sybase的bcp(bulk-copy)实用程序或MSSQL server的“bulkinsert”命令。解压ftp文件的winzip/gzip压缩软件。硬件需求:计算机平台/OS、磁盘空间(500GB)、内存(4G)、Internet连接。创建dbSNP本地拷贝的具体步骤见:http:/www.ncbi.nlm.nih.go

10、v/books/NBK21088/,dbSNP所用的数据库,dbSNP目录结构,dbSNP目录结构,dbSNP包含了包含了许多目录,其中最有用的是:organisms/、database/、specs/FTP的“organisms/”目录包含了一列有 SNP数据的生物体 目录,其按通用名 后接NCBI分类id号 来组织的。点击特定的生物体子目录即可访问其中的ftp报表文件。,dbSNP目录结构,比如你点击了human_9606 目录,那么你会发现人体组织子目录包含以下子目录:ASN1_bin/ASN1_flat/XML/VCF/chr_rpts/gene_report/Genome_repor

11、t/rs_fasta/ss_fasta/genotype_by_gene/genotype/haplotypes/database/misc/,其中包含具体生物体的表格、schema文件、共享schema文件、共享data文件。,dbSNP目录结构,/ASN1_bin:ASN.1 二进制格式的RefSNP文档综述(.bin)/ASN1_flat:从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)/XML:提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)/chr_rpts:包含特定染色体上的RefSNPs 的完整列表(.txt)/

12、genotype:以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)/genome_reports:包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log)/ss_fasta:包含FASTA格式的生物体的所有可用的submitted SNP(ss)序列数据(.fas)/rs_fasta:包含FASTA格式的人类所有可用的参考SNP(RS)序列数据(.fas)相关详细信息见ftp:/ftp.ncbi.nih.gov/snp/00readme.txt,dbSNP目录结构,FTP的“database/”目录包含了模式(sch

13、ema)、数据(data)、为dbSNP创建表和索引的SQL语句。子目录有:,dbSNP目录结构,/shared_schema:包含在dbSNP_main中的所有表格的模式DDL(SQL Data Definition Language)(.sql)/shared_data:包含存在dbSNP_main中的所有生物体共享的数据(.bcp)/organism_schema:包含每个生物体具体数据库的模式DDL的链接(实际上是存放各种生物体模式DDL的文件夹)(.sql)/organism_data:包含每个生物体具体数据库的数据(.bcp)主表的表索引位于/shared_schema子目录下的d

14、bSNP_main_index_constraint.sql.gz 和 dbSNP_main_foreign_key.sql.gz 中每个生物体的具体数据库的表索引位于/organism_schema:子目录下的organism_taxID_constraint.sql.gz 和 organism_taxID_index.sql.gzerd_dbSNP.pdf:包含整个dbSNP数据库的实体联系图有关ftp站点目录的部分信息见:http:/www.ncbi.nlm.nih.gov/books/NBK44378/,dbSNP目录结构,说明:在/organism_data“和”/shared_da

15、ta“子目录下的.bcp文件通过使用域界定符“TAB”可以载入大多数电子表格程序。FTP下的“specs/目录包含dbSNP docsum数据结构的ASN.1和XML规格,以及基因型交换格式、基因型源文档、单倍体提交的规格(.asn,.xsd,.txt,.pdf,.doc,.xls)各种文件格式的详细介绍见:ftp:/ftp.ncbi.nih.gov/snp/00readme.txt,dbSNP数据,一条具体的SNP数据如图1所示,其中间一行代表多态性位点,R表示嘌呤,即G或A。图 1,IUPAC代号,等位基因的IUPAC代号,SNP主要信息网站,TSC website http:/snp.c

16、shl.org/TSC(The SNP Consortium Ltd.)是一个非营利性基金会,其组成目的是“发展在人类基因体中超过300万个以上的SNPs的数据、将数据收集成数据库,并且不以知识产权法律为限制(without intellectual property restrictions)、公开地向大众提供信息”。2.dbSNP Home Page http:/www.ncbi.nlm.nih.gov/SNP/index.html 此网站是由NIH之下的NCBI所架设。在网站具有非常庞大的数据库,提供许多不同项目的搜寻服务,且不局限于人类SNP信息,也提供其他生物的SNP信息。值得一提的

17、是,NCBI在网站中对SNP有简单的介绍,可帮助了解SNP的意义及在各种生物方面的应用。是非常有用的数据库网站。3HGBASE-Human Genic Bi Allelic Sequences http:/hgbase.interactiva.de/4.UDB,The Unified Database http:/genecards.weizmann.ac.il/udb/5.SVD-Sequence Variation Database project http:/www2.ebi.ac.uk/mutations/6.Human SNP Database http:/www-genome.wi

18、.mit.edu/snp/human/7.JSPN Database http:/snp.ims.u-tokyo.ac.jp/,SNP 的命名,关于snp位点的命名其实并不统一,大家在文献中一般用的都是习惯或者说惯用名称。这里只介绍NCBI的rs号。NCBI里对所有提交的snp进行分类考证之后,都会给出一个rs号,也可称作参考snp,并给出snp的具体信息,包括前后序列,位置信息,分布频率等,应该说用这个rs号是比较容易确定搞明白的。一般写法是这样:dbSNP后面跟featureID.featureID一般是rs/ss后跟7-8位数字,比如:rs12345678或者dbSNP|rs123456

19、78,dbSNP数据查询,dbSNP现已并入NCBI的Entrez系统,能使用与其他Entrez数据库(如PubMed 和GenBank)相同的查询方式来查询数据。其中可用的搜索词或字段见:http:/www.ncbi.nlm.nih.gov/snp/snp_schemaChange_b111.htmSNP数据库的数据内容分为两类:一类是提交数据,即观察所得的原始序列变异;另一类是计算内容,即通过对原始提交数据的计算在每个“build”周期中产生的内容。,各种查询方式,快速查询,单记录查询,提交信息查询,批量查询,一次能获取超过20000条的记录,部分查询方式介绍,SNP提交信息查询方式:基于

20、提交记录的查询方式,可以通过实验室(提交人)、新数据(亦称新批量)、用于鉴定变异的方法、感兴趣的种群、出版信息来选择SNPs。,注意这里的关于数据库提示信息,部分查询方式介绍,dbSNP批量查询方式:使用一组变异IDs(包括RefSNP(rs)IDs,Submitted SNP(ss)IDs和Local SNP IDs)来生成各种SNP报表。标记间查询方式:如果你对两个STS(sequence tagged site,序列标签位点)标记间的特定基因感兴趣,可以使用这种方式。位点信息查询方式:现已被Entrez Gene方式所取代。此外还有单记录查询方式、Entrez检索器方式等。,STS:是一

21、段短的DNA序列,通常长度在100到500bp,易于识别,仅存在于待研究的染色体或基因组中。任何一个惟一的DNA序列均可作为STS.NCBI对STS的解释见:http:/www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechSTS.shtml,SNP基因序列的检索,以检索NAT2的不同SNP的基因序列为例(Entrez检索器方式):(1)进入dbSNP数据库主页http:/www.ncbi.nlm.nih.gov/projects/SNP/,选择“SNP”,SNP基因序列的检索(续),(2)在for框输入“NAT2”,点击“GO”进行搜索,输入检

22、索的基因名字,点击“GO”进行检索,SNP基因序列的检索(续),(3)搜索了一下,目前人类的NAT2SNP数据库记录有2555条,如下图所示,每一条你都可以点进去看它的具体情况。,检索结果列表,SNP名字或编号,SNP基因序列的检索(续),(4)以 rs193927898为例,你点进去后,出现下图的页面,里面是SNP数据库中关于这个SNP的全部信息,从里面,你大致可以获取SNP的位置,其上下游的核苷酸侧翼序列信息,多群体报道的情况,SNP提交情况,不同群体的杂合度报道参考信息,SNP基因序列的检索(续),SNP基因序列的检索(续),DNA或RNA的5端和3端示意图,dbSNP数据库的rs_fasta格式解读,说明:gnl:object-type=generaldbSNP:Database namers193927898:dbSNP rs#allelePos=151:Offset of SNP in sequencetotallen=301:Total length of sequencetaxid=3702:taxIDsnpClass=1:Variation Classalleles=A/T:List of alleles,snpClass取值解释,Thank you!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号