《高通量测序相关名词.docx》由会员分享,可在线阅读,更多相关《高通量测序相关名词.docx(16页珍藏版)》请在课桌文档上搜索。
1、高通量测序相关名词高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig;多个ContigS通过片段重叠,组成T更长的scaffold;一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene0测序深度(SequencingDepth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,
2、测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在1015X以上时,基因组覆盖度和测序错误率控制均得以保证。什么是高通量测序?高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定,因此在有些文献中称其为下一代测序技术(nextgenerationsequencing,NGS)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(DeePs
3、equencing),.什么是Sanger法测序(一代测序)Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核甘酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苗酸三磷酸(dNTP),并混入限量的一种不同的双脱M核甘三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3OH基团,使延长的寡聚核甘酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苗酸上,可通过高分辨率变性凝胶电泳分
4、离大同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。什么是基因组重测序(GenomeRe-sequencing)全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。什么是denovo测序denov。测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行
5、测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。什么是外显子测序(wholeexonsequencing)外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知
6、基因的SNPxIndel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。什么是mRNA测序(RNA-Seq)转录组学(transcriptomics)是在基因组学后新兴的一门学科,即研究特定细胞在某一功能状态下所能转录出来的所有RNA(包括mRNA和非编码RNA)的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计,可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异
7、性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。什么是smallRNA测序SmallRNA(microRNAs.SiRNAS和piRNAs)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。IllUmina能够对细胞或者组织中的全部SmallRNA进行深度测序及定量分析等研究。实验时首先将18-30nt范围的SmaIlRNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成CDNA再做进一步处理后,利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对SmallRNA大规
8、模测序分析,可以从中获得物种全基因组水平的m很NA图谱,实现包括新m很NA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。什么是miRNA测序成熟的microRNA(miRNA)是1724nt的单链非编码RNA分子,通过与mRNA相互作用影响目标mRNA的稳定性及翻译,最终诱导基因沉默,调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序,可以一次性获得数百万条microRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异,为研究microRNA对细胞进程的作用
9、及其生物学影响提供了有力工具。什么是ChiP-Seq染色质免疫共沉淀技术(ChromatinlmmUnOPreCiPitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-Seq的原理是首先通过染色质免疫共沉淀技术ChIP异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组
10、上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。什么是CHIRP-SeqCHIRP-Seq(ChromatinIsolationbyRNAPurification)是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针,把目标RNA拉下来以后,与其共同作用的DNA染色体片段就会附在到磁珠上,最后把染色体片段做高通量测序,这样会得到该RNA能够结合到在基因组的哪些区域,但由于蛋白测序技术不够成熟,无法知道与该RNA结合的蛋白。什么是RIP-seqRNAImmunoprecipitation是研究细胞内RNA与蛋白结合情况的技术,是了解转录后
11、调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。什么是CLIP-Se
12、qCLIP-Seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序(Crosslinking-immunprecipitationandhigh-throughputsequencing),是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段,经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。什么
13、是metagenomic(宏基因组)Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做MetagenOmiCS研究比做单个个体的研究更能发现其特性;Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。宏基因组是基因组学一个新兴的科学研究方向。宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,元基因组的
14、兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中,DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。什么是SNP、SNV(单核昔酸位点变异)单核甘酸多态性SingIenUCleotidePoIymorPhiSm,SNP或单核甘酸位点变异SNV。个体间基因组DNA序列同T立置单个核昔酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核甘酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每IoOO个核昔酸即可能出现1个单核甘酸多态性的变化,其中有些单核苜酸多态性可能与
15、疾病有关,但可能大多数与疾病无关。单核昔酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苗酸变异是一种体细胞突变(somaticmutation)z称做SNVo什么是INDEL(基因组小片段插入)基因组上小片段(50bp)的插入或缺失,形同SNPSNV什么是copynumbervariation(CNV):基因组拷贝数变异基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会
16、受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D0什么是structurevariation(SV):基因组结构变异染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(interchromosometrans-location)等。一般SV的展示利用Circos软件。什么是Segmentd
17、uplication一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。什么是genotypeandphenotype既基因型与表型;一般指某些单核甘酸位点变异与表现形式间的关系。什么是Read高通量测序平台产生的序列标签就称为reads0什么是soft-clippedreads当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段匹配到不同的区域这样的reads叫做SOft-CliPPedreads,这些
18、reads对于鉴定染色体结构变异及外源序列整合具有重要作用。什么是multi-hitsreads由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。什么是Contig拼接软件基于reads之间的OVeri叩区,拼接获得的序列称为Contig(重叠群什么是Scaffold基因组denovo测序,通过reads拼接获得Contigs后,往往还需要构建454Paired-end库或IilUminaMate-Pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序
19、列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffoldo什么是ContigN50Reads拼接后会获得一些不同长度的Contigs0将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序如获得Contig1,Contig2,Contig3Contig25o将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个力口上的Contig长度即为ContigN50o举例:Contig1+Contig2+Contig3+Contig4=Contig总长度*1/2时,
20、Contig4的长度即为ContigN50oContigN50可以作为基因组拼接的结果好坏的一个判断标准。什么是ScaffoldN50ScaffoldN50与ComigN50的定义类似。ContigS拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold1,Scaffold2,Scaffold3Scaffold250将Scaffold按照这个顺序依次相加,当相加的长度达到SCaffOld总长度的一半时,最后一个加上的Scaffold长度即为ScaffoldN50
21、o举例:Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold总长度*1/2时,Scaffold5的长度即为ScaffoldN50oScaffoldN50可以作为基因组拼接的结果好坏的一个判断标准。什么是测序深度和覆盖度测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为IOX,那么获得的总数据量为20Mo覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gapo例如一个细菌基因组
22、测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。什么是RPKM、FPKMRPKMfReadsPerKilobaseofexonmodelperMillionmappedreads,isdefinedinthisway:每1百万个map上的reads中m叩到外显子的每IK个碱基上的reads个数。假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每IK个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。如果对应特定基因的话,那么就是每1000000mapped到该基因上的reads中每kb有多少是
23、napped到该基因上的exon的readTotalexonreads:ThisisthenumberinthecolumnwithheaderTotalexonreadsintherowforthegene.Thisisthenumberofreadsthathavebeenmappedtoaregioninwhichanexonisannotatedforthegeneoracrosstheboundariesoftwoexonsoranintronandanexonforanannotatedtranscriptofthegene.Foreukaryotes,exonsandtheiri
24、nternalrelationshipsaredefinedbyannotationsoftypemRNA.映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。Exonlength:ThisisthenumberinthecolumnwiththeheaderExonlengthintherowforthegene,dividedby1000.Thisiscalculatedasthesumofthelen
25、gthsofallexonsannotatedforthegene.Eachexonisincludedonlyonceinthissum,evenifitispresentinmoreannotatedtranscriptsforthegene.Partlyoverlappingexonswillcountwiththeirfulllength,eventhoughtheysharethesameregion.外显子的长度。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子
26、以其总长来计算。Mappedreads:ThesumofallthenumbersinthecolumnwithheaderTotalgenereads.TheTotalgenereadsforageneisthetotalnumberofreadsthataftermappinghavebeenmappedtotheregionofthegene.Thusthisincludesallthereadsuniquelymappedtotheregionofthegeneaswellasthoseofthereadswhichmatchinmoreplaces(belowthelimitseti
27、nthedialoginfigure18.110)thathavebeenallocatedtothisgenesregion.AgenesregionisthatcomprisedOftheflankingregions(ifitwasspecifiedinfigure18.110),theexons,theintronsandacrossexon-exonboundariesofalltranscriptsannotatedforthegene.Thus,thesumofthetotalgenereadsnumbersisthenumberofmappedreadsforthesample
28、(youcanfindthenumberintheRNA-Seqreport).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads0举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb那么它的RPKM为:10人9*:LooO(reads个数)/10八6(总reads个数)*5000(外显子长度)二200或者:1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。FPKM(fragmentsperkilobaseofexonpermillionfragment
29、smapped).FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是readsFragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个reado什么是转录本重构用测序的数据组装成转录本。有两种组装方式:1,de-novo构建;2,有参考基因组重构。其中de-nov。组装是指在不依赖参考基因组的情况下耨有。VeHaP的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffoldo常用工具包括velvet,trans-ABYSS,Trinity等。有
30、参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度Junction位点的信息等得到转录本,常用工具包括SCriPtUre、Cufflinkso什么是genefusion将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。什么是表达谱基因表达谱(geneexpressionprofile):指通过构建处于某一特定状态下的细胞或组织的非偏性CDNA文库,大规模CDNA测序,收集CDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,
31、这样编制成的数据表就称为基因表达谱什么是功能基因组学功能基因组学(FUnCtUionaIgenOmiCS)又往往被称为后基因组学(PoStgenOmiCS),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与
32、形态建成等。采用的手段包括经典的减法杂交,差示筛选,CDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(serialanalysisofgeneepression,SAGE),cDNA微阵歹!J(cDNAmicroarray),DNA芯片(DNAchip)和序歹U标志片段显示(sequencetaggedfragmentsdisplayo什么是比较基因组学匕徽基因组学(ComParatiVeGenomiCS)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行上檄,来了解基因的功能、表达机理和物种进化的学科。利用模
33、式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。什么是表观遗传学表观遗传学是研究基因的核甘酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethyIation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNAediting)等。什么是计算生物学计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机
34、仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。什么是基因组印记基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传
35、学因素之一。什么是基因组学基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。什么是DNA甲基化DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核甘酸的胞嚏碇5碳位共价键结合一个甲基基团。正常情况下,人类基因组垃圾序列的CpG二核甘酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100-1000bp左右且富含CpG二核甘酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因
36、组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1Mb就有5-15个CPG岛,平均值为每Mb含10.5个CPG岛,CpG岛的数目与基因密度有良好的对应关系。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。什么是基因组注释基因组注释(GenOmeannOtation)是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基
37、因的确切位置。1、表达序列标签(expressedsequencetags,ESTs)是指从不同组织来源的CDNA序列。2、覆盖深度(coveragedepth):每个碱基被测序的平均次数,它是评价测序量的指标之一。测序深度是指测序得到的碱基数与待测基因/转录组大小的比值;数据量的计算:基因组大小X测序深度3、覆盖率(c。Veragerati。):指被测序的碱基占全基因组大小的匕碎。覆盖率随着覆盖深度升高而提高。覆盖度原来是指基因/转录组上测序测到的部分占整个组的比例4、单核甘酸多态性(SinglenUdeOtidePOIymOrPhiSm,SNP),主要是指在基因组水平上由单个核昔酸的变异所
38、引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。5、微卫星DNA又叫简单重复序列(SimpleSequenceRepeat,SSR),指的是基因组中由1-6个核甘酸组成的基本单位重复多次构成的一段DNA,广泛分布于基因组的不同位置,长度一般在200bp以下。研究表明,微卫星在真核生物的基因组中的含量非常丰富,而且常常是随机分布于核DNA中。6、Read:一次测序中仪器读取的核昔酸长度
39、。reads不是基因基因组中的组成,实际是一小段短的测序片段,是高通量测序仪产生的测序数据,对整个基因组进行测序,就会产生成百上千万的reads,然后将这些reads拼接起来就能获得基因组的全序列了发展到现在,高通量测序技术已经可以应用到转录组的研究,不同片段reads量(就是这些小的测序片段)不同可以代表不同的表达水平。Contig重叠群和Unigene非重复序列7、nick指的是DNA双链中,一条链的断开形成的缺口,这种缺口相邻两侧裸露出游离的3端羟基和5端磷酸集团,可能是由于DNA内切酶造成的。gap指的是DNA双链中,一条链断开,并出现了核吉酸的缺失。DNA测序中位于同一染色体的两个叠
40、连群之间中断空缺的部分。形象的翻译就是nick断开了一个点,而g叩断开的是一条沟,两者的区别就是有没有核吉酸的缺失。8、Contig:通过重叠部分将相邻reads组装形成的单元称为Contigs09、Scaffold:利用双端测序等其他方法的信息,定位contigs在染色体上的线性排列或相对位置关系,并连接起来形成较长的scaffold序列。10、N50:把contig或scaffold从大到小排序,并对其长度进行累加,当累加长度达到基因组序列长度一半时,最后一个contig或scaffold长度。举个例子,比如一个基因组大小是IM,测序得到若干条reads这些reads进行拼接如果完全可以拼
41、接起来,中间没有gap的序列称为Contig,即连续的意思。如果中间有gap,但是可以知道gap的长度,这样的序列就叫做scaffold,即脚手架(非连续)的意思。然后把contig和scaffold从长到短进行排列,然后相加,当恰好加到IM的50%,也就是500k的时候,那一条contig或者scaffold的长度就叫做ContigN50和ScaffoldN50o很明显这个数值越大说明组装的质量越好。11、16srRNA基因是细菌染色体上编码rRNA相对应的DNA序列,存在于所有细菌的染色体基因组中。16srRNA具有高度的保守性和特异性以及该基因序列足够长(包含约50个功能域I随着PCR技术的出现及核酸研究技术的不断完善,16srRNA基因检测技术已成为病原菌检测和鉴定的一种强有力工具。数据库的不断完善,应用该技术可以实现对病原菌进行快速、微量、准确简便地分类鉴定和检测。该技术主要有三个步骤:首先是基因组DNA的获得,其次是16srRNA基因片段的获得,最后是进行16SrRNA基因序列的分析。