《2电子克隆技术及其在植物基因工程中的应用.docx》由会员分享,可在线阅读,更多相关《2电子克隆技术及其在植物基因工程中的应用.docx(14页珍藏版)》请在课桌文档上搜索。
1、电子克隆技术及其在植物基因工程中的应用王冬冬朱延明李勇李杰柏锡(东北农业高校生命科学学院,黑龙江哈尔滨150030)摘要:电子克隆是随着基因组安排和EST安排的实施而发展起来的,是利用生物信息学手段进行基因克隆的新方法。它具有投入低、速度快、技术要求低和针对性强等优点。因此,电子克隆技术必将成为植物基因工程中获得新基因的重要手段。阐述了电子克隆应用所依据的数据库与生物信息资源,介绍了利用电子克隆获得功能基因的方法,及其在植物基因工程中的应用现状与前景。关键词:电子克隆;植物基因工程;表达序列标签EST;生物信息学电子克隆(inSilicoClOning)是近年来伴随着基因组安排和EST安排发展
2、起来的基因克隆新方法。电子克隆的技术原理是利用日益发展的生物信息学技术,借助电子计算机的巨大运算实力,通过EST或基因组的序列组装和拼接,利用RT-PCR的方法快速地获得新基因。国际上BOgUSki等学者在1994年起先利用电子克隆方法发觉新基因,中国科学院生物物理探讨所陈润生探讨组在1996也起先了对电子克隆的探讨1。电子克隆技术应用的前提条件要具备拟研物种的丰富核酸序列信息,其他物种的相关基因的信息,以及强大的计算机硬件和相关生物信息学分析软件。基因组和EST资料的丰富程度确定了电子克隆得以在人类、小鼠等生物中广泛应用。由于受到序列资料的限制,植物基因的电子克隆还鲜有报道。但随着植物基因组
3、安排和功能基因组学的发展,电子克隆在植物基因工程探讨中必将发挥出巨大的功用。1电子克隆技术及其依托的生物信息学资源1.1 电子克隆的基本原理利用电子克隆方法获得新基因是生物信息学的探讨内容之一。生物信息学资源是由数据库、计算机网络和应用软件三大部分组成。而电子克隆的应用即是基于这三部分生物信息学资源而绽开的。它是利用计算机技术,依托现有的网络资源(EST数据库、核甘酸数据库、蛋白质数据库、基因组数据库等),采纳生物信息学方法(包括同源性检索、聚类、序列拼装等),通过EST或基因组的序列组装和拼接,利用RT-PCR快速地获得部分乃至全长CDNA序列的方法。1.2 电子克隆的实施方案首先,在数据库
4、或PUbMed中获得感爱好的CDNA或氨基酸序列,基于EST和基因组信息两种数据资源,利用上述得到的已知基因序列实施电子克隆有以下两种方案。利用EST数据库信息资料:利用序列同源性比较软件(如BIaSt软件)将种子序列对库检索;从数据库中选择出全部相关序列;对全部序列进行片段整合分析(即COntig分析),形成延长后的序列,称新生序列。随后,将此新生序列作为种子序列重复进行上述三步过程,直至新生序列不能被进一步延长为止,通过完整性分析即获得了全长的新基因序列2-3。见图1。利用基因组信息资料:把作为信息探针的氨基酸或核甘酸序列在NCBI网站中对特定物种各基因组数据库进行B1.AST分析,从结果
5、中筛选出感爱好的外显子序列,并通过链接得到其所在的基因组序列,同时依据比对的结果对基因组序列可能造成的移码测序错误进行修正;把这些感爱好的外显子序列依据其所在基因组上的位置依次进行干脆连接,或者把基因组序列提交到GenSCan和GeneFinder等网站进行预料,得到可能的新基因序列。有时各外显子分别处于较短的尚未组装的基因组序列中,也可按探针基因外显子依次进行干脆拼接;把可能的新基因序列基于核酸数据库做B1.AST分析,检验其新奇性;把筛选后的新基因序列提交到dbEST数据库做B1.AST分析并延长,同时也是进一步确认其真实存在的可信度,并进行组织表达定位,为克隆该基因供应组织来源信息。最终
6、依据最终的序列设计引物,进行RT-PCR试验得到新基因4。见图2。1.3 电子克隆依据的网络分析程序和应用软件序列的相像性检索分析程序一条序列对整个数据库进行相像性分析以发觉其同源序列是电子克隆中的一个极其重要的方面。目前运用最广泛的程序是FASTA和B1.AST。FASTA集中反映具有显著意义的序列对齐结果。在互联网上已有很多的在线FASTA查找服务,同时也可下载后离线运用,下载站点:ftp:/ftp.vir.ginia.edupubfastados0B1.AST(Basic1.ocalAlignmentSearchTool,基本局部比对搜寻工具)则采纳了一种短片段匹配算法和一种有效的统计模
7、型来找出目的序列和数据库之间的最佳局部对齐效果。目前在互联网上有很多在线的B1.AST查找程序,特地用于查找各大数据库中与用户提交的序列同源的序列,如:NCBI(:/ncbi.nlm.nih.gov/B1.AST/blast,html)和EMB1.(:/ebi.ac.ukblast2)和EBl的FASTA(:/ebi.ac.k/fasta33)fasta33)o同时运行这两个程序进行数据分析,能避开漏检一些有用的信息5-6。序列拼接、聚类的软件序列拼接、聚类常用的软件或软件包见表17。核酸序列分析预料程序及软件.1可读框架(openreadingframe,ORF)分析mRNA须要翻译为蛋白质
8、方能发挥其生物学作用。因此,核酸序列的可读框架分析是核酸分析的一个重要部分。基于遗传密码表,可通过计算机便利的分析核酸序列的读码框。最常用的互联网ORF分析资源是NCBl供应的0RFFinder,网址是:ncbi.nlm.nih.gov/gorf/gorf.htmIo.2基因序列中的编码区/内含子结构分析预料通过与数据库中已知的蛋白质序列、cDNA序列以及EST序列进行对比,可识别编码区和内含子、外显子剪接位点。一些内含子和外显子数据库可供参考,例如IDB(:/Netmeg.bio.indiana.eduintron/index,html);ExInt(:/intron,bic.nus.edu
9、.sg)。也可通过GENESCAN(:/211.161.196.214:8888)程序预料基因组序列中可能的外显子;利用GeneFinder软件(:bioscience,orgur11istsgenefind.html)进行基因组序列的内含子和外显子分析。.3基因启动子及其他DNA调控位点分析预料基因启动子分析预料常用的数据库有真核生物启动子数据库EPD(EukaryoticPromoterDatabase):/epd.isb-sib.cho植物启动子数据库PlantPrOn1DB:/c=plantprom&group=Data&subgroup=plantprom;转录起始位点预料工具NNP
10、P(NeuralNetworkPromoterPrediction):/fruitfly,orgseq_tools/promoter.html,PROSCAN:/bimas.dcrt.nih.gov/molbio/proscan,PlantPromDB:/softberry/berry.phtmltopic=plantprom&group=data&subgroup=pIantprom;植物顺式作用元件分析工具P1.ACE:/dna.affrc.go.jp/htdocs/P1.ACE5o蛋白质序列分析预料程序及软件.1蛋白质基本性质分析位于EXPASy的PrOtSCaIe程序(:expasy.
11、org/cgi.bin/protscale.PD可被用来计算蛋白质的疏水性图谱。进行蛋白质的亲/疏水性分析时,也可运用一些WinCIoWS下的软件资源,如BioEdit、DNAMAN等。跨膜区的分析利用网上的相关软件(:ch.embnet.org/software/TMPRED.form,html),该程序通过计算氨基酸序列中可能形成的跨膜螺旋位置,并依据疏水性大小给予每个跨膜螺旋肯定的分值,自动绘制出蛋白质的疏水曲线。当分值在正负之间摇摆时,可预料该蛋白质有跨膜结构域。含有信号肽的蛋白质一般能够被分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。联网到:genome.cbs
12、.dtu.dkservicesSignaIP/可进行蛋白质序列信号肽分析。和信号肽与跨膜区结构一样,蛋白质的亚细胞定位往往也和该蛋白质的功能亲密相关。蛋白质的亚细胞定位分析的网络程序可联网到:Softberry等,Reinhardt等基于神经网络算法构建的蛋白质亚细胞定位数据库(:/predict,sanger.ac.uk/nnpsl/nnpsl_mult.cgi)也可用于对蛋白质序列进行亚细胞定位分析。.2蛋白质功能分析预料基于序列同源性分析的蛋白质功能预料利用B1.ASTP和FASTA等软件。通常,一条新生的蛋白质序列很难仅仅通过序列对齐获得足够的功能信息。基于蛋白质基序(motif)、结
13、构位点、结构功能域的蛋白质功能预料能够更多的获得蛋白质的功能信息。目前最好的DIOtif数据库是由AnlOSBairoCh所创建的PRoSlTE(:/expasy.org.prosite)omotif预料软件:MotifScan(:/hits,isb-sib.ch/cgi-bin/PFSCAN)简洁模块构架搜寻工具(SimpleModularArchitectureResearchTool,SMART)是较为志向的蛋白质结构功能域分析工具。网址为:SnIartembl-heidelberg.deo.3蛋白质结构分析预料蛋白质结构资源很多,基本立体结构数据库为PDB(:/rcsb.orgpdb)
14、oNR1.-3D是全部已知结构蛋白质的数据库,可用于对查询蛋白质序列进行相像性分析以确定其结构。其网址为:gdb.orgDanproteins/nrl3d.html0蛋白质序列数据库ISSD(:/Protein.bio.msu.su.issd);二级结构数据库HSSP(:/sander,embl-heidelberg.dehssp);蛋白质结构分类数据库SCOP(:/scop.mrc.lmb.cam.ac.uk.scop);蛋白质分子模型数据库MMDB(:/ncbi.nlm.nih.govStructure);三维结构数据库NDB、BisMagRes-BanksCCSD等8-10。2电子克隆技
15、术在植物基因工程中的应用1994年BOgUSki等起先用电子克隆找寻人类新基因。目前发表的有关人类基因克隆的绝大部分都利用了人类的基因组或EST数据。北京高校人类疾病基因探讨中心、国家人类基因组北方探讨中心、北京高校数学学院、北京高校计算生物学中心联合,利用电子克隆的方法进行人类疾病相关的基因克隆,在国际上已经处于领先水平。植物中目前只有拟南芥和水稻公布了基因组序列,使得这两种植物基因的克隆越来越多的利用发布的序列信息资源。尤其是利用生物信息学技术进行水稻功能基因的电子克隆的报道近几年来渐渐增多,这标记着电子克隆在植物领域的应用起先逐步的发展起来。黄骥等11以来源于水稻盐胁迫CDNA文库的1个
16、500bp的ESTSl21为信息探针搜寻位于Gen-Bank的水稻EST库,发觉有2个EST与Sl21部分序列一样,经过拼接组装获得了1个886bp的全长CDNA序列,同源性比较的结果表明其可能编码一个新的水稻锌指蛋白基因。依据拼接好的序列设计PCR引物,通过RT-PCR的方法胜利分别了该基因的完整CDNA克隆,命名为OSZFP,该锌指蛋白可能涉及到水稻幼苗的盐胁迫应答反应。他们在2004年报道以已公布的黑麦胞质核糖体蛋白基因SCRPS7的CDNA序列为信息探针,在中国华大水稻基因组数据库中搜寻与之高度同源的基因组重叠群。采纳计算机拼接和RT-PCR方法克隆了水稻胞质核糖体蛋白基因的全长CDN
17、A序列,将其命名为OSRPS7。对OSRPS7的基因组结构和基因的功能进行了分析和预料。该CDNA序列全长919bp,编码192个氨基酸,其与黑麦、拟南芥和芸墓的S7核糖体蛋白的氨基酸都存在很高的一样率。中山高校的林慧贤等用已知遗传图位的BAC克隆片段筛选水稻小穗CDNA文库,获得1个小GTP结合蛋白的相关序列,以该CDNA序列为基础将4个EST拼接,进行电子克隆,得到了1个新的水稻小GTP蛋白基因OSrab5B的CDNA克隆。除了利用水稻EST作查询探针外,还可以选择其他物种尤其是亲缘关系较近的物种全长或EST作为查询探针,搜寻水稻的dbEST库,进而拼接成完整的水稻CDNA序列。其主要理论
18、依据是不同物种同类基因之间存在序列保守性。南京农业高校作物遗传与种质创新国家重点试验室与复旦高校遗传所合作,以玉米全长6-磷酸葡萄糖酸脱氢酶CDNA为查询探针,搜寻水稻dbEST数据库,发觉了几十条高度同源的水稻EST,通过序列组装和拼接获得了1.8kb左右的CDNA序列,进一步用RTPCR的方法克隆了水稻的6-磷酸葡萄糖酸脱氢酶基因0s6PGDH(GenBank注册号:AF486280)0同时他们利用来自小麦的葡萄糖-6-磷酸脱氢酶CDNA克隆TagPdl序列为探针,搜寻水稻基因组数据库,结果找到1个与之高度同源的水稻相应基因组BAC序列,通过人工序列拼接和RT-PCR克隆到了水稻葡萄糖-6
19、-磷酸脱氢酶的全长cDNA,命名为0sG6PDH(GenBank注册号:AY078072),经分析表明该基因编码的蛋白为胞质G6PDH,是磷酸戊糖途径的限速酶12。唐向荣等发觉2个水稻EST片段与大白菜BCP1.H基因的双链RNA结合结构域(dsRBD)有同源区域,依据同源片段设计引物,用RT-PCR的方法从水稻愈伤组织中扩增得到了1.8kb的CDNA片段,该cDNA含有完整的编码区,有两个典型的dsRBD,与大白菜Bcp1.H基因的dsRBD在氨基酸水平上相像性为75%左右。除了拟南芥和水稻,很多EST数目较多的植物也可以利用EST数据的策略进行电子克隆,同时也可以间接的利用电子克隆的策略(
20、更便利的文库筛选),但在这方面的报道还较少。国外的探讨主要集中在利用生物信息学对传统方法或利用cDNA文库筛选克隆获得基因的结构与功能进行分析。还有报道通过将拟南芥或水稻基因组与其他植物的EST资料及其序列进行比较,利用比较基因组学的探讨结果,利用生物信息资源探讨鉴定在其他作物中的相关基因,并用于鉴定同一基因在不同种中的表达或功能限制方面的差异。但是极少有利用电子克隆获得新的功能基因的报道13,这说明我国在植物基因电子克隆方面的探讨也处于世界领先水平。3电子克隆技术应用前景展望与传统的基因克隆方法相比,电子克隆主要有以下优点:速度快,包括同源性比较、序列拼接组装等工作在计算机上完成,只需RT-
21、PCR序列验证即可;投入低,电子克隆只需能够上网的计算机和PCR仪等仪器即可进行,试验成本较低;技术要求低,试验室工作只涉及到RNA抽提、反转录、PCR扩增等分子生物学的基本试验,探讨人员很简洁驾驭;针对性强,拟克隆基因的生物学功能大都比较明确,一旦获得即可干脆应用于转基因技术进行作物品种改良。随着遗传图谱与以序列为基础的物理图谱的整合,干脆将目的基因与连锁标记的遗传距离转换为物理图距后的电子克隆有可能成为取代传统的图位克隆的重要措施;而对于采纳抑制差减杂交、差异显示或基因表达系列分析等方法得到的EST实行电子克隆的方法获得全长cDNA的策略,则可成为取代RACE或CDNA文库筛选的最佳方案。
22、在电子克隆的基础上,很多EST所对应的CDNA克隆可通过基因组及其表达的整合分子分析(inter-gratedmolecularanalysisofgenomesandtheirexpression,IMAGE)协定免费索取,当探讨者通过另外的途径得到基因的部分序列,并通过同源性检索后发觉该片段与加入IMAGE协定的EST序列高度同源时,便可通过美国的ATCC组织(AmericanTypeCultureCollection)等免费索取其原始克隆,从而避开或减轻筛选全长基因的麻烦,以集中精力进行基因的功能探讨。电子克隆虽然在基因克隆效率上有很大的优势,但也存在一些弊端。首先通过电子克隆获得CDN
23、A全序列可行性,受已有的EST数目制约。在GenBank中已经登录了浩大的人类和小鼠、大鼠的EST数据资料,利用EST拼接它们的全长CDNA序列相对简洁些。而植物EST数据库的资料目前还很欠缺,获得CDNA全序列的概率要小,难度要大。同时电子克隆不适用种间保守性差的基因和外显子数目多而且每个外显子短的基因,使得电子克隆技术应用的普遍性受到肯定的限制14o在实际应用中,电子克隆也经常会遇到一些特别麻烦的问题,针对这些问题,依据已有的探讨阅历列出了以下解决方案。首先,难以获得完整的5,端序列。这是电子克隆中遇到的最主要问题。因为植物基因的5,端保守性一般比较低,在以基因组序列为基础的电子克隆中尤其
24、难以确定。依据KoZak规则以及一些阅历,对于完整ORF的5,完整性一般有以下几条原则:参考5端的起始密码子AUG的四周序列(GCC)GCCA/GCCAUGG规则;在起始密码子上游的阅读框序列中是否存在终止密码子;依据已有的其他物种该类基因的5,端序列与预料物种T端的序列一样性比较。另外也可以依据Northern杂交的结果推断该基因转录本的大小。其次,对于通过基因组结构预料获得的基因,有时候难以确定其表达的时期,给RT-PCR验证带来困难。一般可以依据其功能预料或查找相关的文献资料确定该基因的表达时期,也可以同时测定各个时期和不同组织的表达谱加以推断。第三,有些查询探针是来自与预料物种如水稻同
25、源关系较远的物种,给基因结构的人工分析带来困难。这种状况下可以借助于基因结构预料软件,使得结构分析变得简洁而且精确。由于水稻基因的基因组序列平均只有4.5,只要将该基因估计的基因组序列(MkgeuMtn*ObtiedvayVaiUcotOoeBid1.VKEHH三*I!Ktbru*unctiUknn纤UHoCvlcCAN型“冲川处能研x&ii所mamWViUfVbdbMMM.ttkpvbxqulB(XttlX-*0CJhttoi1AOw.a11K6knlCAM*tr*4cmecatu15ImJnonAmuMo”彳构修*nUII.50WthMtftAa上命po*htfwcwtMCHUwkUAbb
26、MIkfl-参考文献1李鑫,章涛.新基因的克隆策略和方法J.海峡药学,2004,16(3):16-19.2何志颖,姚玉成,胡以平.EST技术及其在基因全长CDNA克隆上的应用策略J1.国外医学遗传学分册,2002,25(2):67-69.3BoguskiMS,SchulerGD.ESTablishingahumantranscriptmapJ.NatGenet,1995,10(4):367-371.4黄骥,张红生,曹雅君,等.水稻功能基因的电子克隆策略J.中国水稻科学,2002,16(4):295-298.5张成岗,贺福初.生物信息学方法与实践M.北京:科学出版社,2002.6路海峰,刘晓辉.
27、网页方式下的B1.AST程序J.生物技术,2003,13(1):48-51.7HuangX.AnimprovedsequenceassemblyprogramJ.Genomics,1996,33(1):21-31.8万跃华,何立民.网上生物信息学数据库资源J.情报学报,2002,21(4):497-512.9张见影,伦志军,李正红.NCBI基因序列数据库运用和检索方法J.现代情报,2003(12):224-225.10张成岗,贺福初.生物信息学在新基因全长cDNA序列分析及功能预料中的应用J.生物化学与生物物理进展,2003,30(1):159-163.11黄骥,张红生,曹雅君,等.一个新的水
28、稻C2H2型锌指蛋白cDNA的克隆与序列分析U1.南京农业高校学报,2002,25(2):110-112.12黄骥,王建飞,张红生.植物戊糖磷酸途径及其两个关键酶的探讨进展J.植物学通报,2004,21(2):139-145.13BiancaHabermann,Anne-GaelleBebin,StephanHerklotz.AnAmbystomamexicanumESTsequencingproject:analysisof17,352expressedsequencetagsfromembryonicandregeneratingblastemacDNAlibrariesJ.GenomeBiol,2004,5(9):67.14万海伟,杜立新.表达序列标签(EST)在基因组学探讨中的应用J生物技术通报,2004(1):35-38.15BikramSGill,RudiAppels,Anna-MariaBotha-Oberholster.Aworkshopreportonwheatgenomesequencing:internalionalgenomeresearchonwheatconsortiumJ.Genetics,2004,168:1087-1096.