《2022三代测序技术在遗传病诊断中的应用进展(全文).docx》由会员分享,可在线阅读,更多相关《2022三代测序技术在遗传病诊断中的应用进展(全文).docx(10页珍藏版)》请在课桌文档上搜索。
1、2022三代测序技术在遗传病诊断中的应用进展(全文)摘要遗传学检测技术的更新迭代不断推动着人类对遗传病的理解,但由于现有技术的局限性,无法识别部分变异或尚未构建部分变异与表型之间的联系,故仍有约半数的遗传病未得到明确诊断。近十余年来,以纳米孔测序和单分子实时测序为代表的三代测序技术,弥补了二代测序的技术盲区,在串联重复序列分析、结构变异、单倍型分析等遗传学检测的各方面展示出其优势。本文就测序技术的发展、三代测序技术的原理和技术特点、在遗传病诊断中的应用进行阐述。为了构建遗传变异与疾病和表型之间的关联,深化对基因功能的理解,目前对遗传检测技术的分辨率、通量、准确性等各方面的要求逐步提升。高通量测
2、序技术的出现使罕见病的研究和遗传病的临床诊断工作迈出了巨大的一步。而三代测序技术,又称长读长测序(longreadsequencing,LRS),则进一步弥补了二代测序的技术瓶颈,在基因组的从头组装、全长转录组分析、结构变异的检测、微生物鉴定、单倍型构建、表观遗传分析等方面显示出巨大优势。尤其是随着近年来三代测序准确性的提升,其已逐渐在遗传学检测领域崭露头角。一、测序技术的发展简史近半个世纪以来,测序技术迅猛发展,科学家对人类基因组的探索持续深化着人们对遗传性疾病分子机制的理解,为遗传病的诊断和个体化治疗奠定了坚实的基础。1977年,Maxam和Gilbert化学降解法1以及Sanger双脱氧
3、链末端终止法测序2的提出标志着生物学及遗传学领域的一大革命,并最终推动了人类基因组计划的进行。迄今为止,Sanger测序仍为基因序列检测的金标准。对高通量大规模测序的需求促使了21世纪初二代测序(nextgenerationsequencing,NGS)技术的兴起。随着测序成本的下降,NGS已广泛应用于单基因遗传病的诊断。虽然NGS在单核昔酸变异和小于50bp的插入缺失的检测中取得了重大进展,但其仍然存在一些固有的局限性。如受限于读长短,NGS无法实现对串联重复序列和复杂性结构重排的有效检出;且由于依赖于聚合酶链反应(polymerasechainreaction,PCR)扩增,对于极端GC含
4、量区域彳主往导致覆盖不均一3,因此对结构变异,如拷贝数变异等的检测灵敏度不稳定4o有研究认为,NGS检出变异的准确性与变异的类型、定位、读取深度密切相关,并随分析管道analysispipeline而变化,大多数全基因组测序(wholegenomesequencing,WGS)的假阴性由数据过滤造成,而大多数全外显子测序(wholeexomesequencing,WES)的假阴性则与低覆盖率相关,强调了正确使用、持续改进、合理解读NGS结果的重要性5L三代测序,即单分子DNA测序,有望弥补NGS的不足,拥有良好的应用前景。2008年,Helicos公司推出了第一台真正意义上的单分子测序仪6,但
5、其高售价及短读长限制了其市场推广和应用。2009年,太平洋生物科学公司(PacificBioscience,PacBio)的单分子实时测序(singlemolecularreal-timesequencing,SMRT)7和牛津纳米孔科技有限公司(OxfordNanoporeTechnologies,ONT)的纳米孔测序技术(Nanoporesequencing)8推出并相继投入商用。目前,PacBio已经过RS、RSiI、SequekSeqUeIn平台升级,在通量、成本、测序周期、数据质量等方面逐步优化90ffoONT同样推出了MinION.GridION.PromethION.Flongl
6、e等平台以适应不同应用需求,并通过芯片的升级、文库制备策略的改进、生物信息学分析算法的开发应用等实现了测序数据准确性的提升10o二、三代测序的原理及技术特点SMRT延续了二代测序边合成边测序的理念,将发夹状接头连接到目标双链DNA两端从而构建环状单链DNA模板,即SMRTbell11o当SMRTbell载入SMRTcell芯片的测序单元零模波导(ZerO-modewaveguide,ZMW),并与固定于ZMW底部的聚合酶结合时,即能在聚合酶和引物的作用下开始复制7L在加入四色荧光标记磷酸基团的脱氧核糖核昔酸三磷酸(deoxy-ribonucleosidetriphosphate,dNTP)底物
7、后,聚合酶捕获DNA合成所需的dNTP使其停留于ZMW底部。通过激光激发荧光基团产生相应荧光信号,实时记录荧光颜色和持续时间,实现碱基的判读和甲基化修饰的识别12Jo由于SMRT测序的错误是随机的,因此PacBio通过对单条DNA分子进行滚环测序获得循环共有序列(circleconsensussequencing,CCS)的方式实现测序错误的自我校正,当测序深度达到IOX时,CCS读取准确率能够达到99.9%130纳米孔测序技术的核心元件为镶嵌于高电阻率多聚物薄膜中的纳米级蛋白小孔。薄膜两侧充满含有离子的溶液,使用时加以恒定电压,离子电流即能通过纳米孔14o制备好的DNA或RNA文库在马达蛋白
8、的作用下解螺旋为单链,与此同时,带负电荷的单链DNA或RNA在电压驱动下通过纳米孔。核甘酸通过纳米孔时造成电流波动,同一时间的电流波动由当时同处于纳米孔内的5个核甘酸共同作用引起。通过机器学习,对电流信号波形图进行分析,最终将电信号转变为DNA序列信息15o2017年,0NT发布了R9.5芯片和1D2文库构建方案,通过在DNA双链两端连接特殊接头,使互补链在一定概率下能够在模板链之后被捕获测序,从而使测序平均准确率达到95%10,16o而RIO.R103芯片则有两个感测区,纳米孔通道更长,对于同聚物区域的测序准确性更高170目前,MinION平台产生的数据已能够构建准确率99%的基因组的组装1
9、8o尽管准确性较PacBio平台稍逊色,但由于不受聚合酶活性的影响,纳米孔测序的读长主要由文库中待测分子的大小决定,故能达到很高的上限。2019年报道的最大读长已可达到2.273Mb190研究表明,通过对高分子量DNA进行机械打断,能够获得5070kb的N50读长,而通过转座酶介导,N50读长则可达到90-100kb20L此外,纳米孔测序仪的便携性使实时测序成为可能,为一些特殊情况下的样本采集创造了条件。三、三代测序在遗传病诊断中的应用1.基因组结构变异的检测:基因组结构变异(structurevariations,SV)包括大于50bp的插入或缺失、倒位、易位、拷贝数变异、嵌合、重复序列扩增
10、等,是个体间遗传变异和疾病发生的重要原因之一,比单核昔酸多态性(singlenucleotidepolymorphism,SNP)位点和其他小的遗传变异累及更多的碱基21L由于全基因组范围内检测分辨率受限,SV尤其是平衡性SV与疾病和表型之间的关联尚有待挖掘。研究表明,三代测序对SV的检测灵敏度较短读长测序(shortreadsequencing,SRS)高5倍左右22JoBeyter等23对3622例冰岛人进行了三代测序,发现个体SV的中位数为22636个(中位插入数13353个,中位缺失数7474个X我国学者同样应用三代测序对405例无亲缘关系的中国人进行了一项全基因组SV的研究,发现了1
11、32312个非冗余SV,其中新发现的SV占45.2%,通过对编码区1681个基因的1929种功能丧失型SV进行注释为中国人群中SV与表型和疾病的关联提供了新见蛹24o2018年,Merker等25应用三代测序检出了引起Carney综合征的PRKAR1A基因的2184bp杂合缺失,标志着三代测序首次成功应用于临床患者致病性变异的检测。目前,三代测序在SV检测中的优势主要体现在以下几个方面。首先,三代测序以其长读长、能够准确提供SV断点信息、构建单倍型等优势,对于平衡性SV的识别具有重要的价值。尽管染色体平衡易位患者大多表型正常,但其与不孕、复发性流产以及生育染色体不平衡的下一代密切相关26o染色
12、体微阵列分析、NGS等对于不引起拷贝数变化的平衡性SV缺乏检出能力,而三代测序则有望成为平衡性SV患者胚胎植入前遗传学检测、产前诊断的有力工具27280其次,三代测序位点覆盖全面且均一,能够一次实现对多种类型变异的同时检测,因而为由多种复杂性SV引起的遗传性疾病,如地中海贫血等的携带者筛查和诊断提供了新思路29-30o再次,转座子以其序列相似性,是引起基因组重排和遗传性疾病的重要原因之一。但受检测分辨率以及SRS覆盖偏移等因素的影响,转座子介导的重组事件往往无法被检出,而无GC偏好、覆盖均一的三代测序则能对此类遗传机制所导致的小片段结构变异进行识别31-321Xie等33应用三代测序为1例涉及
13、LINE-I介导的IMb倒位以及5端断点区域存在缺失和插入的DMD基因复杂性SV病例明确诊断。Miao翱34则使用LRS发现了WES未能发现的G6PC基因7.1kb的缺失,并明确其双侧断点位于Alu元件。最后,三代测序不依赖于亲代样本分析就能够识别等位基因突变的顺反式构型,对于家系数据获取困难的患者以及诊断时间有限的胎儿具有重要意义。2.串联重复序列分析:人类基因组中串联重复序列数量众多、分布广泛,其多态性是基因组动态突变的来源35o其中短串联重复序列(shorttandemrepeat,STR),又称微卫星DNA,由26bp碱基为一个单元的核心序列构成由于在DNA复制和修复过程中易发生滑脱,
14、故STR重复次数高度可变。STR扩增致病的分子机制主要包括功能丧失和毒性功能获得36,且重复次数与疾病表型的严重程度相关。目前已知以神经退行性疾病,如脆性X综合征、亨廷顿舞蹈症、脊髓小脑共济失调等为代表的40余种疾病的表型与STR异常扩增相关37o因此,正确识别STR异常扩增、准确定量重复次数对于该类疾病的诊断、遗传咨询和风险评估具有极为重要的价值。Southern印迹法是该类疾病诊断的金标准,但其对样本质量要求高且费时费力,临床应用受限,现已逐渐被重复引物PCR技术(repeatprimedPCR,RP-PCR)取代。然而RP-PCR存在通量低、只能对目标STR进行分析等局限性。随着高通量测
15、序技术的发展,研究者试图通过NGS实现对多个候选区域的平行分析,但由于PCR偏移、短读长数据在STR中比对困难等原因而限制了其应用38o尽管近年来NGS平台推出了各种生物信息学算法和分析工具,但其仍仅能作为一种筛选手段提高串联重复序列扩增的总体检出率,而不能准确测定重复次数39o三代测序以其长读长、能够进行甲基化检测等优势,近年来逐渐被应用于STR的分析。脆性X综合征FMRl基因从前突变扩展为全突变的风险主要取决于CGG三核甘酸重复次数和AGG对该重复序列的干扰。Ardui等40使用三代测序描述了51例FMRl基因中间突变或前突变携带者的STR结构,并结合AGG分析了解重复序列的稳定性,从而实
16、现了对其子代患病风险更加准确的评估。另有研究使用SMRT测序在脊髓小脑共济失调10型患者中获得跨越ATAXNIO基因五核昔酸重复扩增区域的全序列,从而识别了该非编码区重复序列的中断模式,为进一步研究中断序列与患者癫痫表型的潜在关联奠定了基础41o除对已知疾病相关STR的分析外,研究者还应用三代测序探索了疾病相关的新基因。Ishiura制42岐用BAC克隆联合三代测序揭示了SAMDI2、TNRC6A、RAPGEF基因内含子五核昔酸序列的异常扩增与良性成人性家族性肌阵挛性癫痫之间的关联。2019年,Sone等43则通过三代测序在一个神经元核内包涵体疾病(neuronalintranuclearin
17、clusiondisease,NIID)家系中发现所有患者N0TCH2NLC基因5非翻译区均存在GGC的异常扩增。其后,我国学者在中国患者中应用三代测序再次证实了NIID的病因44-45o随着无需扩增的CRISPR-Cas9靶向技术和各种生物信息学算法的推出,三代测序对高GC含量区域和STR区域靶向富集的优势愈发明显。研究者应用CRISPR-Cas9系统结合SMRT测序研究HTT基因中的重复元件,并开发了一个可靠的重复元件分析管道,无需将读取序列与参考序列比对即可自动计算两个等位基因重复序列的重复数目,为基于PCR扩增的方法难以研究的重复元件提供了准确的分析方法46。Giesselmann等4
18、7则基于CRISPR-Cas9富集策略结合一种原始信号分析算法(STRique)进行纳米孔测序,实现了STR的识别、重复数的精准定量以及CpG岛甲基化状态的测定。目前已有RepeatHMMsSTRiquextandemgenotypes.NanoSateIIitexPacmonSTR等多种算法可用于STR分析。由于需基于不同STR设计相应CRISPR-Cas9引导RNA,故对于多个STR位点的同时检测则依赖CRISPR-Cas9进行靶向富集仍然十分繁琐。最近有研究报道,使用纳米孔测序的ReadUntil功能,针对目前已知的神经性疾病相关STR位点进行目标序列捕获,可在一次实验中完成所有STR扩
19、增的准确检测,不仅大大降低了成本,而且获得了较高的检测效益48o3 .与假基因有高度同源性的序列分析:许多疾病相关基因存在序列高度同源的假基因,对于该类疾病的遗传学诊断必须避免假基因序列的污染。目前多采用长片段PCR结合巢式PCR后进行直接测序,但该方法工作量大、效益低。尽管NGS以其高通量在单基因遗传病诊断中的应用逐渐广泛,但其无法区分假基因序列,且对于高GC含量区域捕获效率较低。而三代测序则能够有效避免高度同源序列的干扰,现已在成人型多囊肾、先天性肾上腺皮质增生症等多种疾病中验证了其检测效能4950o有研究通过三代测序对1例NGS提示为TMEM231基因4号外显子杂合缺失的患者进行验证,发
20、现了该区域的4处错义变异,该种序列变异一方面由于被比对至下游假基因而未能被NGS检出,另一方面由于目标外显子读取深度的减少而被误判为缺失51,提示了NGS在存在假基因的单基因遗传病的检测中应用受限。同样,有学者在腓骨肌萎缩症(Charcot-Marie-Toothdisease)2型的患者中应用了三代测序,发现其能够克服由于S0RD2P假基因以及SORD等位基因突变位点顺反式判断困难所导致的遗传学诊断的局限性52L4 .单倍型分析:单倍型是一组位于同一条染色体上连锁紧密、不发生重组的SNP位点的排列。通过单倍型分析能够将等位基因定位至相应的亲代染色体,在确定变异来源从而实现遗传病的预防和阻断、
21、缩小可疑致病位点的候选区域协助变异位点的发现、全基因组关联分析等方面具有重要价值。英国学者在1例患儿基因组中发现了位于SAMD9L基因编码区相距2277bp的2个突变,由于附近缺乏杂合SNP位点,故使用NGS无法明确亲本来源,通过MinION平台测序获得同时包含这2个突变的读长,明确了突变位点的顺反式构型并通过单倍型分析最终将突变定位于父亲单倍型53o另有研究应用SMRT测序结合特定算法对亨廷顿舞蹈症患者CAG重复扩增区域附近的SNP位点进行单倍型分析从而筛选符合标准的患者入组寡核甘酸疗法的临床试验540这些研究均表明,三代测序以其长读长在单倍型分析中具备得天独厚的优势,为临床和科研工作的深入
22、开展创造了条件。四、总结与展望目前,三代测序的大规模临床应用仍然受限。一方面,三代测序在测序准确性方面尚有改进的空间;另一方面,高昂的测序成本能否获得与其相匹配的检测获益有待评估;此外,目前基于三代测序平台的生物信息学算法仍不够完备,缺乏标准化分析方法,对于获取的大量数据的解读和临床咨询无疑是一大难关。现主要通过对目标研究区域靶向富集后测序从而降低测序成本,减少数据冗余,并有利于遗传咨询。也可采取二代测序和三代测序相结合的分析方法,通过二代测序进行连锁分析缩小候选区域,从而减少分析量并提高针对性,或使用二代测序对三代测序的结果进行校正。相信随着平台的更新、相关算法和分析软件的进一步开发应用,三代测序的成本将逐渐下降,并以其技术优势突破二代测序的检测瓶颈,为遗传病诊断带来新机遇。