全基因组关联分析.ppt.ppt

上传人:夺命阿水 文档编号:759036 上传时间:2023-11-14 格式:PPT 页数:43 大小:5.08MB
返回 下载 相关 举报
全基因组关联分析.ppt.ppt_第1页
第1页 / 共43页
全基因组关联分析.ppt.ppt_第2页
第2页 / 共43页
全基因组关联分析.ppt.ppt_第3页
第3页 / 共43页
全基因组关联分析.ppt.ppt_第4页
第4页 / 共43页
全基因组关联分析.ppt.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《全基因组关联分析.ppt.ppt》由会员分享,可在线阅读,更多相关《全基因组关联分析.ppt.ppt(43页珍藏版)》请在课桌文档上搜索。

1、全基因组关联分析,2,概念,引言,全基因组关联分析英文名字叫Genome-wide association study简称GWAS,全基因组关联分析是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病/性状相关的SNPs。,3,概念,引言,全基因组范围内的SNP,4,概念,引言,全基因组范围内的SNP对某一复杂疾病/性状的影响关联,身高间的差异,5,单基因遗传,背景,利用家系连锁分析的定位克隆方法,发现了大量单基因疾病,如囊性纤维化病、亨廷顿病性痴呆,亨廷顿病性痴呆,囊性纤维化病,6,单基因遗传性状,背景,7,单基因遗传性状,背景,8,家系连锁分析的定位克隆

2、,背景,单基因家系连锁分析,9,背景,但对于复杂疾病,连锁分析的作用非常有限。,10,研究基础,进行 GWAS时,选择的表型定义要准确和精确应尽可能选择那些可定量反映疾病危险程度的指标、可用于分析疾病临床亚型的特征,或可用于诊断和鉴别诊断疾病的表型特征。,缺血性脑卒中可能涉及血栓脱落或者脑动脉粥样硬化等不同的发病机制,但 在人群中却常常同时出现而难以区分,11,研究基础,单核苷酸多态性(SNP)和拷贝数变异(CNV)GWAS的主要对象随着人类基因组单体型计划的完成,收录了成千上百万的SNP,SNP是人类基因组中最常见的遗传变异,现已被用作第三代遗传标识。CNV是指与参考序列相比,基因组中 1

3、kb 的 DNA 片段插入、缺失和/或扩增,及其互相组合衍生的复杂染色体结构变异。发现了成千上万的基因组拷贝数变异(copy number variations,CNV),它们能显著影响基因的表达。,12,研究基础,基因组单倍体图谱计划(International Human HapMap Project)的实施和基因连锁不平衡,13,遗传标记的选择,SNP基于单倍型图谱(HapMap)可以选择 五十万 到 一百万个覆盖全基因组的SNP用于GWAS。CNV基因组拷贝数变异(copy number variations,CNV)是指与参考序列相比,基因组中 1 kb 的 DNA 片段插入、缺失和

4、/或扩增,及其互相组合衍生的复杂染色体结构变异,14,SNP,单倍型,是单倍体基因型的简称,在遗传学上是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合,15,CNV,2004年,Iafrate 等和Sebat等首次描述了人类基因组CNV,2006年 Redon 等确定了覆盖12%(300 Mb)人类基因组的1 447个CNV区域(CNV region,CNVR),CNV 可能通过数量作用和质量作用两种机制引起的基因剂量改变导致表型改变,所以CNV全基因组关联分析(CNV association analysis)可能更容易检测到致病遗传变异,16,CNV,2006年11月23日,一个

5、国际研究小组在Nature(2006,444:444)上发表研究报告称,通过分析270名亚洲、非洲和欧洲健康者的DNA样本,发现了约2900个基因(至少占人类基因总数的10%)含有特异DNA片段拷贝数变异(CNV)。研究者认为,这些变异会影响基因活性,造成疾病易感性的个体差异。此前学术界认为人类个体间基因组序列一致性达99.9%,该研究结果对此提出了置疑。另外,随着第一代人类基因组拷贝数变异图谱的完成,人们审视疾病与基因的关系又多了一种视角,除了检测单核苷酸多态性(SNP),或者显微镜检染色体异常外,还可对中间长度(数百万核苷酸)的DNA片段变异进行评价。,17,CNV,染色体左侧的线条表示D

6、NA丢失的范围;右侧的线条表示DNA增加的范围,粗线条表示扩增.,CGH检测31例肝癌DNA变异频率结果图.,18,研究基础,基因分型技术和遗传信息学的发展,近年来,基因分型技术不断进步,分型成本显著降低,以基因芯片技术为代表的超高通量分型技术更是得到了飞速的发展,全基因组测序商业化和公司之间的竞争使得基因组测序成本越来越低,19,截止到2010年12月,已经陆续报导和公布了关于人类身高、体重、血压等主要形状,以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种疾病GWAS的结果。累计发表了近万篇论文(9900篇)。确定了一系列疾病发病的致病基因、

7、相关基因、易感区域和单核苷酸多态性(SNP)的变异,取得了很大成绩。,“GWAS第一次高潮”,成果,20,成果,截止到2010年12月GWAS发现的与人类性状或复杂疾病关联SNP位点(p510-8)不同颜色圆点代表不同性状或疾病,21,“GWAS第一次高潮”,成果,GWAS方法学(如研究设计、统计分析、结果的解释)也取得了极大的进步,22,进行 GWAS时需满足,病例必须携带导致疾病的遗传因素 选择覆盖全基因组的SNP或CNV研究样本量达到足够的检验效能 采用高效可靠的数据分析方法以及进行重复验证检验等条件,23,研究方式,24,研究方式,25,研究方式,GWAS目前分为单阶段研究和多阶段研究

8、,单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个 SNP与疾病的关联,在早期 GWAS多使用,GWAS目前分为单阶段研究和多阶段研究,单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个 SNP与疾病的关联,在早期 GWAS多使用,GWAS目前分为单阶段研究和多阶段研究,单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个 SNP与疾病的关联,在早期 GWAS多使用,26,研究方式,多阶段研究多为两阶段研究,694个体,923个体,27,两阶段研究,第一阶段的分析可以是以个体

9、为单位,也可以采用DNA pooling的方法,筛选出较少量的阳性SNP 注意:要保证SNP的敏感性和特异性,后者简单,但误差大,其估计的等位基因的频率标准差在1%4%之间,对检验效能有重要影响,第一阶段的分析可以是以个体为单位,也可以采用DNA pooling的方法,筛选出较少量的阳性SNP 注意:要保证SNP的敏感性和特异性,后者简单,但误差大,其估计的等位基因的频率标准差在1%4%之间,对检验效能有重要影响,28,两阶段研究,第二阶段采用更大的样本对第一阶段筛选出的阳性SNP进行分析 注:应用大样本人群甚至在多种人群中进行基因分型验证,29,遗传统计分析,GWAS比较每个SNP等位基因频

10、率差别多采用4格表的卡方检验,同时需对如年龄、性别等主要混杂因素采用Logistic回归分析。,在GWAS中,人群分层(population stratification)和多重假设检验调整(multiple testing adjusting)是引起研结果分析误差的最主要原因,30,人群分层,人群分层是导致许多大样本研究出现假阳性或假阴性结果的一个主要原因 如Campbell等(2005)采用欧裔美国人研究与身高表型乳糖酶基 因型的关联,其结果在其他人群难以重复的原因即是受研究对象在不同地域存在极大差异引起的人群分层影响人群分层产生的问题即使在研究对象是 同一种族人群时也仍然存在,而且现有的

11、研究方法 尚未能有效地解决此类问题,一种可能的策略是采用基于家系的关联研究,该方法可以避免人群分层对关联分析结果的影响,31,群体分层,32,如果采用较为宽松的多重假设检验方法就可能导致 I 类错误,出现大量的假阳性关联;但是如果采用最为严格 Bonferroni校正,则又可能导致过度校正,结果使假阴性概率增加,而与疾病真正关联的 SNP难以发现。,二、多重假设检验,结论:GWAS不能仅凭 P 值判断某个 SNP 是否与疾病真正关联,多种族、多群体、大样本的重复验证研究(replication)才是提高检验效能、确保发现真正疾病关联SNP的关键。,33,局限性,通过统计分析遗传因素和性状/复杂

12、疾病关联确定与特定性状/复杂性疾病关联的功能性位点存在一定难度同义突变、不在ORF等。,例如:胰岛素基因启动子中的遗传变异增加型糖尿病风险,SNP在 RNA 的转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调 节基因的转录表达或影响其 RNA 剪接方式。因此,研究者在找寻疾病相关变异时,应同时注意到编码区和调控区位点变异的重要性。,34,局限性,大部分常见遗传变异可能通过单独或联合作用轻度增加疾病发生风险,而这些变异仅可解释部分人群中因遗传引起的表型变异。,35,局限性,最后,GWAS是一种发现符合常见疾病-常见变异假 说(common disease comm

13、on variant hypothesis)相关 位点的方法,其可以确定相关位点但不能直接确定基因本身,且在任何特定人群中 GWAS都不能方便地识别罕见的风险等位基因位点(下图),36,局限性,37,反思,“所有的改变,即使是最令人期待的,也有令人惆怅的一面,我们抛在脑后的一切仍如影随形”阿纳托尔 法朗士(Anatole France,18441924)现在发现这种全基因组分析是高出低收:昂贵的全基因组关联研究(每人份的花费预计高达数百万美元)所得的结果庞杂无序,大多数的基因变异与疾病并不关联。在已实施的100余项GWAS和几千例患者样本的分析结果发现,许多基因变异都是罕见的基因变异而不是关键

14、基因,有一些变异仅仅与疾病危险因子、诱发因子、影响因子有关,而不是疾病直接相关联的基因,38,反思,在疾病/性状的发生过程中,基因是重要的,但不是唯一的,除了基因以外,还有RNA、蛋白质等;除了基因变异以外,还有转录、翻译、表观(epigenetics)、构象、调节和功能的变化等。最近国际基因组研究团队在冷泉港开会,研究、调整、部署下一阶段基因组计划。提出应以“外显子”为全基因组分析的中心。因为已发现多数与疾病相关联的基因变异都发生在外显子,而且外显子数量少,功能明确,分析相对容易、经济。,39,反思,所得的结果庞杂无序,大多数的基因变异与疾病并不关联。在已实施的100余项GWAS和几千例患者

15、样本的分析结果发现,许多基因变异都是罕见的基因变异而不是关键基因,有一些变异仅仅与疾病危险因子、诱发因子、影响因子有关,而不是疾病直接相关联的基因,流行病学家JohnIoannidis说:“大多数已发表的研究都是错误的。”他认为,太多的科学家们急功近利地寻找种种基因变异与某一疾病发生风险之间的关系,而杂志社又急于发表描述这类关系的研究论文。,40,美国加州一个与硅芯片相关的潜力大产业正在这里兴起,那就是基因组测序技术产业。一家名为“整合基因”(Complete Genomics,CG)的公司专为科学家提供外包的测序服务,更绝的是,在这家公司里做测序的,并不是研究人员,而是一排排的机器人 目前C

16、G公司只针对研究者和制药公司开放,个人还没法购买他们的服务。在这里,每对基因组测序要价9500美元,如果购买1000对以上,则每对价格降为5000美元。这个价格是随着基因组测序技术突飞猛进而急剧下降的,要知道,十年前,第一对人类基因组序列完成时,其价格是以十几亿美元计量的。,资料扩展,41,资料扩展,工作人员正在蓝色幽暗的“车间”内操作检测设备。,CG公司的基因组测序工作完全由机器人完成。,42,资料扩展,5月19-21日,由国际知名的自然出版集团(Nature Publishing Group)与安徽医科大学共同主办的2011年度全基因组关联分析研究国际论坛(2011 Genome Wide AssociationStudy)在安徽医科大学隆重举行。此次论坛的主题是“全基因组关联研究2011:机遇与挑战”(GWAS2011:Opportunity and challenge)。专家代表紧紧围绕全基因组关联研究在发现常见疾病易感基因应用过程中出现的常见问题、技术难点及其发展方向,以及对全基因组关联研究推动转化医学进程进行了深入而广泛的研讨。,43,小结,GWAS的概念与传统关联分析方法的比较单基因性状家系连锁分析研究基础表型选择研究对象SNP与CNV技术支持GWAS研究成果研究方式未来发展展望反思,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号