统计学:方差分析.ppt

上传人:夺命阿水 文档编号:259951 上传时间:2023-03-31 格式:PPT 页数:59 大小:2.35MB
返回 下载 相关 举报
统计学:方差分析.ppt_第1页
第1页 / 共59页
统计学:方差分析.ppt_第2页
第2页 / 共59页
统计学:方差分析.ppt_第3页
第3页 / 共59页
统计学:方差分析.ppt_第4页
第4页 / 共59页
统计学:方差分析.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《统计学:方差分析.ppt》由会员分享,可在线阅读,更多相关《统计学:方差分析.ppt(59页珍藏版)》请在课桌文档上搜索。

1、统计学:方差分析,(analysis of variationANOVA),要求:1.理解ANOVA基本思想2.熟练掌握成组设计ANOVA的适用条件和计算过程3.了解配伍设计、析因设计、重复测量资料的ANOVA4.了解ANOVA的SAS程序和SPSS上机操作过程,引例,例9-1 某医生研究一种降糖新药,按完全随机设计将患者分为三组进行双盲试验。结果如下,试问三组病人的降糖水平是否一致?,表9-1 三组病人血糖下降值,方差分析,方差分析(analysis of variance),简称ANOVA,由英国统计学家R.A.Fisher首先提出。考虑到样本均数间的差异,可能由于两种原因所致,首先可能由

2、于随机误差所致,随机误差中包括两种成分:个体间的变异和测量误差两部分;其次可能是由于各组所接受的处理不同,引起不同的作用和效果,导致各处理组之间均数不同。一般来讲,各个体之间各不相同,是繁杂的生物界的特点;测量误差是不可避免的,因此第一种原因肯定存在。而第二种原因是否存在,这正是假设检验要回答的问题。多组资料均数比较不宜用两样本t 检验进行两两比较,否则会增大犯第一类错误的概率。,计算机模拟两两比较的第一类错误,表9-2 从已知总体N(10,52)随机抽取10个样本(ni=20)的结果,实际上犯第一类错误的概率为5/450.110.05。理论上,45次同时不犯第一类错误的概率为(10.05)4

3、5=0.09944,而犯第一类错误的概率为1(10.05)45=0.90055,t 检验两两比较的精确性和检验的灵敏性低,对同一试验的多个处理进行比较时,应该有一个统一的试验误差的估计值。若用t检验法作两两比较,由于每次比较需计算一个,故使得各次比较误差的估计不统一,同时没有充分利用资料所提供的信息而使误差估计的精确性降低,从而降低检验(推断正确)的灵敏性。如上例试验有10个处理(因素),每个处理重复20次,共有200个观测值。进行t检验时,每次只能利用两个处理共40个观测值估计试验误差,误差自由度为2(20-1)=38;若利用整个试验的200个观测值估计试验误差,显然估计的精确性高,且误差自

4、由度为10(20-1)=190。可见,在用t检法进行检验时,由于估计误差的精确性低,误差自由度小,使检验的灵敏性降低。,方差分析应用条件(详见第六节),1.各样本须是相互独立的随机样本2.各样本均来自正态总体3.相互比较的各样本所来自的总体方差相等(方差齐性),方差分析应用范围,1.多个样本均数(含两个)间的比较2.分析两个或多个因素间的交互作用3.回归方程的假设检验4.方差齐性检验,方差分析实验(调查)设计类型,1.完全随机设计资料的ANOVA2.配伍组设计资料的ANOVA3.交叉设计资料的ANOVA4.拉丁方设计资料的ANOVA(三因素试验设计)5.析因试验设计资料的ANOVA(完全交叉分

5、组设计)6.正交试验设计资料的ANOVA7.裂区试验设计资料的ANOVA(多个配伍组与拉丁方试验组合)8.可重复测量资料的ANOVA,第一节 完全随机设计资料的ANOVA,方差分析的基本思想是将所有观察值之间的变异(称为总变异)按设计和需要分解成几部分。如:完全随机设计资料的ANOVA,将总变异分解为组间变异和组内变异两部分,后者称为误差:总变异=本质上的差别+抽样误差(组间差异)(组内差异)由于ANOVA是根据试验设计将总变异分成若干部分,因此设计时考虑的因素越多,变异划分的越精细,各部分变异的涵义越清晰明确,结论的解释也越容易。同时由于变异划分精细,误差部分减小,提高了检验的灵敏度和结论的

6、准确性。方差分析的基本思想是:按造成数据变异的来源分解离均差平方和与自由度,然后借助F分布作统计推断。,一、方差分析的基本思想,二、方差分析资料形式,k个处理组的试验结果,三、完全随机设计及假设,完全随机设计也称成组设计,只有一个研究因素。如:在实验研究中,按完全随机化原则将受试对象随机分配到多个组(称水平)中去,然后观察实验效应。在调查研究中,按随机化原则,抽取不同组(水平)的某个研究因素,比较该因素的效应。无论是实验,还是调查,研究的目的都是比较不同水平下,各组平均值之间的差别是否有统计学意义。,ANOVA的假设:H0:k 组总体均数相等,即1=2=k;H1:至少有两组总体均数不相等,四、

7、变异分解,当P时,拒绝H0,例9-1分析计算,查附表3,F0.05(2,57)F0.05(2,60)=3.15 P0.05拒绝H0,认为三组血糖下降水平不完全一致。,五、方差分析表,查 F 界值表,得F0.01(2,57)F0.01(2,60)=4.98 5.537所以 P0.01,在=0.05水平上拒绝H0,可认为不同餐后2小时血糖的总体水平不完全相同。,六、几点说明,1.当H0被拒绝后,只能表明几种处理的结果有差别,但并不表明任何两种之间有差别,若要深入了解,需作两两比较2.当k=2时,F=t2 3.当 k3 时,不宜先做两两比较的t检验,否则会增加犯第一类错误的概率,易将无差别的两均数错

8、判为有差别。4.当资料提供的是 时,,第二节 随机区组设计的ANOVA,随机区组设计(randomized block design)也称配伍设计是配对设计的推广,有两个研究因素,它在医学科研设计较为常见,例如在实验研究中,将动物按窝别配伍,再随机分配到各个处理组。它实际上是用分层的思想,事先将全部受试对象按某种或某些特征分为若干区组(配伍组因素),使每个区组内研究对象的特征尽可能相近。再将每个区组内的受试对象随机的接受某一水平的处理(处理因素)。观察各处理组间的研究效应有无统计学意义。此外,同一受试对象不同时间点上的观察,或同一样本给予不同处理的比较也可按配伍设计进行分析。由于区组内的个体特

9、征比较一致,减少了个体间差异对研究结果的影响,一般而言,较成组设计更容易检验出处理组间的差别,提高了研究效率。,一、随机区组设计,二、区组设计资料形式,三、变异分解,四、举例分析,例9-2 资料见表9-6,试问三种不同方案的效果有无差别?,H0:1=2=3 H1:至少两组不等=0.05,计算分析,方差分析结果,区组划分原则,应当指出的是,区组效应是否具有统计学意义是重要的。它表明了区组划分是否成功,即是否真正达到了如下要求:1.同一区组内各试验单位很均匀2.不同区组间的试验单位有较大差异 区组效应有统计学意义,表明区组划分有一定效果,否则效果不好,甚至有相反的效果。区组设计资料若采用成组设计的

10、ANOVA方法处理,可以发现:SS总和SS组间不变,SS组间=SS处理,SS组内=SS区组+SS误差,如果MS区组MS误差,则F成组F区组,加上自由度的损失(N-k(k-1)(b-1)),使得研究因素的F值要达到具有统计学意义更难,即如果研究因素客观上确有效应,则当区组划分不当时,会降低发现这种效应的机会。可见,并非任何场合划分区组都好。若没有足够理由显示不同区组间差别确有统计学意义,则宁可不分。用于划分区组的因素应是对效应指标没有影响的非研究因素。,续,第三节 析因设计资料的ANOVA,例9-3 某研究人员为了了解升白细胞药物(A)和纯苯(B)对大鼠吞噬指数的影响,以及两者同时使用的作用。将

11、20只性别相同、体重相近的大鼠,按A、B两因素有无分为a1b1、a1b2、a2b1、a2b2四组。其中a1表示使用A药物;a2表示未使用A药物;b1表示使用B药物;b2表示未使用B药物。试验结果见表:,一、单独效应、主效应和交互效应,单独效应:a1a2=(0.096,0.0100),b1b2=(-1.8100,-1.8960);主效应:a1a2的均值0.0530,b1b2 的均值-1.8530;交互效应:AB=(a1b1b2b1)(a1b2a2b2)/2=(0.09600.0100)/2=0.0430BA=(b1a1b2a1)(b1a2b2a2)/2=-1.8100(-1.8960)/2=0.

12、0430,交互作用示意图,二、变异分解,SSA、SSB和SSAB的分解,析因设计的方差分析表,析因设计的假设检验,对于因素AH0:给药与不给药大鼠吞噬指数的总体均数相等H1:给药与不给药大鼠吞噬指数的总体均数不等对于因素BH0:染毒与不染毒大鼠吞噬指数的总体均数相等H1:染毒与不染毒大鼠吞噬指数的总体均数不等对于交互作用ABH0:给升白细胞药物与否不影响染毒与不染毒大鼠吞噬指数H1:给升白细胞药物与否影响染毒与不染毒大鼠吞噬指数,第四节 重复测量资料的ANOVA,重复测量(repeated measurement data)是同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料,常用

13、来分析该观察指标在不同时间点上的变化特点。这类资料在临床试验和流行病学研究中较为常见。例9-4 为研究减肥新药盐酸西布曲明片和盐酸西布曲明胶囊的减肥效果是否不同,以及肥胖患者服药后不同时间的体重随时间的变化情况。采用双盲法将40名患者随机分为两组,一组给予盐酸西布曲明片+模拟盐酸西布曲明胶囊(剂型1),另一组给予盐酸西布曲明胶囊+模拟盐酸西布曲明片(剂型2)。服药观察24周,分别与0周、8周、16周、24周测定受试对象体重(kg),资料见表9-13。,服药后不同时间点上的体重测量值,1.重复测量资料中同一受试对象的数据高度相关,测量数据的简单相关系数r(n=20),2.重复测量资料中的随机性,

14、重复测量资料中的处理因素在受试对象(看成区组)间为随机分配,但受试对象内的各时间点是固定的(研究的主要内容),不能随机分配;随机区组设计资料中每个区组内的受试对象彼此独立,处理只在区组内随机分配,同一区组内的受试对象接受的处理各不相同。本节介绍两因素重复测量资料的单变量ANOVA,一、变异分解,二、重复测量资料的假设检验,对于处理因素KH0:不同剂型(片剂和胶囊)的减肥效果相同H1:不同剂型(片剂和胶囊)的减肥效果不同对于时间因素H0:服用减肥药前后不同时间体重的总体均数全相等H1:服用减肥药前后不同时间体重的总体均数不全相等对于交互作用KIH0:药物剂型K和时间I无交互效应H1:药物剂型K和

15、时间I有交互效应,两因素重复测量资料方差分析表,三、重复测量资料ANOVA的前提条件,进行重复测量资料的方差分析,除需满足方差分析的一般条件外,还需满足协方差阵的球形性或复合对称性。若球形对称性质不满足,则方差分析的F值有偏的,因为她增大了第一类错误的概率。球对称性通常采用Mauchly检验来判断。本例资料的Mauchly检验结果如下:,Mauchiy检验和对称系数,H0:资料满足球对称 H1:资料不满足球对称,P=0.000,拒绝H0,资料的球对称校正,用Greenhouse-Geisser(G-G)法或Huynh-Feldt(H-F)法的球对称系数乘以受试对象内各变异的自由度后再查F界值表

16、获得P值。表9-17为资料校正后的结果。,校正前后的结果虽有不同,但结论未变。,第五节 多个样本均数间的多重比较,1.探索性研究 两两间相互比较 方法有:SNK法、Bonfferoni t 检验、idk t 检验2.证实性研究 如:多个处理组与一个对照组间的比较 处理后不同时期与处理前比较 方法有:Dunnett-t 检验、LSD-t 检验,SPSS中完全随机设计多个样本均数间比较,例9-1为例,某医生研究一种降糖新药,按完全随机设计将患者分为三组进行双盲试验。结果如下,试问三组病人的降糖水平是否一致?,一、LSDt 检验,适用于检验k 组中某一对或某几对在专业上有特殊意义的样本,完全随机设计

17、时,,配伍设计时,,其中A,B为比较组标识符,least significant different-t test,例9-1 LSD法两两比较结果,二、SNK-q test(Student-Newman-Keuls),适用于多个样本均数间每两个均数的比较,完全随机设计时,,随机区组设计时,,其中,a为当样本均数按从大到小排序后,A与B两组间的组间跨度,q(a,v)为 q分布,查附表4。,SNK-q界值表(Newman-Keuls法),例9-1 SNK-q 法两两比较结果,按0.05水平分为两组,例9-5,例9-5.对例9-1资料(完全随机设计)中三种不同时间血糖下降值的效果间两两比较。,将三个

18、样本均数由大到小排列,并编组次:,H0:1=3,SNK多个均数比较的q检验,三、Dunnett-t test,适用于k-1个试验组与一个对照组之间的多重比较,完全随机设计,,随机区组设计,其中:o为对照组标识符,D(v1,v2)为D分布,附表5,Dunnett-t界值表(双),例9-1 Dunnett-t 法两两比较结果,例9-6,例9-6.对例9-2资料,问A方案、B方案(均为实验组)分别于C方案(对照组)比较。,四、Bonfferoni 法,适用于检验K 组中两两间比较,完全随机设计,随机区组设计,其中A,B为比较组标识符,,Bonfferoni-t test,例9-1 Bonfferon

19、i 法两两比较结果,例9-7,例9-7.对例9-1资料作两两比较。,Bonfferoni t 检验计算表,完全随机设计ANOVA的SAS程序,data A;do i=1 to 3;input n;do j=1 to n;input x;output;end;end;cards;21 5.6 9.5 6.0 8.7 9.2 5.0 3.5 5.8 8.0 15.5 11.8 16.3 11.8 14.6 4.9 8.1 3.8 6.1 13.2 16.5 9.2 19-0.6 5.7 12.8 4.1-1.8-0.1 6.3 12.7 9.8 12.6 2.0 5.6 7.0 7.9 4.3 6

20、.4 7.0 5.4 3.1 2012.4 0.9 7.0 3.9 1.6 6.4 3.0 3.9 2.2 1.1 2.7 7.8 6.9 1.5 9.4 3.8 7.5 8.4 12.2 6.0;run;Proc anova data=A;class i;model x=i;means i;means i/dunnett(1);means i/lsd;means i/snk;run;,The ANOVA Procedure,Source DF Squares Mean Square F Value Pr F Model 2 176.764976 88.382488 5.54 0.0063 E

21、rror 57 909.871524 15.962658 total 59 1086.636500,Tests(SNK)for x,Comparisons significant at the 0.05 level are indicated by*.Difference i Between 95%significant Comparison Means 1-2 3.395*1-3 3.765*2-3 0.370,区组设计ANOVA的SAS程序,data B;do i=1 to 3;(处理组)do j=1 to 10;(配伍组)input x;output;end;end;cards;2.21

22、 2.32 3.15 1.86 2.56 1.98 2.37 2.88 3.05 3.42 2.91 2.64 3.67 3.29 2.45 2.74 3.15 3.44 2.61 2.864.25 4.56 4.33 3.89 3.78 4.62 4.71 3.56 3.77 4.23;proc anova data=B;class i j;model x=i j;means i;run;,第六节 ANOVA的条件和数据变换,一、Bartlett 法条件:各总体资料服从正态分布二、Levene法条件:样本含量较大,方差齐性检验,数据变换,目的:改善资料的正态性和多组资料的方差齐性 方法有:1.对数变换(logarithmic transformation)(适用于对数正态资料;多样本的CV接近一个常数)2.平方根变换(square root transformation)(适用于服从Poisson分布资料或轻度偏态资料的正态化;当各样本的方差与均数呈正相关时,可使资料方差齐性)3.倒数变换(reciprocal transformation)(适用于数据两端波动较大的资料,减少极端值的影响)4.平方根反正弦变换(arcsine transformation)(适用于二项分布的率或百分比资料,该变换可使资料正态化同时方差齐性),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号