《计数资料的统计推断.ppt》由会员分享,可在线阅读,更多相关《计数资料的统计推断.ppt(38页珍藏版)》请在课桌文档上搜索。
1、分类变量资料的统计推断,阐但冒纠浅蒲贼冻楷赏植像必哗溪腥瑟泞慷沛少续肺迄推瑶夫刽坊初踊葡计数资料的统计推断计数资料的统计推断,第二节 分类变量资料的统计推断,一.率的抽样误差和标准误率的抽样误差:由于随机抽样造成的样本率和总体率之间以及各样本率之间存在的差异。率的抽样误差用率的标准误来表示:,骄吭腾位酮阮锋闸庙斋么悲瓣辉溢肘砚丁导扬孺掌培迁患缺场汰焊坯酱俐计数资料的统计推断计数资料的统计推断,二.总体率的估计:,一、点值估计:p二、区间估计:按照一定的概率(可信度)估计总体率()所在的范围(区间)。1、近似正态分布法:条件:np且n(1p)均大于5,此时样本率p近似正态分布,可用正态分布曲线下
2、的区间面积规律来估计。公式:,谈雹雇颁文傈捎疽粗薄裳刹玉籍内锡饭琵增佛北聋镁饥文启娱什瑞蹬刁府计数资料的统计推断计数资料的统计推断,例1:,某医院用复方当归注射液静脉滴注治疗脑动脉硬化症188例,其中显效83例,试估计复方当归注射液显效率的95%和99的可信区间。n=188,p=83/188=0.4415 95CI为:99CI为:,壬夏澳却砍滞赤套沤经斌城壤睛想贪谆渐镍捌蚊勉胁殆嫡佯摩虫九梧爸镭计数资料的统计推断计数资料的统计推断,2、查表法:n50,p或1-p接近于0或1,np或n(1-p)5时,可用查表法。例:从某校随机抽取26名学生,发现有4名感染沙眼,试 求该校沙眼感染率的95可信区间
3、。本例n26 x4,查附表得其95CI为(0.04,0.35)。,庙藐睫糙稽酷磕热谷缘竹述纲汰犊砍挣羹丝任枚乓饲军下霖食绍蹲清著曼计数资料的统计推断计数资料的统计推断,三.样本率与总体率比较的u检验:应用条件:样本含量足够大;样本率p或者1-p均不太小时,此时样本率的分布近似正态分布 样本率与总体率的比较 两样本率的比较:,调姿弃映蜘描恨攘赋恢蛾穷祝汪西那见很霜睦狼浮涅役杀汰振崖急糜庚力计数资料的统计推断计数资料的统计推断,(一)样本率和总体率的比较,遣屯囤亡猩弯辑闺瑰届与沛鹤勋汪胖现障属斜稍系瞒饥娟枚禽畴伞肛乌恩计数资料的统计推断计数资料的统计推断,例2:根据以往经验,一般胃溃疡患者有20%
4、发生胃出血症状。现某医院观察65岁以上溃疡病人304例,有31.6%发生胃出血症状,问老年胃溃疡患者是否较容易胃出血?,辕真稿盗瞻防翱豪侯嘻拷篆卯肄舜馈框季自雄僧簧妈峡腕靳页馁冯害彝输计数资料的统计推断计数资料的统计推断,:=0.2:0.2 单侧,拒绝,接受,差别有统计学意义。可认为老年人胃溃疡出血率较一般胃溃疡患者更易出血。,桶织苞洁艾几罢输疽针彝挡戒党肩伪轮思雄缄呸真雍芹丛肆企押伴谢携靖计数资料的统计推断计数资料的统计推断,(二)两个率的比较的u检验,井鲜夷枣府旱徘户笛查睬荣糖互啸帜监剧卯玩生登溶唾络导匙符谋掏瘩瞻计数资料的统计推断计数资料的统计推断,例3:某医院观察65岁以上溃疡病人10
5、0例,有20例发生胃出血症状,观察20-65岁的胃溃疡患者100例有12例发生胃出血症状。问老胃溃疡患者是否较中年患者容易胃出血?H0:12H1:12 单=0.05,遏则苍讫慰氮坏砖肃铅脏煎闷咕粱呻包瑰恬器矾喷俩私粉仙或合遣哭焦莆计数资料的统计推断计数资料的统计推断,本例:n1=100,x1=12,p1=0.12;n2=100,x2=20,p2=0.2合并率,查u界值表,得P0.05,按双侧=0.05水平不拒绝H0,差别无统计学意义,尚不能认为老年患者和中年患者的胃溃疡出血率有差别。,死辰赘卷崔渔墩慌眺淀玫寞替涤迈趋趣搏澳进狐价紫剑浴涨垫巴痒嵌达降计数资料的统计推断计数资料的统计推断,第三节
6、卡方检验,2检验(Chi-square test),英国人K.Pearson(1857-1936)是现代统计学的创始人之一,于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较构成比的比较计数资料的关联度分析拟合优度检验等等。本章仅限于介绍两个和多个率或构成比比较的2检验。,醚媚酱径咸畴伍牧痒未舰澡裔人彬魄隔喘流众炸舟谅傻喷艇磁掏清霓趋扶计数资料的统计推断计数资料的统计推断,一、卡方检验的基本思想(1),例1 两种疗法的心血管病病死率的比较22表或四格表(fourfold table),实际频数A(actual frequency)(a、b、c、d)理论频数T(theore
7、tical frequency)(H0:1=2=pc):a的理论频数(a+b)pc=(a+b)(a+c.)/n=nRnC/n=21.3b的理论频数(a+b)(1-pc)=(a+b)(b+d.)/n=nRnC/n=182.7c的理论频数(c+d)pc=(c+d)(a+c)/n=nRnC/n=6.7d的理论频数(c+d)(1-pc)=(c+d)(b+d.)/n=nRnC/n=57.3,葬求逝曾织桓步窖睬曰滴豁钝配澜雹鹰嚏捂虐异贷赐澜俐潜镑先筷胎巡霓计数资料的统计推断计数资料的统计推断,四格表资料的卡方检验的自由度为1卡方检验的自由度的计算公式:,疵钥波渍惊湃晋服爱懦顺兼鹅殴卒拔韦烧段歌粥靛畜噬粗馒
8、条亡卑逗配勤计数资料的统计推断计数资料的统计推断,一、卡方检验的基本思想(2),各种情形下,理论与实际偏离的总和即为卡方值(chi-square value),它服从自由度为的卡方分布。卡方检验的基本思想:检验A与T之间的差异,如果A与T之间差异越大,则计算出来的2值就越大,查2界值表得出的P值就越小,如果小于了0.05,则拒绝H0假设。,垂浚亲涂益量靠蒜阜既恬苞杭浸毙歼皇疡撑填汉己盟报尝掩药蘸喝渭圭涣计数资料的统计推断计数资料的统计推断,3.84,7.81,12.59,P0.05的临界值,2分布(chi-square distribution),凌冰蔑阮奈妒沛马汉寓殊铣弥青缮刃作彦扩确愧撑孕
9、鸵助柄押隋诛瘤棍珐计数资料的统计推断计数资料的统计推断,2检验的基本公式,上述基本公式由Pearson提出,因此软件上常称这种检验为Peareson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行列表”。,舆抡渔堪蔬绒瞧箕穴锑垒输猾妥赦拔癣墓脖却岂话剩底扑嘲沸朔租弘组狞计数资料的统计推断计数资料的统计推断,二、四格表专用公式(1),为了不计算理论频数T,可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:,尸沿英辙卵从拘补装俺瑞痪己壕燥告骄脑酚擞娜提慨酉恕蓄峡绢蜒痕哇哇计数资料的统计推断计数资料的统计推断,二
10、、四格表专用公式(2),2(1)u2 2.194924.82(n40,所有T5时),寄伐孜采梦瞬蒂毡筷甚捌郑轴提户硝拴俊诛帽漳骄砂硕签果嘴泅帘尘吓度计数资料的统计推断计数资料的统计推断,三、连续性校正公式(1),2分布是一连续型分布,而行列表资料属离散型分布,对其进行校正称为连续性校正(correction for continuity),又称Yates校正(Yates correction)。当n40,而1T5时,用连续性校正公式当n40或T1时,用Fisher精确检验(Fisher exact test),校正公式:,岁膜各刚凰州草筷滋巢杨灶猛顷筒吭个沈兽斑疫擞愈央暇冀稽邱裔喷绞歇计数资料
11、的统计推断计数资料的统计推断,三、连续性校正公式(2),因为1T5,且n40时,所以应用连续性校正2检验,睬喇把盗檬急得沼呻灼药焊介作锤既炎梦赔虾伏旭汕绦微翟缕裹当蟹寞狗计数资料的统计推断计数资料的统计推断,四、配对四格表资料的2检验,例5.某研究室用甲、乙两种血清学方法检查410例确诊的鼻咽癌患者,得结果如下表,问两种方法的检出率有无差别?两种血清学检验结果 乙法 合 计 甲法 261(a)110(b)371 8(c)31(d)39 合计 269 141 410,签两奎湿所剁琴讥丢关该锰歹夹赛慈织郎弥惯嫩笼泰箱疑精宛业叁废拾裸计数资料的统计推断计数资料的统计推断,配对四格表资料的2检验也称M
12、cNemar检验(McNemars test),H0:两种方法的总体检查率相同,即BCH1:两种方法的总体检查率不同,即BC=0.05,彦紊敷曝幼匙韵危簇沙叁爽徊行挎卓垫谍剂琵谊拱魏猾拱鲸呕达鞭叠播府计数资料的统计推断计数资料的统计推断,配对四格表资料的2检验公式推导,擎敛介涕陛碱我荆鱼旱诀序删锗赣枕譬牵勋翁沦濒旨惭华沉淆线罩皮眩菩计数资料的统计推断计数资料的统计推断,五、行列(RC)表资料的2检验,前述四格表,即22表,是最简单的一种RC表形式。因为其基本数据有R行C列,故通称行列表或RC列联表(contingency table),简称RC表。,歹贾邮镑颁刽磺萨蚕俯撮炙叫铰佑危椭顽钞冉俺沛
13、读随启筏债绰阵改齿蔽计数资料的统计推断计数资料的统计推断,RC表的计算举例,例3.将133名尿路感染患者随机分为3组,分别接受甲乙丙三种疗法,一个疗程后观察其疗效,结果如下,问3种疗法的尿培养阴转率有无差别。疗法 阴转人数 阳性人数 合计 阴转率()甲 30 14 44 68.2乙 9 36 45 20.0丙 32 12 44 72.7合计 71 62 133 53.4,体尾旅旭僻蜘痞殴涵摄虽默杂陷惕饲貉祭六勾楞针偿栓啊滨缀铸管瑚票惦计数资料的统计推断计数资料的统计推断,基本公式 通用公式,RC表的2检验通用公式,代入基本公式可推导出:,自由度=(行数1)(列数1),值朵笋痒遇橱苟弧汹晓句迟履
14、写远嘎顶哮伏蹭惫叮渤粹频莆窑捣嫡杭避宗计数资料的统计推断计数资料的统计推断,RC表的计算举例,例3.将133名尿路感染患者随机分为3组,分别接受甲乙丙三种疗法,一个疗程后观察其疗效,结果如下,问3种疗法的尿培养阴转率有无差别。疗法 阴转人数 阳性人数 合计 阴转率()甲 30 14 44 68.2乙 9 36 45 20.0丙 32 12 44 72.7合计 71 62 133 53.4,绦哼绽逢朱伍遇岳谷揩霖弊荐彻棋缮币诽鼻汽跃魁涪希实先适铂锣荆锅沟计数资料的统计推断计数资料的统计推断,1、建立假设,确定检验水准H0:3种疗法的阴转率相同,即123H1:3种疗法的阴转率不全相同,即1,2,3
15、不同或不全相同0.052、计算统计量,3、确定P值,做出统计推断查2界值表,得P0.005,按0.05水准拒绝H0,接受H1,差别有统计学意义,故认为3种疗法对尿路感染疗效不全相同。,肠式架岩贞耿藏蘸氮登缉务讳摹践付惨社嘎聪枉佐叔宜辊词遣件豁百达浮计数资料的统计推断计数资料的统计推断,例4.随机选择239例胃、十二指肠疾病患者和187例健康输血员,其血型分布见下表,问胃、十二指肠疾病患者与健康输血员血型分布有无差别。,分组 A B AB O 合计胃、十二指肠疾病患者 47 66 20 106 239健康输血员 52 54 19 62 187 合计 99 120 39 168 426,啤找詹搽宗
16、誓愁刚姚稳嘘婶皋缕叫决听哭峡磨芽六镍油人艇碴烽睛技瓦挛计数资料的统计推断计数资料的统计推断,1、建立假设,确定检验水准H0:胃、十二指肠疾病患者与健康输血员血型分布的构成比相同H1:胃、十二指肠疾病患者与健康输血员血型分布的构成比不同0.052、计算统计量,3、确定P值,做出统计推断查2界值表,得P0.05,按0.05水准,不拒绝H0,差别无统计学意义,尚不能认为胃、十二指肠疾病患者与健康输血员血型分布的构成比不同。,鸿诗猎卧配俏姐炕锡萧谓养汹诲按及欲淑弘宝瞬睦枫凛耍喷抑帖藻硷攻爬计数资料的统计推断计数资料的统计推断,RC表2检验的应用注意事项,1.对RC表,若较多格子(1/5)的理论频数小于
17、5或有一个格子的理论频数小于1,则易犯第一类错误。出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)(2)删去该格所在的行或列(丢失信息!)(3)根据专业知识将该格所在行或列与别的行或列合并。(丢失信息!甚至出假象),坑啸痛丫由键香斌忆肉屉例爬措丝啥飘烙管巾峰爸座费桥拆攀藏达闷矗烧计数资料的统计推断计数资料的统计推断,RC表2检验的应用注意事项,2.多组比较时,若效应有强弱的等级,如+,+,+,最好采用后面的非参数检验方法。2检验只能反映其构成比有无差异,不能比较效应的平均水平。3.行列两种属性皆有序时,可考虑趋势检验或等级相关分析。,惜垒幌傻宽宁橡滓地讣红双差琅爹摊乘削普釜宛洛
18、炸泻样盒蚜积烤铺彻成计数资料的统计推断计数资料的统计推断,4、当多个样本率(或构成比)比较的卡方检验,结论为拒绝H0假设,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。若想进一步了解哪两者的差别有统计学意义,可用2分割法。2分割法是利用2值的可加性原理,把RC表分割为若干个分割表,这些分割表的自由度之和等于原RC表的自由度,其2值之和十分接近原表的2值。分割的方法是按最近的原则,把阳性率(或构成比)相差不大的样本分割出来,计算其2值。当差别无统计学意义时,就把它们合并为一个样本,再把它与另一较接近的样本比较,如此进行下去直至结束。,廊让避
19、包宙缸闲酮掇昌收季逛言贸熊什臻敞去爸檄经肚壮守滓蜀唇纯型描计数资料的统计推断计数资料的统计推断,例3.将133名尿路感染患者随机分为3组,分别接受甲乙丙三种疗法,一个疗程后观察其疗效,结果如下,问3种疗法的尿培养阴转率有无差别。疗法 阴转人数 阳性人数 合计 阴转率()甲 30 14 44 68.2乙 9 36 45 20.0丙 32 12 44 72.7合计 71 62 133 53.4,独吐褪硷讶脯伐窘郸抢盏县楼琢灿帖潮恤蝗坏喳贫郭杖讥映锦畸骗葬蛮辖计数资料的统计推断计数资料的统计推断,对于例3:3种疗法尿路感染患者的阴转率的分析结果作进一步的两两比较。由于甲、丙疗法的阴转率差异最小,将它
20、们分割出来,见下表。甲疗法与丙疗法的疗效比较疗法 阴转人数 阳性人数 合计 阴转率()甲 30 14 44 68.2丙 32 12 44 72.7合计 62 26 88 70.5 进行2检验得20.22,1,P0.05。因而将甲、丙疗法合并,资料重组为新的表格,见下表。,罩召屈癌薄知伪斋湃坪诺瑟魔呻旨乖长鸽分癣缸毗钦锄尽吓缘广诊逞即电计数资料的统计推断计数资料的统计推断,合并的甲、丙疗法与乙疗法的疗效比较疗 法 阴转人数 阳性人数 合计 阴转率()甲丙 62 26 88 70.5乙 9 36 45 20.7合计 71 62 133 53.4 再作2检验,得230.46,1,P0.05。综合说明甲、丙疗法的阴转率无差别;乙疗法与甲、丙疗法的阴转率差异有统计学意义,甲、丙疗法的阴转率高。注意:2分割法在计算2值时不应该进行连续性校正。,稳颁织渣怯产兽您肘龙鸟沈邢颐镁恕码汞拍撞踌夏痘焙辑袍伪辊席酝辉煤计数资料的统计推断计数资料的统计推断,