成对数据的统计分析 第6课时 列联表与独立性检验.docx

上传人:夺命阿水 文档编号:266247 上传时间:2023-04-07 格式:DOCX 页数:11 大小:75.32KB
返回 下载 相关 举报
成对数据的统计分析 第6课时 列联表与独立性检验.docx_第1页
第1页 / 共11页
成对数据的统计分析 第6课时 列联表与独立性检验.docx_第2页
第2页 / 共11页
成对数据的统计分析 第6课时 列联表与独立性检验.docx_第3页
第3页 / 共11页
成对数据的统计分析 第6课时 列联表与独立性检验.docx_第4页
第4页 / 共11页
成对数据的统计分析 第6课时 列联表与独立性检验.docx_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《成对数据的统计分析 第6课时 列联表与独立性检验.docx》由会员分享,可在线阅读,更多相关《成对数据的统计分析 第6课时 列联表与独立性检验.docx(11页珍藏版)》请在课桌文档上搜索。

1、8. 3列联表与独立性检验(2课时单元教学设计)第一课时梁伟(安徽省淮南第四中学)第二课时洪敏(安徽省淮南第三中学)1教学内容和内容解析8.1 内容第1课时分类变量的概念、2X2列联表、等高条形图;第2课时两个分类变量的独立性检验.8.2 内容解析(1)引入分类变量的必要性:在当今大数据时代和“互联网的大背景下,本节课对提升学生的数据分析素养和提高学生的信息处理能力起到一个至关重要的作用.,独立性检验是在考察两个分类变量之间是否具有相关性的背景下提出的.因此,教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即利用随机抽样获得一定的样本数据,再利用随机事件发

2、生的频率稳定于概率的原理,求出相关概率进行比较,或借助更加直观的方法一等高条形图,为后续引出相对更精确的解决办法一独立性检验做铺垫.(2)分类变量:分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等.教材首先举例说明了前面两节讨论的变量都是数值变量,通过数值变量与分类变量的对比,引出分类变量.从而引出我们本节课主要讨论分类变量的关联性问题.(3) 2x2列联表:实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.教材

3、通过举例的方法介绍了什么是2x2列联表.2x2列联表给出了成对分类变量数据的交叉分类频数.(4)等高条形图:教材介绍了如何通过不同的统计软件绘制等高条形图,并让学生感受利用等高堆积条形图可以更加直观地展示分类变量的关联性.(5)独立性检验是研究随机变量独立性的一种统计方法。为了解总体中两个分类变量是否相互独立,可以从总体中抽取简单随机样本,整理成一个2x2列联表,独立性检验就是根据列联表检验两个分类变量是否相互独立。独立性检验是假设检验的一个特例,假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推

4、断的结果是拒绝或接受零假设。所以独立性检验本质上是一种概率推断,是一种依据概率在“0:无实质差异”与有实质差异”这两种推断中选择其一。这是一种“概率反证法”,通过样本出现的事件是否属于小概率事件来判断总体假设的真伪。独立性检验的数学基础是条件概率与独立事件概率的乘法公式,其推断步骤可分为:第一步,提出想要验证的假设”。,称为零假设;第二步,若假设。不成立,则提出假设称为对立假设;第三步,若假设Ho成立,构造一个只有在小概率的情况下才能观察到的现象第四步,依据样本数据确认是否观察到了现象/2;第五步,若能观察到现象/的情况下,则推断假设“0是错误的,此时便可以拒绝“0,而选择假设第六步,若未能观

5、察到现象,则无法拒绝假设Ho,可选择假设独立性检验的依据是小概率原理:即小概率事件在一次试验中几乎不可能发生。在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设。所以独立性检验是检验假设而不是证明假设,所以推论会出现两类错误:第一类错误是拒绝了正确的零假设,犯了第一类错误的概率是。;第二类错误是没有拒绝错误的零假设。独立性检验在犯第一类错误的概率和犯第二类错误之间做平衡,希望犯这两种错误的概率都尽可能地小,但减少第一类错误的概率就会增大犯第二类错误的概率。因为第二类错误对

6、样本量特别敏感,所以可以通过样本量降低第二类错误的概率。独立性检验是从样本数据中发现关系,是成对样本数据统计分析的重要内容,是依据数据进行合理推理的典型方法,体现了数学的理性精神,也是提升数据分析和逻辑推理素养的重要素材。2目标和目标解析2. 1目标(1)了解分类变量与数值变量的区别.(2) 了解回归与相关的区别.(3)通过实例,理解通过比较相关比率,利用2x2列联表或等富图可以初步检验两个随机变量的独立性.(4)通过对建立回归分析模型步骤的回忆,获得分析统计案例的一般性过程;能够将研究统计案例的一般化步骤应用到新的统计案例中.(5)理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错

7、误.(6)基于2x2列联表,通过具体实例,了解独立性检验的基本思想。(7)掌握独立性检验的基本步骤,会用独立性检验解决简单的实际问题,提升数据分析能力。2.2目标解析达成上述目标的标志分别是:(1)会判断一个变量是否是分类变量、是否是数值变量.(2)面对不同的数据分析案例,知道什么时候用回归分析,什么时候用相关分析.(3)会通过比较相关比率,判断两个随机变量的独立性.(4)会对简单的数据分析案例进行初步独立性分析.(5)明白通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误,为下节课独立性检验做准备.(6)基于2x2列联表,通过具体实例,解释通过条件概率分析两个分类变量独立性的方法,以

8、及能说明用于两个分类变量独立性的统计量/构造的合理性;能说出基于小概率原则的独立性检验的基本思想,发展数据分析和逻辑推理素养。(7)能说出独立性检验的基本步骤,并能用独立性检验方法解决简单的实际问题。3教学问题诊断分析3.1 问题诊断(1)回归和相关的区别是初学者容易感到迷惑的地方.也是本章内容的重点,我们要从课前预习、课中设问、课后反思的不同学习阶段突出重点、突破难点.通过频率分析法和图形分析法,得到的结论有可能是错误的,是同学们的理解难点,这里通过合理设问突破难点.(2)学生已经学习过统计、变量回归分析等知识,在了解列联表的基础上,能用频率的稳定性直观推断两分类变量的独立性,也知道这种推断

9、有可能出现错误。在本节中,通过引导,学生能将分类变量的独立性与事件的独立性联系起来,但要将独立性检验与一个小概率事件进行关联存在困难,这不仅是学生首次遇到这样的问题,更是逻辑推理过渡到概率推理的统计思想的提升。关于小概率。的正确理解。如果从一个样本中能够观察到小概率事件发生,表明拒绝假设HO而接受假设M这个结论发生错误的概率不超过,但不表明假设司成立的概率超过1-。小概率是针对检验的样本的,并不是关于零假设的,零假设或者对或者错,永远只能是这二者之一,对于这样的结论的理解是比较困难的,这是造成学生对于独立性检验的结论认知困难的主要原因。在理解独立性检验的推断可能会犯错误,学生也可能存在接受上的

10、困难。此外,涉及的统计思想方法主要是假设检验的思想方法,也是学生可能感到困惑的。为了突破学习上的障碍,教学中创设一些生活化的问题情境引导学生学习,先定性描述再定量刻画,先直观理解再逻辑表达,强调用分类变量的样本频率分布与理论分布的误差及频率稳定于概率的原理来构造小概率事件,通过举例、讨论等形式突破难点。以具体案例为载体,帮助学生理解统计量的内涵,体会独立性检验的思想方法。3.2 教学难点(1)分析清楚回归与相关的区别.(2)卡方统计量的导出和意义,独立性检验的思想和方法.4教学支持条件分析本节课研究的是2019人教A版普通高中教科书蟠磁择性必修第三册)第八章”成对数据的统计分析“,第三节”列联

11、表与独立性检验的内容,是在前面学生学习的普通高中教科书数学(必修第二)(第九章“统计”)中IWl知识的i匕步应用,并与本册教材前面提到的事件的独立性一节关系紧密.本节课是在学生学习完回归分析之后的内容,所以可以将上一节课的统计研究方法进行总结,并应用到本节课的统计案例中来.借助GeOGebra软件中的统计功能,直观呈现/分布的密度曲线,并利用力?分布密度曲线依据小概率值确定临界值与,帮助学生理解独立性检验的思想。此外,还使用了GeogCbra软件解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上。5课时教学设计1第一课时5.1 教学内容分类变量的

12、概念、2x2列联表、等高条形图。5.2 教学目标(1)了解分类变量与数值变量的区别.(2)了解回归与相关的区别.(3)通过实例,理解通过比较相关比率,利用2x2列联表或等高图可以初步检验两个随机变量的独立性.(4)通过对建立回归分析模型步骤的回忆,获得分析统计案例的一般性过程;能够将研究统计案例的一般化步骤应用到新的统计案例中.(5)理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.5.3 教学重点与难点教学重点:(1)通过案例的分析研究,展现统计中数据分析的全过程.(2)让学生体会分析分类变量关联性的方法,并意识到这种分析得到的结果有可能是错误的.教学难点:分析清楚回归与相关的

13、区别.5.4 教学过程设计5.4.1创设情境,导入新课引导语:吸烟已成为全球范围内严重危害健康,缩短人类寿命的紧迫问题,为此联合国固定每年5月31日为全球戒烟日.问题:吸烟是否会增加患肺癌的风险?师生活动:这个问题中有两种现象:吸烟和患肺癌,这两种现象之间是否存在关联呢?现实生活中常要回答这种问题。又比如就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。教师指出,在讨论上述问题时,为了表述方便,经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。比如性别(男,女),是否吸烟(

14、吸或不吸),宗教信仰(佛教,道教)等,而像体重,身高,温度,考试成绩等这些变量是数值变量,数值变量的取值一定是实数,其大小和运算都有实际含义。接着教师进一步指出,分类变量是区别不同的现象和性质的一种特殊的随机变量,但要注意(1)分类变量的取值也可以用实数表示,例如男性,女性可以用1,O表示;学生的班级可以用1,2,3来表示。(2)这些数值只做编号使用,并没有大小和运算意义。(3)分类变量是相对于数值变量来说的。本节主要讨论取值于0,1的分类变量的关联性。设计意图:理解数值变量与分类变量的区别对理解回归分析法与相关分析法的区别起着至关要的作用.5.4.2问题引入,形成概念问题:为了有针对性地提高

15、学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?师生活动:教师引导学生从比率的方面入手,得出答案:比较经常锻炼的学生在女生和男生中的比率。追问:如何求经常锻炼的学生在女生和男生中的比率。师生活动:教师引导学生回答:为了方便,二经常锻烧的女:生敌f二经常锻炼的男生数厂-女生总数-男生总数-那么,只要求出小和的值,通过比较这两个值的大小,就可以知道女生和男生在锻

16、炼的经常性方面是否有差异,由所给的数据,经计算得到分=告0.633,f广黑0.787.由0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.所以该校的女生和男生在体育锻练的经常性方面有差异,而且男生更经常锻炼.设计意图:给出本节课第一个重点,判断两个分类变量之间关联关系的方法1频率分析法.追问:除此之外,上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.师生活动:引导学生用概率语言描述这个问题,把这个问题变成概率问题,教师梳理总结:用C表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以。为样本空间的古典概型,并定义一对

17、分类变量X和Y如下:对于C中的每一名学生,分别令X=0,该生为女生Y=(o,该生不经常锻炼)1,该生为男生J11,该生经常锻炼)我们希望通过比较条件概率P(F=HX=O)和P(y=x=i)回答上面的问题.按照条概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=IlX=O),而该男生属于经常锻炼群体的概率是P(Y=IIX=I).追问:“性别对体育锻炼的经常性没有影响可以怎样描述?师生活动:教师让学生说出自己的想法,教师总结为:p(r=i|x=o)=p(y=i|x=i);追问:“性别对体育锻炼的经常性有影响”可以怎样描述?师生活动:教师让学生说出自

18、己的想法,教师总结为:P(r=x=o)P(r=x=i).设计意图:让学生从条件概率的角度理解这一问题,从而加深对这一问题的理解。追问:如何才能清楚直观的求出上面的两个条件概率呢?师生活动:教师先让学生说出自己的想法,再引导总结出用表格的方法来解决。性别锻炼合计不经常(Y=O)经常(Y=I)女生(X=O)192331523男生(X=I)128473601合计3208041124教师让学生通过这个表格来求出这两个条件概率:用X=O,r=l表示事件X=0和Y=)的积事件,用=,y=表示事件=和y=的积事件,根据古典概型和条件概率的计算公式,有PglX=O)=端彩=器0.633:PglX=I)=W需嗡

19、0.787让学生通过这两个概率判断在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.设计意图:给出本节课第二个重点,判断两个分类变量之间关联关系方法1的另外一种表述方法一使用条件概率的语言,给出解答.引导语:在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2x2列联表(contingencytable).2x2列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和y的如下信息:最后一行的前两个数分别是事件y=o和y=中样本点的个数

20、;最后一列的前两个数分别是事件(=0和X=1中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件X,y=y(xj=O,l)中样本点的个右下角格中的数是样本空间中样本点的总数.性别锻炼合计不经常(Y=O)经常(Y=I)女生(X=O)192331523男生(X=I)128473601合计3208041124设计意图:给出本节课第三个重点,举例说明什么是2x2列联表.5. 4.3例题练习,巩固新知例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数

21、学成绩优秀率之间是否存在差异.师生活动:先让学生分析题意,设出分类变量,画出列联表,并根据列联表求出概率,完成后全班交流。设计意图:(1)巩固判断两个分类变量之间关联关系的方法1一频率分析法.(2)引出判断两个分类变量之间关联关系的方法2图形分析法.(3)由于频率和概率之间存在误差,所以此例题可以说明方法一的局限性,为引出第二节课,独立性检验做铺垫.问题:我们可以用等高堆积条形图直观地展示上述计算结果,如何作出等高堆积条形图呢?师生活动:教师讲解如何使用EXCeI软件制作等高堆积条形图三文件VEI图曰9用ft立面布局也SaR由圆?a0选曲氐哽)鸵St空g血出3535SS双用S祝IS图片形状B稻

22、壳凄材流程图思唾导O更多全部总表及设计意图:提而学生ErCe嗽件应用能力.问题:如何利用上面的等高堆积条形图分析两校学生中数学成绩优秀率之间是否存在差异.师生活动:让同学们仔细观察图形,再分享自己的见解,教师点评。设计意图:给出本节课重点,判断两个分类变量之间关联关系的方法2图形分析法.问题:你认为“两校学生的数学成绩优秀率存在差异这一结论是否有可能是错误的?师生活动:让同学们思考后发表自己的观点,教师点评。最后教师引出:后面,我们将讨论犯这种错误的概率大小问题.学习“独立性检验设计意图:引发学生思考,承前启后.5.4.4当堂检测1、某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,

23、每位顾客对该商场的服务给出满意或不满意的评价,得到右面列联表:满意不满意男顾客4010女顾客3020分别估计男、女顾客对该商场服务满意的概率;2、现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的()A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理设计意图:检测学生对2x2列联表的掌握情况,对等高堆积条形图的理解情况.5. 4.5归纳小结,反思提升(1)本节我们学习了哪些概念?(2)两

24、个分类变量之间关联关系的定性分析的方法有哪些?设计意图:教师提出问题,引导学生回顾本课所学的主要知识.5.4.6布置作业,应用迁移课本第127页第1,2,3,4题。5.5目标检测设计1、下面是一个2X2列联表:%总计Xa2173Xi82533总计b46则表中a粉别等于一设计意图:考查学生对2X2列联表的掌握情况.观察2X2列联表的结构特征,为后续学习独立性检验做铺垫.2、观察如图所示的等高条形图,其中最有把握认为两个分类变量筋y之间有关系的是()力r设计意图:考查学生对等高条形图的理解及在判断相关关系的应用.3、为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,其中不吸烟的7817人中42人患肺癌,吸烟的2148人中91人患肺癌,试分析吸烟是否对患肺癌有影响.设计意图:考察学生对频率分析法和图形分析法的理解.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号