《成对数据的统计分析 第4课时 一元线性回归模型及其应用.docx》由会员分享,可在线阅读,更多相关《成对数据的统计分析 第4课时 一元线性回归模型及其应用.docx(20页珍藏版)》请在课桌文档上搜索。
1、8.2一元线性回归模型及其应用(3课时,单元教学设计)第一课时刘谦(安徽省淮南第一中学)第二、三课时石伟伟(安徽省寿县第二中学)1单元内容与内容解析1.1内容一元线性回归模型,一元线性回归模型参数的最小二乘估计.第1课时:一元线性回归模型.第2课时:一元线性回归模型参数的最小二乘估计.第3课时:一元线性回归模型的应用.1.2内容解析一元线性回归模型是描述两个随机变量之间相关关系的最简单的回归模型.当两个变量具有显著的线性相关关系时,可以建立一元线性回归模型来刻画两个变量间的随机关系,并通过模型进行预测.建立一元线性回归模型的基础是对成对样本数据进行相关性分析.通过散点图,直观观察相关关系的类型
2、、方向和强弱;构造相关系数,定量刻画两个变量相关的正负性和线性相关关系的密切程度.在此基础上,建立一元线性回归模型,使用最小二乘法估计参数,得到经验回归方程,进行预测.为了评价和改进模型,引入残差和残差图,以及决定系数R2对模型进行诊断,使其不断完善,帮助决策.一元线性回归模型是统计学中一种最基础且重要的模型,许多回归模型都是以一元线性回归模型为基础进行研究.其涉及的统计模型的思想、最小二乘思想、方差分析思想(构造统计量,评价回归拟合效果)在统计学中占有重要的地位.在一元线性回归模型的建立和应用过程中,通过创建回归方程、估计模型参数、分析模型有效性、将非线性回归模型转化为线性回归模型等内容的学
3、习,使学生亲力亲为、参与其中,体会统计的思想,理解统计的概念,了解统计分析的一般方法,积累数据分析的经验,增强应用意识.让学生感悟到根据实际情况进行科学决策的必要性和可能性,体会统计思维与确定性思维的差异、归纳推理与演绎证明的差异,夯实“四基”,提高“四能”,全面培养学生的数据分析、数学建模、逻辑推理、数学抽象、数学运算等数学核心素养.基于以上分析,确定本单元的教学重点:(1)一元线性回归模型的意义;(2)用最小二乘法估计回归模型参数的方法;(3)残差分析和决定系数R2的意义;(4)一元线性回归模型的应用.2单元目标与目标解析2.1目标(I)结合具体事例,了解一元线性回归模型的含义,了解模型参
4、数的统计意义,了解最小二乘原理.(2)掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件进行数据分析.(3)掌握残差分析的方法,理解决定系数R2的意义.(4)针对实际问题,会用一元线性回归模型进行预测.2.2目标解析达成上述Rl标的标志是:(1)知道线性回归模型与函数模型的区别,知道线性回归模型中误差e的含义,知道假设误差e满足E(e)=O,D=J的理由.(2)能依据使用距离来刻画接近程度的数学方法了解最小二乘原理,并利用该原理推导参数估计值的计算公式.(3)会使用统计软件绘制散点图,计算样本相关系数、求回归方程,能用残差、残差图和决定系数R2对回归模型进行评价等.(4)通过具体
5、案例,理解利用一元线性回归模型可以刻画随机变量之间的线性相关关系,在建立一元线性回归模型解决实际问题的过程中,提升数据分析、数学建模、逻辑推理等素养.3单元教学问题诊断分析“一元线性回归模型及其应用”与“成对数据的统计相关性”一样,都是关于定量变量进行的研究.在前一节“成对数据的统计相关性”的学习中,主要介绍了散点图和相关系数,侧重于考查变量之间相关的形态和程度,而“一元线性回归模型及其应用”侧重于考查变量之间的数量关系,展示变量之间的具体形态.因此,可以看作是在前一节基础上的进一步深入刻画.为了揭示这种数量关系,在第一节里引入回归模型这一概念,教学时要注意与函数模型的区别,体会统计思维和确定
6、性思维的差异,这也是由于统计学的学科特点决定的.统计学是建立在数据的基础上,通过演绎方式,对随机现象进行研究的科学.许多样本数据带有随机性,因此,在构建模型时,特地设置了随机误差项e,反映未列入方程的其它各种因素对y的影响,并对其均值和方差做了要求.学生们在学习随机误差时可能会存在理解困难.在第二节里,介绍了利用最小二乘原理寻求最佳拟合直线的方法,让学生体会其蕴含的最小二乘思想,认识到最小二乘法是统计分析中一种常用的数据处理方法.利用该方法对模型的参数做出估计时,学生们容易误将参数的估计值当作模型的参数,对参数的意义理解不够准确,这是由于对样本的随机性了解不够造成的.教学设计时专门设置解惑环节
7、,消除障碍,深化理解.基于以上分析,确定本单元的教学难点:(1)对随机误差的理解;(2)最小二乘的原理和方法;参数的意义及参数估计公式的推导;(4)残差变量的解释与分析;(5)模型的应用以及优度的判断.4单元教学支持条件分析一元线性回归模型主要研究两个随机变量的线性相关关系,通过成对样本数据建立模型,寻找数据背后隐藏的规律.在教学时,由于需要处理大量数据,涉及画散点图、求回归方程、画回归直线、计算残差和决定系数R2以及数据变换等等,计算量大.课标(2017年版)里明确要求“会使用相关的统计软件”.因此,在本单元教学中,需要使用GeoGebra.ExceL图形计算器等统计软件帮助处理数据.利用信
8、息技术工具辅助教学,不仅仅是教学的需要,也是现如今大数据时代,对于每个受教育者掌握必备的信息技术提出的要求.借助大数据的东风,创建信息技术高效课堂.6课时教学设计2第二课时6.1 教学内容最小二乘原理,一元线性回归模型参数的最小二乘估计.6.2 教学目标(1)通过数学方法刻画散点与直线的接近程度,体会一元线性回归模型参数的最小二乘估计原理,能推导参数的估计值公式,发展数学运算能力.(2)通过对残差和残差图的分析,能用残差判断一元线性回归模型的有效性,发展数据分析的能力.(3)会使用相关的统计软件.6.3 教学重点与难点教学重点:一元线性回归模型参数的最小二乘估计.教学难点:参数估计值公式的推导
9、,利用残差分析回归模型.6.4 教学过程设计6.4.1复习旧知,导入新课数学学习是有连续性和联系性的.在上一节8.2.1一元线性回归模型中,为了研究两个变量之间的相关关系,我们以儿子身高与父亲身高之间的关系为例子,通过绘制散点图,结合相关系数,推断两个变量线性相关.接下来,用X表示父亲身高,用Y表示儿子身高,eYbx+a+ei2.如果说散点图是从E(e)=O,D(e)形的角度对变量之间的关系做了定性的研究,那么表达式Y=bx+a+e则从数的角度对变量y与变量X之间的线性相关关系,做r定量的刻画.其中“称为斜率参数称为截距参数,这两个参数未知.由于。和b作为回归模型的参数,无法像函数模型那样精确
10、地求出来,只能通过样本数据进行估计.如果能把这两个参数估计出来,那么就能利用模型进行有效地预测,做出科学的决策.因此,本节课的探究任务对一元线性回归模型中的参数。和方的值,进行估计.设计意图:承前启后,建立前后知识间的联系,保持连贯性,便于水到渠成,提出本节课的探究任务.开门见山,指出本节课的重要性,参数的估计值关系着模型预测结果的科学性与准确性,所以有必要寻找一种科学的方法,有效减少误差,为最小二乘法的引入做铺垫.6.4.2问题引导,深入探究问题1:如何估计参数。和b的值?图2师生活动:教师提出问题,学生独立思考,寻找答案.教师结合散点图(图2),适当引导,使学生意识到:由于参数。和b刻画的
11、是变量丫与变量X的线性关系.如果能够确定参数的值,就可以清楚的了解两个变量的相关性,就像把平均数作为一个变量数据集中趋势的代表一样.因此,通过成对样本数据估计这两个参数,从几何意义上说,相当于寻找一条适当的直线,使表示成对样本数据的所有散点在整体上与这条直线最接近.该直线可以作为两个变量具有线性相关关系的代表,且该直线对应的回归方程刻画了两个变量间的数量关系.设计意图:在统计学中,许多回归分析的相关概念都可以在直观的几何框架内予以解释,因此,本节课对于参数。和方的估计,也可以尝试利用几何直观化的方法来探究.目的在于借助于图形这一工具,搭建“脚手架”,让学生更加直观地认识和理解“寻找整体上最接近
12、的直线,其实就是寻找整体误差最小化的过程”,符合高中学生的思维特点.教师除了在方法上给予引导之外,还将探究任务与学生熟悉的典型案例相结合.通过典型案例,提出恰当的统计问题,以问题为驱动力,展开探究学习,避免了缺少案例支撑的抽象叙述带来的理解困难.另外,案例可以为数据分析方法的呈现提供归纳所需的基础一一数据.以数据为支撑,便于接下来将统计数据的代数处理转化为几何直观.【课堂讨论环节】利用散点图,找出一条直线,使各散点从整体上与此直线尽可能接近.师生活动:教师鼓励学生大胆探索,认真思考.同学们独立思考,自主探索,在导学案上动手画图,寻找最接近的直线,最后交流讨论、集思广益,派代表发言.对于具有线性
13、相关关系的两个变量,无法在散点图中作一条直线,使其经过所有的样本点,因此,对于最接近的直线(直观的描述),学生们可能会想到许多画法.学生代表甲:采用测量的方法,先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就得到一条直线.图3教师点评:该方法体现了整体偏差最小的思想,缺点是难以实现,且测量的方法很难得到确定的结果.学生代表乙:在图中选择这样的两点画直线,使直线两侧的点的个数基本相同,把这条直线作为所求直线.图4教师点评:该方法没有利用全部数据信息,结果会因人而异.学生代表丙:在散点图中多取几对点,确定出几条直线的方程,再分别求出这些
14、直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距.一儿子身高/cm160165170175180185父亲身高/cm图5教师点评:该方法既没有利用全部数据信息,也没有体现整体误差最小的思想,结果也不确定.师生活动:教师总结学生发言,既肯定了可取之处,也指出不足.许多统计的思想和方法比较直观,同学们在探究思考的过程中,可能会出现一些漫无边际的想法,为了避免这种情况,应注意考虑到以下因素,如尽可能多使地用全部样本数据(避免以点概面),体现整体偏差最小的思想,方法操作性强,结果确定等.设计意图:问题的设计,明确问题,指明思考的方向一一实现从统计直观到数学表达的转化,即将“整体上与直线
15、最接近”这种描述性的表达,须转化为使用一个量化的指标来衡量接近程度,为接下来选择偏差平方和这个量化指标,介绍最小二乘法做好铺垫.同时,强化了学生使用数学工具探究问题、解决问题的意识.学生利用散点图,独立思考、自主探索,寻找最接近的直线的过程,能够调动学生的思维,体会统计思想方法的产生和形成过程,培养数据分析的素养.采用“合作探究+小组汇报”的方式,使学生参与到课堂讨论中去,强化学生的参与意识,还课堂给学生,实现学生是课堂的主人.另外,通过对不同方法间的优劣考量及其可行性分析,使学生学会辩证的分析和思考问题,便于接下来更好地理解最小二乘原理.【历史渊源】最小二乘法,又称最小平方法,主要是通过最小
16、化误差的平方和来寻找数据的最佳匹配函数.最小二乘法是回归分析的一种标准方法,也是统计学分类回归算法的基础,具有悠久的历史.最初由法国数学家马里勒让德(Legendre,1752-1833)于1806年提出.1809年,德国数学家高斯(Gauss,1777-1855)在天体运行论中分析如何充分利用测量数据来预测天体轨迹时,叙述了最小二乘思想.他在根据测量数据预测轨道时,发现一种有效利用全部测量数据的方法,即通过计算得出一组数据,在使数据组的偏差达到最小的意义下,这些数值是最优的.这种方法现在称作最小二乘法.高斯不仅提出了最小二乘法,而且考虑了最小二乘法的误差分析问题,形成最小二乘法理论的重要结果
17、.这个结果从统计学的角度阐述了最小二乘法在缩小误差方面的优势所在,使得在勒让德那里只是处理测量数据的代数方法,逐渐渗透到统计数据分析的领域.可以说,最小二乘法之于统计学,有如微积分之于数学,具有深远的影响,可以称之为统计学的灵魂.高斯(Gauss,1777-1855)图6设计意图:教师播放视频资料,在PPT上以“人物图片+文字”的形式,向学生介绍最小二乘法的由来和历史渊源.有两点用意:为接下来使用最小二乘法估计参数mb,提供方法依据,使得探究过程目标明确,探究结果有理有据,不是空穴来风,毫无根据的.普及数学文化,了解数学发展史,提高学生的数学文化素养.问题2:从成对样本数据出发,如何用数学的方
18、法刻画“从整体上看,各散点与此直线最接近”?方法:利用点到直线y=bx+”距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和,刻画所有样本观测数据与该直线的接近程度.假设满足一元线性回归模型的两个变量的对样本数据为(,y),(x2,必),(,”),由yi=bxi+a+ei(/=1,2,3,n),得Iyi-Sxj+)=|却.显然间越小,表示点(4y)与点(X”如+)的距离越小,即样本数据点(X“,以),离直线y=bx+a的竖直距离越小.特别地,当e,=O时,表示点(Xi,y)在这条直线上.追问1:能否将各点偏差值与直接相加,然后通过比较偏差和的大小来找到最佳方程?不能,因为直接相加会导致
19、正负抵消,不能反映真实的差异情况.那么如何改进这个方案?为避免偏差值“正负抵消,可以用IV-(如+)表示点(4K)到直线的远近,这样,用这个竖直距离之和Xyi-(bxi+a)来刻画各点与此直线的“整体距离”是比较合适r=l的.求使得该偏差绝对值之和最小的。,b值,来获取回归直线的斜率和截距的方法叫最小一乘法.但实际上求出使得“偏差绝对值之和最小”的。,方值,计算起来并不方便.追问2:要确定线性回归方程,使-仍%+。)|达到最小”(最小一乘法),是r=l不是唯一的方法呢?你能否想到其它的判定标准?“最小一乘法”不是唯一的方法,我们还可以用使得样本数据点到回归直线的距离平方和最小的方法来获取回归直
20、线的斜率和截距,这种方法叫最小二乘法.即用各散点到直线的竖直距离的平方之和。=力(弘-法,-a)?来刻画“整体接近程度”.这样,问题就归结J=I为:当。,力取什么值时,Q=为(M-如一a)?最小?r=l师生活动:教师引导为主,学生积极探索.选择什么样的数学量化指标,可以度量点到直线的接近程度.由于样本回归模型中随机误差的存在,使得样本点在纵向上“偏离了”直线.因此,可以采用对应样本点到直线的“竖宜距离”,即响应变量的观测值与其相应的子总体均值的差,来刻画点与直线的接近程度.接下来,师生互动、交流,探索,为避免某极端数据对参数估计值的影响,使用全部测量数据,即用所有样本点到直线的“竖直距离之和”
21、来刻画“整体接近程度”.但是,由于涉及绝对值使得计算不方便,利用最小二乘法的优点,教师指出可以选择使用“竖直距离的平方之和”代替“竖直距禽之和”,刻画“整体接近程度”.整个过程中,师生有效地交流、沟通,探索,课堂上呈现出浓厚的学习氛围.设计意图:本阶段的探究与发现,是在问题1的基础上,对问题2进行地进一步深入研究.该阶段是至关重要且核心的.从最初启发学生从直觉出发,寻找整体上与散点最接近的直线,然后逐步过渡到对“整体最近”的数学刻画,再从实际意义、数学运算等角度考虑,在若干表达式中选择“平方和最小”作为标准,这一过程完整地诠释了从“统计直观”到“数学表达”的转化过程,渗透了转化与化归的思想、数
22、形结合的思想.学生在老师的循循善诱下,感受到知识的产生和发展是自然的、合理的、科学的,有内在驱动力的,更重要的是在经历概念和方法的形成过程中,理解统计的方法,积累了数据分析的经验,培养数据分析、数学抽象、逻辑推理等核心素养.在追问2讨论中,一方面,通过比较求回归方程的不同方案,并对其进行评估,学生们体会到针对同一个问题可以有不同的标准,由不同标准得到的不同结论都具有一定的合理性,体会统计的特点和思想.另一方面,追问2蕴含着丰富的最小二乘思想.最小二乘法的优点是:有效利用全部测量数据,使误差的平方和达到最小,防止某一极端误差对决定参数估计值取得支配性地位.因此,在选择刻画“整体接近程度”这一量化
23、指标时,选择使用全部样本数据,即以“整体距离的平方之和”来刻画“整体接近程度”,使求得数据与实际数据的误差的平方和达到最小,在方程的误差之间建立一种平衡,从而避免某一极端误差对决定参数的估计值取得支配地位,有助于揭示回归模型更接近于真实的状态.最小二乘法对统计学的影响,就像微积分对于数学的影响一样深远.学生们通过本阶段的学习,能够体会最小二乘思想,学会使用最小二乘法去解决许多统计问题,是非常必要的,且大有裨益的.问题3:何时Q=W(X.-如-。)2取得最小值?Z=I(I)。值受到哪些变量的影响?(2)从函数的角度来看,当。,取什么值时,Q(,切=力(K-如-a)?最小?r=l师生活动:教师以问
24、题为导引,带领学生积极思考.对于问题(1),课堂上两位学生各抒己见,发表看法.教师指出由于(i=l,2,-,m表示已知的成对样本数据,是个常量,不会改变,而力和。分别表示直线的斜率和截距,影响直线的位置,也就影响着。的最小值,所以。值由和。决定,即Q=-力大-。)2Z=I可以看作关于两个变量。和b的函数.设计意图:转变研究方向,将求距离的最值问题转化为求二元函数的最值问题,即是将几何问题转化为代数问题,利用函数这一工具来解决,渗透着转化与化归的思想.虽然统计学研究的是不确定性问题,但是经过多次测量后,可以以大数据为支撑,利用确定的工具比如本节中使用的函数知识等,来解决许多不确定的问题,这也是统
25、计学的一大特色.对于问题(2),教师指导学生使用函数的知识,解决最值问题.因为。还可以表示为,即它是随机误差的平方和,这个和当然越小越好,所以/=1我们取使Q达到最小的。和b值,作为截距和斜率的估计值.由于q=(/_如一)2作为二元函数,在寻求最小值时可以考虑采用恒等变形的方法,J-I即加减同一项厂无(与下标i有关项的均值),但是推导过程冗长且复杂,计算量大,学生不容易理解掌握.为了降低难度,可以尝试运用转化与化归的思想,将Q=8.如-)2看作是只关于变量。或变量。的一元函数,运用一元二次函数的相关知/=I识进行解决.不妨先以三组数据(不%),5,%),5,%)为例,求使。取得最小值时的。,b
26、.-1_13记X=-+-2+x3),),=-(j+y2X)J3-Q()=(y-如)-4f+(必-反2)-+(%-如)-。2=a-2(X一如)+(y-bxx)2+/-2(%-bx2)a-y2-bx2)2+a2-2(%一如)4+(%一如产3=3a1-2(yl+y2+y3)-h(xl+x2+x3)a+(yi-bxi)23/=,=3/_6(y-bx)a+(y-bxi)2i=上式是关于。的一元二次函数,当且仅当。的取值为。=亍-,。取得最小值.a=y-bx代入Q=火(凹-如-a):中,/=1W=(y1-bxi)-(y-bx)+(丁2一力氏2)一(y-0x)+(%一/状3)一(丁一人X)=(凹一y)-O(
27、XIT)+(y2-y)-Kx2一句+(y3-y)-r)=(X1-X)2Z?2-2(x1-x)(yi-y)b-(yl-y)2+(/-x)2b2-2(x2-XXy2-y)6+(%y)?+(F-x)2b2-2(x3-x)(y3-y)b+(y3-y)2=2(Xi-X)2-2bf(Xi-X)(z-y)+(为一丁尸il/=!/=!3AW(Xi-T)(JL刃上式是关于b的一元二次函数,当且仅当b的取值为力=J=H-,。取得最小值.汩-(-)(-y)综上,当。,的取值为人飞,。取得最小值.2x,-x)/1y-bx类似地,对于组数据(为,%),(工2,%),(七,”),求使。取得最小值时的。,b.记7=,WXj
28、=Ltyj.=1n闫。(4)=(凹一匕Xi)一42/=Z/_2a(yi-g)+(凹-bxi)2Z=In=na2-(.-如)+Z(必-bxi)2f=l1=1.n=na2-2(Zy,-x,)+(yf-奶)21=1/=11=1=na2-2ta(y-bx)Z(yj.-bxi)2Z=I上式是关于。的一元二次函数,当且仅当。=亍_/,。取得最小值.Qs)=y-bxi-(y-bx)2r=I=Ky-y)-O(Xi-X)Fr=l=1(yi-y)2-2b(xi-x)(yi-y)+b2(xi-x)2i=l=b(i-)2-2。Z(ZT)(K-y)+Z(-y)21ililAE(X1-X)(J1-J)6=上式是关于b的一
29、元二次函数,当且仅当b的取值为,。取得最小值.加工)2综上,当4,6的取值为,t(x-x)(yl-y)Q取得最小值.教师补充:上述关于参数估计值公式的推导方法,是分“步”进行的,即把Q=f0,一如一)2先看作只关于变量a的一元函数,然后看作只关于变量。的一元函数,分/=I步骤先后分别进行求解.而教材里介绍了另一种推导方法一一分“部”进行,即把Q=(y一如一编2的展开式分成三部分,每部分分别化简推导,寻求最值.这也是一种不错/I的方法,值得借鉴,请同学们课下阅读学习.设计意图:在参数的估计值公式推导过程中,学生可能会遇到两个障碍:一为恒等变形的方法(加减同一项厂元),学生对于这种在统计分析中常用
30、的处理数据的代数方法,可能并不熟悉、了解,二为涉及多个数据,计算量大,推导过程冗长、复杂,且需要使用求和符号,对学生的运算能力和使用求和符号的情况提出了挑战.为了突破障碍,教师转变思路,精心设计,利用一元函数的相关知识完成公式推导.同时,尝试先以三组数据为例,再推广到个数据.按照由少及多,由简单到复杂的顺序,化繁为简,搭建“脚手架”,克服公式推导困难.在本阶段分析、解决问题的过程中,渗透转化与化归的思想,培养学生的数学运算素养,提高数学运算能力.6.4.3归纳总结,生成公式C(l-)(yl-y)(l-)i/IG.于一宸我们将y=bx+a称为Y关于X的经验回归方程,也称经验回归函数或经验回归公式
31、,其图形称为经验回归直线.在古汉语中,“二乘”是平方的意思,因此,这种求经验回归方程的方法称作最小二乘法,求得的a,b分别叫做a,b的最小二乘估计(。五都是估计值).注意:经验回归直线必过样本的中心(,y).b估计值公式的结构特征.师生活动:通过上个环节的探究,水到渠成,师生共同总结出参数的估计值公式,建构了经验回归方程,并定义经验回归直线等.同时,挖掘经验回归直线y=bx+a的相关性质,明确参数公式的结构特征.设计意图:帮助学生更好地理解、掌握和记忆公式,本阶段是收获探究成果的阶段,通过使用最小二乘法估计参数,让学生经历完整的数据分析全过程.既可激发学生的学习兴趣,又锻炼了思维的严谨性,使学
32、生更加深刻地体会统计的思想,发展数据分析的观念,培养实事求是、严谨求实的科学态度和锲而不舍的钻研精神.6.4.4实践应用,例题精讲例L利用下表数据,求出儿子身高关于父亲身高的经验回归方程,并且预测一位身高为176CnI的父亲,他的儿子身高大约是多少?1VVllr1ralV111111V1|y11245f1011121)14AeIWn1312mmi*imimm儿山,rosur4imimn12Is表1师生活动:教师面向全体学生,使用GeoGebra软件,一步一步演示整个的数据处理流程,一边演示一边讲解,学生观摩学习,共同梳理回归分析的基本步骤及注意事项.(1)在GeOGebra的表格区的A、B两列
33、分别输入父亲身高和儿子身高的观测数据.(2)鼠标左键同时选中A、B两列,点击工具栏中的第2个图标的倒三角下拉标志,选择“双变量回归分析”,出现“数据源”的对话框,点击“分析”键,出现“数据分析”区,在“散点图”一栏的下方,出现画好的成对样本数据的散点图.(3)观察散点图,发现散点大致分布在一条从左下角到右上角的直线附近,表明两个变量具有线性相关关系,并且是正相关,可以使用线性回归方程来近似刻画二者之间的关系.接下来操作软件,在“数据分析”区中选择并点击“回归模型”里的“线性”,即可画出经验回归直线,并得到经验回归方程y=0.839X176+28.957,由方程可知,斜率参数6=0.839,截距
34、参数萨28.957.(4)在经验回归方程的下方,“符号计算”处,输入X=“176”,点击“Enter”键,则输出y=176.623”.可以预测:父亲身高是176厘米时,儿子身高一般在176.623厘米左右,约等于177厘米.图8设计意图:数据分析是统计的核心,在数据分析时,经常需要对大量数据进行整理、分析、计算等处理,由于数据处理的困难,导致很多统计方法的推广和实施受到阻碍.而信息技术的飞速发展,可以快速、准确地实现列表、画图、计算等功能,使得大量人工难以完成的数据处理变为可能.将信息技术引入统计学,大大促进了统计的发展.在大数据时代,学会使用信息技术工具处理数据、掌握信息,显得尤为重要.因此
35、,在统计学教学中,为了贯彻课标(2017年版)的明确要求“会利用统计软件进行数据分析”,教师专门设计了使用统计软件处理数据这一环节.GeoGebra软件,是一款集几何画图、代数运算、数据处理和3D绘图功能于一体的动态数学学科软件,它通过图形与代数的同步变化,使得对图形的研究更加精心和科学化,很好地实现数与形的融合.基于统计学科的特点,结合GeOGebra软件的优势,本节课选择使用GeoGebra软件辅助教学.GeoGebra软件操作简单、使用方便,对学生来说,简单培训即可上机操作.只有当数据处理不再成为学生进行统计分析的“拦路虎”时,学生主动使用统计知识方法,应用解决实际问题才成为可能.6.4
36、.5探究追问,深化理解问题4:结合经验回归方程尸0.839X176+28.957,思考并回答以下问题:(1)当户176时,9-177.如果一位父亲身高为176Cnb他的儿子长大后身高一定能长到177Cm吗?为什么?(2)根据经验回归方程尸0.839X176+28.957中斜率的具体含义,高个子的父亲一定生出高个子的儿子吗?同样,矮个子的父亲一定生出矮个子的儿子吗?师生活动:教师组织学生讨论,并给予解释、点评.对于第(1)问,儿子的身高不一定会是177cm,因为还有其他影响儿子身高的因素,在一元线性回归模型中,由于随机误差的影响,父亲的身高不能完全决定儿子的身高,但是,依据经验回归方程可以推测,
37、父亲的身高为176Cnl时,儿子身高一般在177Cm左右.也就是说,如果把父亲身高为176Cnl的所有儿子的身高作为一个子总体,那么177Cnl就是这个子总体的均值的估计值.对于第(2)问,斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm.分析模型可以发现,高个子的父亲有生高个子儿子的趋势,但这些儿子的平均身高却低于父亲们的平均身富;矮个子的父亲有生矮个子儿子的趋势,但这些孩子的平均身高却高于父亲们的平均身高.在统计学中,把这种后代的身高向中间值靠近的趋势称为“回归现象”.“回归”一词最早是由英国著名统计学家高尔顿(EGalton,1822-1911)提出的.后
38、来,人们把这种由一个变量的变化去推测另一个变量的变化的方法称为回归分析.高尔顿(F.Galton,1822-19ll)图9设计意图:问题(1)帮助学生正确认识并理解经验回归方程的预测结果,即由解释变量来预测响应变量时,预测的是子总体的响应变量的均值,而不是某一个个体的值,因此,不能把预测值作为响应变量的精确值.通常,把预测的结果用9表示,理解为子总体中每个个体的响应变量取值在该均值的附近;问题(2)帮助学生区别回归模型与函数模型二者的不同,了解“回归”的含义,回归分析的数学发展史.以上两个问题,结合实例分析,通俗易懂,使学生能够准确认识、理解预测的结果,体会预测的意义和方法,建立正确的统计观.
39、6.4.6残差分析,诊断模型引导语:对于响应变量K通过观测得到的数据为观测值,通过经验回归方程得到的3称为预测值,观测值减去预测值称为残差.即i=yi-yi=yi-(bxi+a)残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.问题5:以“儿子身高与父亲身高的关系”的问题为例,你能运用残差分析,诊断一元线性回归模型的有效性吗?师生互动:教师带领学生使用GeoGebra软件,在表格区逐一计算每对样本数据的残差,制成残差表.接下来,以父亲身高为横坐标,残差为纵坐标,画出散点图,称为残差图.具体操作如下:在GeOGe
40、bra的“数据分析区“,选择A、B(父亲身高和儿子身高的观测数据)两列,点击,点击工具栏“双变量回归分析”,在所得的“数据分析”区,将“散点图”改为“残差图”,并且在回归模型中选择“线性”,便可得到样本数据的残差图.图10设计意图:依据最小二乘原理,对一元线性回归方程中的参数完成估计之后,通常还需要对模型进行诊断,判断模型刻画数据的效果.通常有两种方法,一种是定性的方法,另一种是定量的方法(下节课介绍).在本节课里,先介绍定性的方法,即借助于残差图直观判断.如果残差点比较均匀地分布在以横轴为对称轴的水平带状区域内,说明基本符合模型的假设.并且,带状区域的宽度越窄,说明模型的拟合精度越高,回归方
41、程的预报精度越高.如何不是,需要对模型进行改进.根据改进后的模型,做出更符合实际的预测和决策.另外,由于线性回归模型对于异常值是非常敏感的,即模型的构建过程非常容易受到异常值的影响,所以诊断过程中还需要对原始数据的观测进行异常点识别和处理,剔除异常数据.练一练1:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?图U根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为。2的随机变量的观测值.图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图(3)说明残差的方差不是一个常
42、数,随观测时间变大而变大;图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内,所以,只有图(4)满足一元线性回归模型对随机误差的假设.设计意图:残差分析是模型诊断的一种重要手段.如果残差都很小,说明数据拟合效果比较好.通过观察散点图,可以直观判断残差的分布规律.在练一练中,让学生了解这四种典型的残差图,知道每种残差图各自的特点,特别是具有某种规律的残差,需要在模型中引入刻画这些规律的项以改进模型.残差分析,也是统计分析中不可缺少的一环.练一练2:有一个销售公司,每月的广告费和销售额如表所示:广告费/万元489871261069销售额/万元9202215172318251020表2(1
43、)以广告费为横坐标,销售额为纵坐标作散点图,直观推断这两个变量是否存在线性相关关系?并说明理由.(2)建立以广告费用为解释变量、销售额为响应变量的一元线性回归模型,利用模型预测投入广告费为在15万元时,销售额的平均值.(3)根据残差分析,你认为这个模型能够较好地刻画销售额与广告费的关系吗?师生活动:教师让两位同学上讲台,操作GeoGebra统计软件,完成数据的分析、处理工作.相比于使用传统的手段,畅谈体会感想一一使用统计软件可以大大提高处理数据的效率!当数据的处理不再成为一个困难时,学生主动使用所学的统计方法去解决实际问题才有可能.教师还指出,在实际问题中,往往需要增加样本容量,提升样本代表性
44、,使得经验回归方程的预测效果更好一些.设计意图:一方面,讲练结合,让学生亲力亲为.通过演算,熟悉公式,加深对经验回归方程的掌握;通过操作GeoGebra软件解决问题,调动学生的积极性和热情,获得丰富的体验与收获.学生课堂参与度高,实现了新课程、新教材倡导的“积极、主动地学习方式”,还课堂给学生,使学生成为课堂的“主人”.另一方面,通过对使用统计软件与传统演算手段解决同一问题的效率比较,使学生意识到掌握信息技术手段,可以大大提高统计工作的效率.会使用统计软件进行数据分析,是时代发展对每一个受教育者提出的必然要求.6.4.7归纳小结,反思提升通过本节课的学习,你有哪些收获?(请从知识、获得过程、思
45、想方法等方面谈一谈你的感受和体会)(1)什么是一元线性回归模型参数的最小二乘估计?运用了哪些思想方法?(2)一元线性回归模型的参数估计公式是什么?经验回归直线f=Rr+6有哪些性质?(3)如何利用残差分析对一元线性回归模型进行评价与改进?(4)你能归纳一下利用一元线性回归模型解决回归分析问题的基本步骤吗?Ia小司设计意图:师生共同梳理本节知识体系,让学生自主构建知识网络,便于掌握和理解.锻炼学生的数学思维和数学表达能力,全面发展学生的数学核心素养,为下节课探究非线性回归问题埋下伏笔.6.4.8布置作业,应用迁移L必做题:教科书第113页,练习第2,3题选做题:校本资料习题8.2第3,4题设计意
46、图:分层作业,因材施教,体现差异,巩固知识,促进发展.2.尝试推导一元线性回归模型参数的另一组估计公式区-W)(JL于)力xiyi-nxyA=2-1ay-bx6.5目标检测设计某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限与失效费的统计数据,如下表所示:使用年限X/年1234567失效费y/万元2.903.303.604.404.805.205.90表3(1)以使用年限为横坐标、失效费为纵坐标作散点图,直观推断这两个变量是否存在线性相关关系?并说明理由.(2)建立以使用年限为解释变量,失效费为响应变量的一元线性回归模型,利用模型预测该种机械设备使用10年的失效费的平均值.(3)根据残差分析,你认为这个模型能较好地刻画使用年限与失效费的关系吗?设计意图:考察学生能否掌握用一元线性回归模型解决实际问题,能否准确进行模型中的参数估计;考察学生对于利用残差进行模型分析掌握的程度,以及运用统计软件进行线性回归的情况.6.6课后探究活动请收集我校我班男生(或女生)的体重与身高的数据,画出散点图,尝试建立体重y(kg)关于身高X(Cm)的经验回归方程.关于体重与身高,你能得出什么结论?图1