《专题09成对数据的统计相关性、一元线性回归模型及其应用 (3个知识点5个拓展1个突破5种题型3个易错点)解析版.docx》由会员分享,可在线阅读,更多相关《专题09成对数据的统计相关性、一元线性回归模型及其应用 (3个知识点5个拓展1个突破5种题型3个易错点)解析版.docx(42页珍藏版)》请在课桌文档上搜索。
1、专题09成对数据的统计相关性、一元线性回归模型及其应用(3个知识点5个拓展1个突破5种题型3个易错点)【目录】倍速学习四种方法【方法一】脉络梳理法知识点I.相关关系知识点2.样本相关系数知识点3.经验回归方程拓展1.判断变量相关关系的三种方法拓展2.回归系数b的含义拓展3.最小二乘法求回归方程及回归方程的逆用拓展4.经验回归分析“三步曲”拓展5.样本相关系数、决定系数K2的应用突破:非线性相关问题【方法二】实例探索法题型1.变量间相关关系的判断题型2.样本相关系数的应用题型3.经验回归方程及其应用题型4.回归效果的刻画题型5.非线性回归分析【方法三】差异对比法易错点L混淆相关关系与函数关系致误
2、易错点2.对经验回归方程的理解不到位致误易错点3.线性相关系数理解不正确致误【方法四】成果评定法【知识导图】一一知识点L相关关系/一知识点2.样本相关系数/知识点3.经验回归方程/拓展L判断变量相关关系的三种方法r成对数据的统计相关性一拓展2.回归系数力的含义V一拓展3.最小乘法求回归方程及回归方程的逆用J拓展4.经验回归分析“三步曲”、-拓展5.样本相关系数,、决定系数改的应用突破:非线性相关问题【倍速学习四种方法】【方法一】脉络梳理法知识点I.相关关系-相关关系1 .相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.2 .相关关系的分类
3、(1)按变量间的增减性分为正相关和负相关.正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;负相关:当一个变量的值增加时;另一个变量的相应值呈现减少的趋势.(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在二附近,我们称这两个变量线性相关;非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.二、相关关系的直观表示散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.例1.(1)单选题(
4、2023下河南省直辖县级单位高二校考期末)下列两个变量中能够具有相关关系的是()A.人所站的高度与视野B.人眼的近视程度与身高C.正方体的体积与棱长D.某同学的学籍号与考试成绩【答案】A【分析】利用相关关系的定义判断.【详解】A.人所站的高度越高则视野越开阔,具有正相关关系,故正确;B.人眼的近视程度与身高不具有相关关系,故错误;C.正方体的体积与棱长是一种确定关系,故错误;D.某同学的学籍号与考试成绩不具有相关关系,故错误;故选:A(2)单选题(2022上新疆和田高二校考期末)对于变量工,丁有以下四个散点图,由这四个散点图可以判断变量X与3成负相关的是()【分析】根据各图中点的分布,分析变量
5、的相关关系即可.【详解】A:各点分布没有明显相关性,不符;B:各点分布在一条直线附近,且有负相关性,符合;C:各点分布在一条抛物线附近,变量之间先呈正相关,后呈负相关,不符;D:各点分布在一条直线附近,且有正相关性,不符.故选:B知识点2.样本相关系数(1)Ylxiyi-nxy/=1(-)(-y) /=122yi -ny(2)样本相关系数厂的数字特征:当r0时,称成对样本数据正相关;当=Fb=PJX一行2.店乂2_行2参考数据:为#=495,2=42086,丈Xa=4422,i=l【答案】0.984;(2)y=%+丝155【分析】(1)根据给定数据,求出样本中心点,再代入公式计算即得.(2)由
6、(1)的信息,结合最小二乘法公式计算即得.【详解】(1)依题意,U + 6 + 9 + 12 + 15q-=61+82 + 91 + 104+112=90辱E唇f4422-5990495 - 5 92 42086 - 5 9O2也,0.9843 Jl 5860 126z、,.“比-5-了4422-599037262lM62C264因型23=495-5行FIr则9。-丁9=亍,/=I所以),关于X的线性回归方程为y=+平.拓展1.判断变量相关关系的三种方法1.解答题.(2023上高二课时练习)国家学生体质健康标准(2014年修订)中,体能监测包含身高、体重、肺活量、50米跑、坐位体前屈、引体向上
7、(女:仰卧起坐)、立定跳远、IoOO米跑(女:800米跑),据此得到的每项指标都可以按照相应的单项指标评分表进行测量和计分,分别得到相应的数据.这些数据中的任意两组是否都可以作为成对数据进行相关分析?依据你的经验,哪两组数据的相关程度可能最高?哪两组数据的相关程度可能最低?如何通过统计方法检验你的判断?【答案】(1)都可以肺活量和50米跑相关程度最高,身高和肺活量相关程度最低(答案不唯一)【分析】(1)根据相关关系的定义判断即可;(2)根据经验找到合理的案例,结合统计学知识分析即可.【详解】(1)都可以,因为每项指标都可以按照相应的单项指标评分表进行测量和计分,且任意两项指标之间存在一定的关系
8、,但又没有确切到可由其中的一个精确地决定另一个的程度,所以任意两组数据均可以作为成对数据进行相关分析,只是有些数据相关性较弱.(2)依据经验可知肺活量和50米跑相关程度最高,身高和肺活量相关程度最低,(答案不唯一),通过测量出50米成绩与肺活量的数据,作出散点图,即可判断.通过测量出身高与肺活量的数据,作出散点图,即可判断.拓展2.回归系数人的含义2.单选题(2023上天津武清高三天津英华国际学校校考阶段练习)有人调查了某高校14名男大学生的身高及其父亲的身高,得到如下数据表:编号1234567891011121314父亲身高/cm1741701731691821721801721681661
9、82173164180儿子身高/cm176176170170185176178174170168178172165182170175180父亲身高1-165-TTl T !I-r 5 0 5 0 58 8 7 7 6Ii 11 H 1 H利用最小二乘法计算的儿子身高Y关于父亲身高X的回归直线为0.839x+28.957.根据以上信息进行的如下推断中,正确的是()A.当x=172时,ymf若一位父亲身高为172cm,则他儿子长大成人后的身高一定是173CmB.父亲身高和儿子身高是正相关,因此身高更高的父亲,其儿子的身富也更高C.从回归直线中,无法判断父亲身高和儿子身高是正相关还是负相关D.回归直
10、线的斜率可以解释为父亲身高每增加ICm,其儿子身高平均增加0.839Cm【答案】D【分析】由回归直线中的亍为估计值并不绝对,可排除A、B,O.839O可排除C.【详解】对A选项:173为估计值,并不一定,故错误;对B选项:同上,该值为估计值,并不绝对,故错误;对C选项:由0.8390,故可判断父亲身高和儿子身高是正相关,故错误;都D选项:回归宜线的斜率可以解释为父亲身高每增加ICm,其儿子身高平均增加0.839cm,故正确.故选:D.拓展3.最小二乘法求回归方程及回归方程的逆用3. (2024全国高三专题练习)近年来,我国新能源汽车技术水平不断进步、产品性能明显提升,产销规模连续六年位居世界首
11、位.某汽车城从某天开始连续的营业天数工与新能源汽车销售总量y(单位:辆)的统计数据如下表所示:从某天开始连续的营业天数X1020304050新能源汽车销售总量),/辆6268758189(1)已知可用线性回归模型拟合y与X的关系,请用相关系数加以说明(结果精确到0.001);求y关于X的经验回归方程y = hx + af并预测该汽车城连续营业130天的汽车销售总量.参考数据:= H920, 2 =28575, 52.236.iyi-riy参考公式:相关系数厂,经验回归方程= A +Ar中斜率与截距的最小二乘估计公 2-wj2 1=1Yxiyi-rixy式分别为6 =母,a = y-bx.打”应
12、2【答案】(1)答案见解析(2)y = 0.67x + 54.9, 142 辆.【分析】(1)根据相关系数的计算公式代入数据即可求解,(2)由最小二乘法的计算公式求解线性回归方程,即可代入求解.【详解】(1) (1) I10 + 20+30 + 40 + 50 ”=30 ,62 + 68 + 75 + 81 + 89= 75,5回=5x30x75=11250,x22=IO2202+302+402+502=5500,则相关系数11920-11250670_572 代)5F 5500-5302 28575-5752 71000 450 0.999y与X的相关系数近似为0.999,说明y与A-的线性
13、相关程度相当高,从而可用线性回归模型拟合y与X的关系.5a ZXa - 5取(2) (2)由(1)得A = V67012-5x210000.67,G=I-宸=75-0.67x30=54.9,所以y关于X的经验回归方程为=067x54.9.%=130RAy=0.67x+54.9,得夕=0.67130+54.9=142,所以预测该汽车城连续营业130天的汽车销售总量为142辆.拓展4.经验回归分析“三步曲”4. (2021下广东河源高二河源市河源中学校考开学考试)现有一环保型企业,为了节约成本拟进行生产改造,现将某种产品产量X与单位成本y统计数据如表:月份123456产量(千件)234345单位成
14、本(元/件)737271736968试确定回归方程,=加+机指出产量每增加100O件时,单位成本平均下降多少?假定单位成本为70元/件时,产量应为多少件?(参考公式:务=上(-)2-w?(参考数据=148l,Zx;=79)【答案】y=T.818x+77.363(2)1.818元(3)4050件【分析】(1)根据所给数据画出散点图,根据公式算出相应的Aa即可得解.(2)直接代入预测模型预测即可.(3)直接代入预测模型解方程即可.【详解】(1)设X表示每月产量(单位:千件),y表示单位成本(单位:元/件),作散点图如图.由图知y与X间呈线性相关关系.设线性回归方程为=屏+)2+34+3+4+5=
15、3.5,73 + 72 + 71+73 + 69 + 68= 71,C1481OXjQX1oloCz由公式可求得b=79-6x(35)2之一18,a=y71-(-1.818)3.5=77363,,回归方程为y=-1.818x+77.363.(2)由回归方程知,每增加100o件产量,单位成本下降1.818元.(3)当y=70时,70=-1.818x+77.363,得x4.050千件.,单位成本是70元/件时,产量约为4050件.拓展5.样本相关系数、决定系数火?的应用5. 填空题(2021下安徽六安高二安徽省舒城中学校考阶段练习)甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点
16、图与残差平方和支(y一抄)2如下表:l=i甲乙丙T散点图BTBBOAOAOAOA残差平方和115106124103则试验结果体现拟合A,B两变量关系的模型拟合精度高的同学是.【答案】丁【分析】根据散点图中各样本点条状分布越均匀,同时残差平方和越小,即可判断其线性回归模型的拟合效果越好.【详解】对于已经获取的样本数据,心表达式中H(K一凹)为确定的数,则残差平方和越小,2越大,由此知丁同学的线性回归模型的拟合效果最好,故答案为:丁.6. (2021下黑龙江哈尔滨高二哈九中校考期末)全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,中国经济周刊主办的第十八届中国经济论坛
17、在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入X(百万元)与收益(百万元)的数据统计如下:科技投入X1234567收益y19202231405070根据数据特点,甲认为样本点分布在指数型曲线y=2加。的周围,据此他对数据进行了一些初步处理.如下表:Z7-v*1ZXiyi1=17SXR/=I(y,-y)2/=I(-vl-y.)2Z=I5140123914921341307其中Zj=IOg2%,z=Yzi./J=I(I)请根据表中数据,建立y关于X的回归方程(系数5精确到0.1,用5的近似值算6);(2)乙认为样本点分布在直线
18、y=比+的周围,并计算得回归方程为9=8.25x+3,以及该回归模型的决定系数(即相关指数)=0.893,试计算,比较甲乙两人所建立的模型,谁的拟合效果更好?(精确到0.001)由所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)附:对于一组数据3,匕),(w2,v2),.,(mh,vm),其回归直线方程6=肉+&的斜率和截距的最小二乘法估(wf-w)(v1.-v)%匕-而(-vJ2计分别为液二T,a=v-u,决定系数:2=l-j.参考数据:(w-w)2IX-应2(v-v)2;=!/=!三!Iog252.3.【答案】(1)y=23t+38;(2)蹄093
19、9;甲建立的回归模型拟合效果更好;科技投入的费用至少要9.3百万元.【分析】两边取对数得log?=瓜+明令Z=IOg利用最小二乘法可求得2=O.3x+3.8,由此可得回归方程;根据公式计算可得相关指数Ri三由203Z3oo,解不等式可求得大【详解】将y=2zw+两边取对数得:Vx=4,0根据最小二乘估计可知:/s0.939=0.893,由此可得结论;范围,由此可得结果.Iog2y=bx+a,令Z=IOg则2=r+G,-7149,7x5x4G2r_2140-742a=z-=5-0.34=3.8,回归方程为z=0.3X+3.8,即P=203t+38.1a。甲建立的回归模型的q=1一晨P.939其=
20、0.893.甲建立的回归模型拟合效果更好.由知,甲建立的回归模型拟合效果更好.设2M+3si00,解得:0.3x+3.8log2100=2+21og25,解得:9.3.科技投入的费用至少要9.3百万元,下一年的收益才能达到1亿.突破:非线性相关问题1) (2023全国模拟预测)一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为20172022年中国夜间经济的市场发展规模(单位:
21、万亿元),其中20172022年对应的年份代码依次为1-6.年份代码X123456中国夜间经济的市场发展规模y/万亿元20.522.926.430.936.442.4已知可用函数模型y=拟合丁与X的关系,请建立了关于X的回归方程(d。的值精确到0.01);某传媒公司预测2023年中国夜间经济的市场规模将达到48.1万亿元,现用(1)中求得的回归方程预测2023年中国夜间经济的市场规模,若两个预测规模误差不超过1万亿元,则认为(1)中求得的回归方程是理想的,否则是不理想的,判断(1)中求得的回归方程是否理想.参考数据:VI=I2.848ea,481.1673.36673.28217.251.16
22、2.83其中匕=1%.参考公式:对于一组数据(%h),(%,匕),(”,匕),其回归直线。=&+的斜率和截距的最小二乘估计分(w,-w)(v,.-v)别为=j三H,a=v-u,(w-w)2i=l【答案】(1)9=17.25x1.16,;是理想的【分析】(I)通过对所给的的函数模型取对数,转换为求回归直线方程即可,再结合题中所给的直线方程与数据即可得解.(2)利用(1)中求得的函数模型进行预测,结合回归方程理想的定义判断即可.【详解】(1)将y=的等号左右两边同时取自然对数得lny=ln()=ln+Nnb,所以 v = lnizxln.x=123456=3.5,66r2 = 2 + 22+32
23、+42 +52+62 =91 , I=I66-可(匕-叼 V-6xv所以6=JTSa-H)2-j2-6x2i=1i=l73.282-63.53.36691-63.522.59617.50.148,na3.366-0.1483.5=2.848.所以二=2.848+0.148x,即ln5,=2848+()148x,所以旷=62&8+期=17.25、1.16.2) )2023年对应的年份代码为7,当=7时,y=17.251.167=17.252.8348.82,48.82-48.1=0.721,所以(1)中求得的回归方程y=17.25xL16是理想的.【方法二】实例探索法题型1.变量间相关关系的判断
24、1.多选题(2023下高二课时练习)下列说法正确的是()A.闯红灯与交通事故发生率的关系是相关关系B.同一物体的加速度与作用力是函数关系C.产品的成本与产量之间的关系是函数关系D.广告费用与销售量之间的关系是相关关系【答案】ABD【分析】利用相关关系的定义判断.【详解】闯红灯与发生交通事故之间不是因果关系,但具有相关性,是相关关系,所以A正确;物体的加速度与作用力的关系是函数关系,B正确;产品的成本与产量之间是相关关系,C错误;广告费用与销售量之间是相关关系,D正确.故选:ABD题型2.样本相关系数的应用2.多选题(2023上辽宁沈阳高二校考期末)对两个变量和X进行回归分析,则下列结论正确的为
25、OA.回归直线至少会经过其中一个样本点(Xj,%)B.残差平方和越小的模型,拟合的效果越好C.建立两个回归模型,模型1的相关系数4=T)999,模型2的相关系数弓=0876,则模型2的拟合度更好D.以y=e尿模型去拟合某组数据时,为了求出回归方程,设Z=In),将其变换后得到线性方程z=6x+ln2,则力的值分别为2,6【答案】BD【分析】根据回归方程、残差、相关系数、非线性回归等知识对选项进行分析,从而确定正确答案.【详解】A选项,回归直线不一定经过样本点,A选项错误.B选项,残差平方和越小的模型,拟合的效果越好,B选项正确.C选项,1用所以模型1的拟合度更好,C选项错误.D选项,由z=6x
26、+ln2=lny,得丁=6加2=e6.*2=2e6=2力=6,D选项正确.故选:BD题型3.经验回归方程及其应用3.单选题(2023上四川成都高三成都七中校考期中)某公司一种型号的产品近期销售情况如表:月份X23456销售额y(万元)15.116.317.017.218.4根据上表可得到回归直线方程2=O.75x+,据此估计,该公司7月份这种型号产品的销售额为()A.18.85万元B.19.3万元C.19.25万元D.19.05万元【答案】D【分析】根据题意,由回归直线方程过样本点的中心,即可求得然后代入计算,即可得到结果.【详解】由表中数据可得X=W(2+3+4+5+6)=4,J=-(15.
27、1+16.3+1717.218.4)=16.8,因为回归直线过样本点的中心,所以168=0.754+,解得=13.8,所以回归直线方程为R=0.75x+l3.8,则该公司7月份这种型号产品的销售额为y=O75x7+13.8=19.O5万元.故选:D题型4.回归效果的刻画4 .单选题(2023江苏苏州校联考模拟预测)为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率了(%)与复工时间X(X的取值为5,10,15,20,25,30天)的回归关系:模型(1)yy=a+bx,模型(2)y=+-,设两模型的决定系数依次为解和局.若两模型的残差图分别如下,则(模型(1)的残差图模
28、型的残差图62IO 15 20 25 3010 15 20 25 30A. R55-59a = z -Iyi = 2.2 -31.2 = -1.4 z=1.2r-1.4.(2)将f=x-2015,z=y-5代入z=1.2z-1.4,得),-5=1.2(x-2015)-L4,即y=1.2x-2414.4.所以),关于X的回归方程为9=12l2414.4.(3)当x=2021时,y=L22021-2414.4=10.8,所以预测到2021年年底,该地储蓄存款额可达10.8(千亿元).【方法四】成果评定法一、单选题1 .(2021高二课时练习)下列关于回归分析的说法中错误的是()A.回归直线一定过样
29、本中心(7,5)B.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适C.甲、乙两个模型的W分别约为0.98和0.80,则模型乙的拟合效果更好D.两个模型中残差平方和越小的模型拟合的效果越好【答案】C【解析】根据回归直线过样本中心点可判断A选项的正误;利用残差图与模型的拟合效果的关系可判断B选项的正误;利用相关指数与模型拟合效果的关系可判断C选项的正误;利用残差平方和与模型拟合效果之间的关系可判断D选项的正误.【详解】对于A选项,回归直线一定过样本中心(x,y),A选项正确;对于B选项,残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,B选项正确;对于C选项,甲、乙两个模型的正分别约为0.98和0.80,则模型甲的拟合效果更好,C选项错误;对于D选项,两个模