大题04 统计与统计案例(解析版).docx

上传人:夺命阿水 文档编号:1381648 上传时间:2024-06-15 格式:DOCX 页数:21 大小:134.58KB
返回 下载 相关 举报
大题04 统计与统计案例(解析版).docx_第1页
第1页 / 共21页
大题04 统计与统计案例(解析版).docx_第2页
第2页 / 共21页
大题04 统计与统计案例(解析版).docx_第3页
第3页 / 共21页
大题04 统计与统计案例(解析版).docx_第4页
第4页 / 共21页
大题04 统计与统计案例(解析版).docx_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《大题04 统计与统计案例(解析版).docx》由会员分享,可在线阅读,更多相关《大题04 统计与统计案例(解析版).docx(21页珍藏版)》请在课桌文档上搜索。

1、大题04统计与统计案例王囿叵Hl高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.荔荔71用样本估计总体(2023北京门头沟一模)已知某种业公司培育了新品种的软籽石榴,从收获的果实中随机抽取了50个软籽石榴,按质量(单位:g)将它们分成5组:360,380),380,400),400,420),420,440),440,460得到如下频率分布直方图.(1)用样本估计总体,求该品种石榴的平均质量;(同一组中的数据用该组区间的中点值作代表)按分层随机抽样,在样本中,从质量在区间380,400),400,42

2、0),420,440)内的石榴中抽取7个石榴进行检测,再从中抽取3个石榴作进一步检测.(0)已知抽取的3个石榴不完全来自同一区间,求这3个石榴恰好来自不同区间的概率;(0)记这3个石榴中质量在区间420,440)内的个数为X,求X的分布列与数学期望.【解】(1)该品种石榴的平均质量为i=20x370x0.005+(390+410+450)x0.010+430x0.0151=416,所以该品种石榴的平均质量为416g.(2)由题可知,这7个石榴中,质量在380,400),400,420),420,440)上的频率比为0.010:0.010:0.015=2:2:3,所以抽取质量在380,400),

3、400,420),420,440)上的石榴个数分别为2,2,3.(0)记A=抽取的3个石榴不完全来自同一区间”,8=“这3个石榴恰好来自不同区间”,则P(八)=k=有_CeC;=12C352-5-4-51-3-3-3-67即这3个石榴恰好来自不同区间的概率为卷.(0)由题意X的所有可能取值为0,1,2,3,WIHX=O)=盘,尸(X=I)=等=,C1C2I?C31p(X=2)=岩=最P(=3)亳=M所以X的分布列为解注赛导1 .频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示藉,频率=组距X罐.2 .在频率分布直方图中各小长方形的面积之和为1.3 .利用频率分布直方图求众数、中位数与平均数

4、.最高的小长方形底边中点的横坐标即众数.中位数左边和右边的小长方形的面积和相等.平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.4平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.5.易混清频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.44变式(2023北京大兴三模)某空调企业为了解产品售后服务情况,给用户发放一份调查问卷,满分为100分.现从回收的问答卷中随机抽取100份作为样本.得到如下频率分布直方图.从样本中得分在(8(),I(X)的问卷

5、中,按分层抽样抽取8份,再从中随机抽取3份,记这3份问卷中得分在(90,100的份数为X,求X的分布列及数学期望.【解】(DS10(0.001+0.013+0.031+0.028+0.015+0.005)=1,解得=0.007因为0.01+0.07+0.130.5,所以中位数在60分到70分之间,设中位数为X,贝!10.01+0.07+0.13+0.31x=0.5,解得X念69.4.所以a=0007,样本的中位数约为69.4分.(2)根据分层抽样的意义,可知所抽取的8份答题卷中,得分在(80,90的有8Ool50.015+0.005=6份,得分在(90,1(叫的有8竺生一、J0.015+0.0

6、05=2份,所以X的所有可能取值为。,1,2,则P(X=O)=寻=5,P(X=I)=等=,*=2)=等q,所以X的分布列为X0P5121528351533所以X的数学期望E(X)=OXQl*+2亮=关椅IqZoZoZoH-后”模拟1. (2021北京顺义二模)某自行车厂为了解决复合材料制成的自行车车架应力不断变化问题,在不同条件下研究结构纤维按不同方向及角度黏合强度,在两条生产线上同时进行工艺比较实验,为了比较某项指标的对比情况,随机地抽取了部分甲生产线上产品该项指标的值,并计算得到其平均数5=74,中位数.t=72,随机地抽得乙生产线上100件产品该项指标的值,并绘制成如下的频率分布直方图.

7、频率(1)求乙生产线的产品指标值的平均数与中位数(每组值用中间值代替,结果精确到0.01),并判断乙生产线较甲生产线的产品指标值是否更好(如果l5-yK亍-则认为乙生产线的产品指标值较甲生产线的产品指标值更好,否则不认为更好).用频率估计概率,现从乙生产线上随机抽取5件产品,抽出指标值不小于70的产品个数用X表示,求X的数学期望与方差.【解】(1)y=10(550.01+650.02+750.034+850.026+950.01)=75.60,因为(0.01+0.02)10=0.30.5,所以中位数在区间70,80)上,贝(0.01+0.02)xl0+0.034(y-70)=0.5,解得y75

8、.88,即中位数=75.88,因为I=0.28V-所以乙生产线较甲生产线的产品指标值更好;7(2)指标值不小于70的概率为(0.034+0.026+0.01)x10=,由题意可得X所以E(X)=5*=(X)fS卷.2. (2023河北开滦第二中学模拟)高中数学试卷满分是150分,其中成绩在130,150内的属于优秀.某数学老师为研究某次高三联考本校学生的数学成绩,随机抽取了200位学生的数学成绩(均在90,150内)作为样本,并整理得到如下频率分布直方图.频率根据频率分布直方图,求样本的中位数,并估计本次高三联考该校学生的数学成绩的优秀率;(结果保留两位小数)从样本数学成绩在120,130),

9、130,140)的两组学生中,用分层抽样的方法抽取5名学生,再从这5名学生中随机选出2人,求这2人来自两组的概率.【解】(1)由频率分布直方图可知(2x+0.012+0.018+0.022+0.028)l0=l,解得X=O.010,样本中数学成绩在90,100)内的频率Pi=00t在100,110)内的频率玛=0.22,在110,120)内的频率为G=0.28,同R+6=0.320.5,团样本的中位数落在11(),120)内,设样本的中位数为?,贝!)0.5-0.32=。-IlO)XO.028,解得z116.43,故样本的中位数为116.43分.由样本估计总体,得本次高三联考该校学生的数学成绩

10、的优秀率约为(012+0.10)x100%=22%;(2)由频率分布直方图可知,按分层抽样的方法,抽取5名学生中成绩在120,130)内的有3名,分别记为A,B,C,在130,140)内的有2名,分别记为D,E,则从5人中抽取2人的所有抽取情况有AB,AC,AD,AE,BC,BD,BE,CD,CE,DE,共10种,其中2人来自两组的有AD,AE,BD,BE,CD,CE,共6种,故所求概率P=K=I3所以这2人来自两组的概率为:(2022新高考11)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:(1)估计该地区这种疾病患者的平均年龄(同一组中

11、的数据用该组区间的中点值为代表);(2)估计该地区一位这种疾病患者的年龄位于区间20,70)的概率;(3)已知该地区这种疾病患者的患病率为0.1%,该地区年龄位于区间40,50)的人口占该地区总人口的16%,从该地区中任选一人,若此人的年龄位于区间40,50),求此人患这种疾病的概率(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).频率/组距0.0230.0200.017010203040506070【解析】(I)由频率分布直方图得该地区这种疾病患者的平均年龄为:X=50.00lX0+150.00210250.012l0+350.01710+450.

12、023l0+550.02010+650.0l710+750.00610850.00210=47.9r(2)该地区一位这种疾病患者的年龄位于区间20,70)的频率为:(0.012+0.017+0.023+0.020+0.017)10=0.89,.估计该地区一位这种疾病患者的年龄位于区间20,70)的概率为0.89.(3)设从该地区中任选一人,此人的年龄位于区间40,50)为事件8,此人患这种疾病为事件C,则P(CB)=P(BC)0.1%0.023X10jU0大题典例2回归分析我国风云系列卫星可以监测气象和国土资源情况.某地区水文研究人员为了了解汛期人工测雨量弋(单位:dm)与遥测雨量I(单位:d

13、m)的关系,统计得到该地区10组雨量数据如下:样本号i12345678910人工测雨量工5.387.996.376.717.535.534.184.046.024.23遥测雨量工5.438.076.576.147.955.564.274.156.044.49i-yi0.050.080.20.570.420.030.090.110.020.26IO10IO并计算得Z%;=353.6,Xx2=361.7,ZXa=357.3,FiS33.62,y34.42,Xyk34.02.I=I4-1三1求该地区汛期遥测雨量y与人工测雨量X的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系;规定:数

14、组(4y)满足N-yi为1类误差;满足0i七-ytow【解】(1)因为=丁吉=玄=一V店(XD(yi-y)-1。/卜(力2-io,代入已知数据,工0.98357.3-1034.0217.1得厂=I=/(353.6-1033.62)(361.7-1034.42)304.5(2)依题意,I类误差有5组,“II类误差有3组,“小类误差有2组.若从I类误差和II类误差数据中抽取3组,抽到“I类误差的组数X的所有可能取值为O,1,2,3.则P(X=O)爷q,P(X=I)=等q,C8DOC8DOP(=2)=婴普=2pg)=冬=WWC;56287Cl5628所以X的概率分布为XO123P1561556152

15、8528所以X的数学期望E(X)=Ix*2x+3x95joZoZoO另解:因为X(3,5,8),所以E(X)=等=1.OO解接族导求经验回归方程的步骤依据成对样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).nn计算出工,y9X?,和i的值.i=l=l(3)计算0,b.(4)写出经验回归方程.易错提醒1.样本点不一定在经验回归直线上,但点(工,J)一定在经验回归直线上.2,求Z时,灵活选择公式,注意公式的推导和记忆.3利用样本相关系数判断相关性强弱,看Irl的大小,而不是r的大小.4.通过经验回归方程求的都是估计值,而不是真实值.44变式党的二十大以来,国家不断加大对科技创新的支

16、持力度,极大鼓舞了企业持续投入研发的信心.某科技企业在国家一系列优惠政策的大力扶持下,通过不断的研发和技术革新,提升了企业收益水平.下表是对2023年15月份该企业的利润M单位:百万)的统计.月份1月2月3月4月5月月份编号X12345利润W百万)712131924(1)根据统计表,求该企业的利润),与月份编号X的样本相关系数(精确到OO1),并判断它们是否具有线性相关关系(O.75H1,则认为y与X的线性相关性较强,NJ=64+9+4+16+81=74,Wa-x)2=4+l+0+l+4=i,4141所以相关系数r=-=-0.980.75f因此,两个变量具有很强的线性相关性.(2)由题意知,X

17、的可能取值为0,123因为P(X=O)=年=-1.,p(=l)=里=旦、C;56VJC56P(X=2)=等=品尸(X=3)=等葭,VgZoVgZo所以X的分布列为:X0123P15615561528528所以E(X)=0+11+23xA=.模拟1.(2023陕西咸阳二模)一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为20172022年中国夜间经济的市场发展规模(单位:万亿元

18、),其中20172022年对应的年份代码依次为16.年份代码工123456中国夜间经济的市场发展规模y/万亿元20.522.926.430.936.442.4已知可用函数模型)=。万拟合.V与的关系,请建立V关于的回归方程(。力的值精确到Om),(2)某传媒公司预测2023年中国夜间经济的市场规模将达到48.1万亿元,现用(1)中求得的回归方程预测2023年中国夜间经济的市场规模,若两个预测规模误差不超过1万亿元,则认为(1)中求得的回归方程是理想的,否则是不理想的,判断(1)中求得的回归方程是否理想.参考数据:V7.r=leZ8480.1481.1673.36673.28217.251.16

19、2.83其中匕=Iny.参考公式:对于一组数据(%,),(%),(%匕),其回归直线=6+加的斜率和截距的最小二乘估计分(w,.-i7)(v,.-v)别为=j=H,a=v-u.k-w)2/=I【解】(1)将),=,的等号左右两边同时取自然对数得Iny=In()=lna+xl昉,由i、i11r-1+2+3+4+5+6所以y=ln+xlnbX=3.5,66而Z+22+32+42+52+62=91,=i73.282-63.53.3662.59691-63.5217.50.148,-H)(匕-M)w-6v所以TSa-可-=lI=IIna3.366-0.1483.5=2.848.所以U=2.848+0.

20、148%,即1睢=2.848+0.148x,所以y=e2-848+0,48x=17.251.16v.(2)2023年对应的年份代码为7,当x=7时,y=17.251.167=17.252.8348.82,48.82-48.1=0,72l,所以(I)中求得的回妇方程y=17.25l.l6,是理想的.2.(2023南宁三中一模)已知某种汽车新购入价格为14万元,但随着使用年限增加汽车会贬值.通过调查发现使用年限工(单位:年)与出售价y(单位:万元)之间的关系有如下一组数据:X12y12104810765求F关于a的回归方程;Xxiyi-5xyr-l-42=-0.7,60JMa=y-bx=8+0.7

21、5=11.5当R209时,回归方程的拟合效果非常好;当O.8R2,/)2所以,T(yi-yr-l(z-y)2=42+22(-l)2(-2)2+(-3)2=34,r-I46=,-30865则o8R244真题(2022全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:11)和材积量(单位,n),得到如下数据:样本号i12345678910总和根部横截面积E0.040.060.040.080.080.050.050.070.070.060.6材积量必0.250.400.220.540.510.340.

22、360.460.420.403.91010IO并计算得=0.038,=1.6158,Xx1yi=0.2474.!=Ii=li=l估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为18611,已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.Ui-Wi-y)附:相关系数下1-377.J(i-)2(yi-y)2【解】(D样本中10棵这种树木的根部横截面积的平均值了=黑=00639样本中10棵这种

23、树木的材积量的平均值y=039据此可估计该林区这种树木平均一棵的根部横截面积为0.06m2,平均一棵的材积量为0.3911?1010(-)(yi-y)%o耳国一)互切“2问昌-回02474-100()6039二。X00134,097(0.038-100.062)(1.6158-100.392)0.00018960.01377典r0.97(3)设该林区这种树木的总材积量的估计值为Yml又已知树木的材积量与其根部横截面积近似成正比,r4三006186M为出,可得病二歹,解之得y=1209m则该林区这种树木的总材积量估计为1209m,大题典例31独立性检验_由于人类的破坏与栖息地的丧失等因索,地球上

24、濒临灭绝生物的比例正在以惊人的速度增长.在工业社会以前,鸟类平均每300年灭绝一种,兽类平均每8(XX)年灭绝一种,但是自工业社会以来,地球物种灭绝的速度已经超出自然灭绝率的100O倍.所以保护动物刻不容缓,全世界都在号召保护动物,动物保护的核心内容是禁止虐待、残害任何动物,禁止猎杀和捕食野生动物,某动物保护机构为了调查研究人们“保护动物意识的强弱与性别是否有关联,从某市市民中随机抽取400名进行调查,得到统计数据如下表:保护动物意识强保护动物意识弱合计男性14060200女性80120200合计220180400(1)根据以上数据,依据小概率值=0.001的独立性检验,能否认为人们保护动物意

25、识的强弱与性别有关联?将频率视为概率,现从该市女性的市民中用随机抽样的方法每次抽取人,共抽取4次.记被抽取的4人中“保护动物意识强的人数为X,若每次抽取的结果是相互独立的,求X的分布列和数学期望.参考公式:Z2n(ad-bey(a+b)(c+d)(a+c)(b+d)*其中=a+b+c+d.a0.100.050.0100.0050.001Xa2.7063.8416.6357.87910.828附:【解】(1)零假设为名:保护动物意识的强弱与性别无关联.由题意,400(140120-6080)2200200220l80400TT36.36410.828=X0001,所以根据小概率值=OOOl的独立

26、性检验,我们推断儿不成立,即认为保护动物意识的强弱与性别有关联.(2)由题意可知:在女性的市民中抽到1人,抽中“保护动物意识强的女性市民的概率为翡=|,所以X的所有可能取值为0、1、2、3、4,由题意可知,XB|;4qP(X=O)=CMIqj=总,P(X=l)=Cifl-Y=,V3)OZ?DkD)OZD2P(X=4)=C:X16625所以X的分布列为X01234P816252166252166259662516625所以E(X)=OXlUIX+2”+3x型+4也)625625625625625解法就导独立性检验的一般步骤根据样本数据列2X2列联表;根据公式炉=(.+Z)Q+d),计算炉的值;查

27、表比较Z2与临界值的大小关系,作统计判断越大,对应假设事件H。成立(两类变量相互独立)的概率越小,HO不成立的概率越大.易错提醒1片越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能性.2.在犯错误的概率不超过0.()1的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.4变式绵阳市37家A级旅游景区,在2023年国庆中秋双节期间,接待人数和门票收入大幅增长.绵阳某旅行社随机调查了市区100位市民平时外出旅游情况,得到的数据如下表:喜欢旅游不喜欢旅游总计男性203050女性302050总计5050100能否有95%的把握认为喜欢旅游与性别有关?在以上所调

28、查的喜欢旅游的市民中,按性别进行分层抽样随机抽取5人,再从这5人中随机抽取2人进行访谈,求这两人是不同性别的概率.n(ad-bc)2(a+b)(c+d)(a+c)(b+d)p2k)0.0500.0100.001k3.8416.63510.828【解】(D根据列联表计算YJ(2x2-3030)2-4384,5O5O5O5O所以有95%的把握认为喜欢旅游与性别有关;(2)按分层比例可知,随机抽取的5人中,男性2人,女性3人,设男性2人分别为A,A2,女性3人分别为印员,打,5人中任取2人的样本空间为44,44,4员,4%44,4与,4%甲由氏员4,共包含io个样本点,其中2人不同性别包含的样本为4

29、4,A员,44,4与,4员,有6个样本点,所以5人中随机抽取2人进行访谈,求这两人是不同性别的概率P=V=I.扃4模拟(2023安徽省临泉第一中学三模)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:gW),整理数据得到下表:SO2的浓度空气质量等或j-0,50(50,150(150,4751(优)28622(良)5783(轻度污染)3894(中度污染)112H若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天、空气质量不好”,根据上述数据,回答以下问题.估

30、计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;完成下面的2x2列联表,一一31”的浓度0,1501(150,4751合计空气质量好空气质量不好合计根据中的列联表,依据小概率值=0.01的独立性检验,能否据此推断该市一天的空气质量与当天SO2的浓度有关?【解析】(1)由表格可知,该市一天的空气质量好,且SO?的浓度不超过150的天数为28+6+5+7=46,贝该市一天的空气质量好,且SO2的浓度不超过150”的概率P=器=0.46.由表格数据可得列联表如下,的浓度空气质0,150(150,475合计空气质量好461056空气质量不好242044合计7030100(3)零假设为

31、Ho:该市一天的空气质量与当天SO2的浓度无关.,100X46x20-24x102由(2)知Z=-70x30x56x448.9366.635=xo.o,根据小概率值=0.(11的独立性检验,我们推断为不成立,即认为该市一天的空气质量与当天SOz的浓度有关.2. (2023江苏苏州三模)某学校为了解高三学生每天自主学习中国古典文学的时间,随机抽取了高三男生和女生各50名进行问卷调查,其中每天自主学习中国古典文学的时间超过3小时的学生称为“古文迷,否则为“非古文迷”,调查结果如表:单位:人古文迷非古文迷合计男生2650女生20合计56100(1)请你根据已知条件完成2x2列联表,根据表中数据能否判

32、断有60%的把握认为古文迷与性别有关?nad-bc,其中=a+b+c+d现从调查的女生中按分层抽样的方法抽出5人进行调查,再从抽取的5人中随机抽取3人进行调查,记这3人中“古文迷的人数为一求随机变量:的分布列与数学期望.P(K2k)0.500.400.250.050.0250.010k0.4550.7081.3213.8415.0246.635参考公式和数据:K2=(a+b)(c+d)(a+c)(b+d)【解】(1)(1)根据已知条件完成2x2列联表如下:单位:人古文迷非古文迷合计男生262450女生302050合计5644100提出假设M):认为“古文迷”与性别无关,由列联表得犬JoOM26

33、x2。-30x24);土0649”真题(2023甲卷(理)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).(1)设X表示指定的两只小鼠中分配到对照组的只数,求X的分布列和数学期望;(2)试验结果如下:对照组的小白鼠体重的增加量从小到大排序为3. 218.820.221.322.523.225.826.527.530.14. 634.334.835.635.635.836.237.340.543.2试验组的小白鼠体重的

34、增加量从小到大排序为5. 89.211.412.413.215.516.518.018.819.26820.221.622.823.623.925.128.232.336.5求40只小白鼠体重的增加量的中位数再分别统计两样本中小于,与不小于,的数据的个数,完成如下列联表:In.in对照组实验组(77)根据中的列联表,能否有95%的把握认为小白鼠在高浓度臭飙环境中与在正常环境中体重的增加量有差异?叫叱2Md-be)2(+h)(c+d)(a+c)(b+d)P(K2.k)0.1000.0500.010k2.7063.8416.635【解析】(1)根据题意可得X=0,1,2,P(X=I)=型/39P(X=2)=1978.X的分布列为:X012P192019783978192()19/.E(X)=Ox-+1-+2-=l783978(2)40个数据从小到大排列后,中位数?即为第20位和第21位数的平均数,第20位数为23.2,第21位数为23.6,M=23.2+23.6=23.4,2.补全列联表为:m.m合计对照组61420实验组14620合计202040由可知Kj紫祟募小FOO.能有95%的把握认为药物对小鼠生长有抑制作用.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号