《中科大概率论与数理统计讲义04数理统计的基本概念及抽样分布.docx》由会员分享,可在线阅读,更多相关《中科大概率论与数理统计讲义04数理统计的基本概念及抽样分布.docx(20页珍藏版)》请在课桌文档上搜索。
1、第四章 数理统计的基本概念及抽样分布教学目的:1)使学生对什么叫数理统计及其发展史有一个初步的了解。2)使学生掌握数理统计的若干基本概念,如总体、样本、简单样本、统计模型等。3)使学生掌握统计量2、卜F、正态总体样本均值和样本方差的分布及其简单性质.?4.1引言什么叫数理统计学本课程的前四章介绍了概率论的基本内容,为数理统计学建立了重要的数学基础.从 本章起,我们转入本课程的第二部分一数理统计学.下面我们首先说明什么是数理统计 学.统计学的任务是研究怎样有效地收集、整理和分析带有随机性影响的数据,从而对 所考虑的问题作出一定结论的方法和理论.它是一门实用性很强的学科,在人类活动的 各个领域有着
2、广泛的应用.研究统计学方法的理论基础问题的那一部分构成数理统计 学”的内容.一般地可以认为数理统计是数学的一个分支,它是研究如何有效地收集和有效地使用带有随机性影 响的数据的一门学科.下面通过例子对此加以说明.1 .有效地收集数据收集数据的方法有:全面观察(或普查)、抽样调查和安排试验等方式.例4.1.1.人口普查和抽样调查.我国在2000年进行了第五次人口普查.如果普查的数 据是准确无误的,无随机性可言,不需用数理统计方法.由于人口普查,调查项目很多, 我国有13亿人口,普查工作量极大,而训练有素的工作人员缺乏.因此虽是全面调查,但 数据并不可靠,农村超计划生育瞒报、漏报人口的情况时有发生.
3、针对普查数据不可靠, 国家统计局在人口普查的同时还派出专业人员对全国人口进行抽样调查,根据抽样调 查的结果,对人口普查的数字进行适当的修正.抽样调查在普查不可靠时是一种补充办 法.如何安排抽样调查,这是有效收集数据的重要问题,这构成数理统计学的一个重要 分支一抽样调查方法.例4.12考察某地区IOooO农户的经济状况.从中挑选10。户做抽样调查.若该地区分成 平原和山区两部分,平原地区较富,占该地区农户的7。,山区的3。农户较穷.我们的 抽样方案规定在抽取的100户中,从平原地区抽7。户,山区抽3。户,在各自范围内用随机 化方法抽取.在本例中有效收集数据是通过合理地设计抽样方案来实现的.在通过
4、试验收集数 据的情形如何做到有效收集数据,请看下例:例4.1.3.某化工产品的得率与温度、压力和原料配方有关.为提高得率,通过试验寻找 最佳生产条件.试验因素和水平如下样品因素/1234期8100012001400压力10203040配方ABCD3个因素,每个因素4个水平共要做43 = 64次试验.做这么多试验人力、物力、财力都不 可能.因此,如何通过尽可能少的试验获得尽可能多的信息?比如来用正交表安排试验 就是一种有效的方法.如何安排试验方案和分析试验结果,这构成数理统计的另一分支一试验的设计和 分析.在本例中有效收集数据是通过科学安排试验的方法来实现的.在有效收集数据中一个重要问题是:数据
5、必须具有随机性.2 .有效的使用数据获取数据后,需要用有效的方法,去集中和提取数据中的有关信息、,以对所研究的 问题作出一定的结论,在统计上称为“推断”.为了有效的使用数据进行统计推断,需要对数据建立一个统计模型,并给定某些准 则去评判不同统计推断方法的优劣.例4.1.4.为估计一个物体的重量a才巴它在天平上称5次获得数据Xi , X2, X X X , 5,它们都 受到随机性因素的影响(天平的精度反映了影响的大小).估计a的大小有下列三种不同 方法:(1)用5个数的算术平均值J = 1(1 + XXX + X5)去(古计a;(2)将Xi , X2 , X X X , 5按大 小排列为X(1)
6、 2 X(2) 2 X X X 2 X,取中间一个值X去估计a;(3)用W = YX+ x(5) 去估计a你可能认为7优于x(3),而x(3)优于W.这是不是对的?为什么是这样?在什 么条件下才对?事实上,对这些问题的研究正是数理统计学的任务.要回答这些问题我们需要对数据建立一个统计模型和制定评判不同统计推断方法 的准则.本例中在适当的假定下,可认为数据服从正态模型.下面我们举一个例子说明采用合适的统计方法也是有效使用数据的一个重要方面.例4.15某农村有100户农户,要调查此村农民是否脱贫.脱贫的标准是每户年均收入 超过1万元.经调查此村90户农户年收入5000元,10户农户年收入10万元,
7、问此村农民是 否脱贫?(1)用算术平均值计算该村农户年均收入如下:f = (90 0.5 + 10 c),作为用 推断a的正福桂的合理指标.统计推断包括下列三方面内容:提出种种的统计推断的方法.(2)计算有关统计 推断方法性能的数量指标,如前述例子中用用 估计N(a,垃)中的a,用P(IS . a C)表示 推断性能的数量指标.在一定的条件和优良性准则下寻找最优的统计推断方法,或证 明某种统计推断方法是最优的.?4.3统计量?4.3.1统计量的定义数理统计的任务是通过样本去推断总体.而样本自身是一些杂乱无章的数字,要对 这些数字进行加工整理,计算出一些有用的量,这就如同为了织布,我们首先要把棉
8、花 加工纺成纱,然后利用纱去织布.可以这样理解:这种由样本算出来的量,把样本中与所 要解决的问题有关的信息集中起来了.我们把这种量称为统计量,其定义如下:定义431.由样本算出的量是统计量,或日,统计量是样本的函数.对这一定义我们作如下几点说明:(1)统计量只与样本有关,不能与未知参数有关.例如X N(a, 2),X,xxx,X.是从 总体X中抽取的iid.样本,则0 Xi和 Xf都是统计量,当a和。2皆为未知参数时,。(i.i=1i=1i=1a)和Xf 2都不是统计量.i=1(2)由于样本具有两重性,即样本既可以看成具体的数,又可以看成随机变量;统计 量是样本的函数,因此统计量也具有两重性.
9、正因为统计量可视为随机变量(或随机向 量),因此才有概率分布可言,这是我们利用统计量进行统计推断的依据.(3)在什么问题中选用什么统计量,要看问题的性质.一般说来,所提出的统计量应 是最好的集中了样本中与所讨论问题有关的信息,这不是容易做到的.?4.3.2若干常用的统计量1 .样本均值:设Xi , X X X , X.是从某总体X中抽取的样本,则称_ 1 Xi . i=1为样本均值.它分别反映了总体均值的信息.2 .样本方差:设Xi , X X X , X.是从某总体X中抽取的样本,则称S2 = (Xi . V)2n 1i= 1为样本方差,它分别反映总体方差的信息.而S称为样本标准差,它反映了
10、总体标准差的信 息.3 .样本矩:设Xi , X X X , X.为从总体F中抽取的样本,则称 jak = - Xh k = 1, 2, X X X为样本k阶原点矩,特别k = 1时,a = S即样本均值.称I _mk = (Xi. A)k, k = 2, 3, X X Xi=1为样本k阶中心矩.4 .次序统计量及其有关统计量:设Xi, X X X , X.为从总体F中抽取的样本,把其按大 小排列为X2 X(2)2 X X X 2 X(.)厕称(X,X(2), X X X , X(.)为次序统计量,(X,x x x , Xq)的 任一部分也称为次序统计量利用次序统计量可以定义下列统计量:(1)
11、样本中位数:(21J)当n为奇数4N1mi = Ie(4.3.1)J 2 (J) + (3+i)当 n为偶数样本中位数反映总体中位数的信息.当总体分布关于某点对称时,对称中心既是总体中 位数又是总体均值,故此时0/2也反映总体均值的信息.(2)极值:X和X(。)称为样本的极小值和极大值.极值统计量在关于灾害问题和材 料试验的统计分析中是常用的统计量.?4.4三大分布一2, t, F分布及正态总体样本均值和样本方差的分布能求出抽样分布的确切而且具有简单表达式的情形并不多,一般都较难.所幸的是,在 总体分布为正态情形,许多重要统计量的抽样分布可以求得,这些多与下面讨论的三种 分布有密切关系.这三个
12、分布在后面几章中有重要应用.?4.4.1 2 分布定义4.4.1 .设Xi, X2 , X X X , X i .i. d.二N(0. 1),令X =X?,则称X是自由度为n的2变量,I= 1其分布称为自由度为n的2分布,记为X二Xf .设随机变量X是自由度为n的2随机变量,则其概率密度函数为淖x。,q () = (4.4.1)(0,x 2 0.注441.若记(。,人)表示形状参数为a、刻度参数为人的Gamma分布,其密度函数如下则自由度为n的2分布与Gamma分布的关系为:X= , Xf二(n2, 1/2).我们也可以利 i 1用这一关系给出2分布的定义:“若随机变量X的概率密度函数为(n/
13、2, 1/2),则称X为 服从自由度为n的2分布”.X?的密度函数g。(X)形状如图4.4.1 .2密度函数的支撑集(即使密度函数为正的自变量的集合)为(0, +。),由图4.4.1可见 当自由度n越大,2的密度曲线越趋于对称,n越小,曲线越不对称.当n = 1. 2时曲线是 单调下降趋于0当n 3时曲线有单峰,从0开始先单调上升,在一定位置达到峰值,然后 单下降趋向于0若X二记P(X c) = a,则C = Xna)称为X,分布的上侧。分位数,如图4.4.2所示. 当a和n给定时可查表求出片(a)之值,如好(001) = 23.209, X乳0.05) = 12.592等.2变量具有下列性质
14、:图4.4.2 x:的上侧分位数(1)设随机变量X 二 X,则有E(X) = n, Var(X) = 2n.(2)设Zl 二 f1, Z2 二 f2 ,且ZI和Z2独立,则Zl + 在二 l % 2 .我们从X2分布的定义出发给出一个简单证明:由定义ZI = X彳+ X X X + X3,此处X,X2,x,X. 1 i.i.d.二 N(0,1),同理Z2 = X21+1 + xx + X21+. 2,此处X. 1+1, X. 1+2,xx,X. 1+. 2 ii.d.二 NQ 1),再由Zl和Z2的独立性可知X,X2,xx ,X. 1,X. 1+ ,xx ,X. 1+ 2 i.i.d.二N(0
15、,1).因此Zi + 2 = X ? + x x + Xf 1 + Xl +1 + x x x + X1 + 2.按定义即有Z1 + Z2二卷+. 2.?4.4.2 t 分布定义4.4.2.设随机变量X二N (0. 1), Y二且X和Y独立,则称T二一工人Yln为自由度为n的t变量,其分布称为有自由度n的t分布,记为T二t. .设随机变量T二t.,则其密度函数为 nl) /产、-141(4.4.2)L(X) =- 1 + .0 X n图4.4.3 t.的密度函数L(X)形状图L的密度函数与标准正态分布N (0, 1)密度很相似,它们都是关于原点对称,单峰偶函 数在X = 0处达到极大.但L的峰
16、值低于N QI)的峰值的密度函数尾部都要比N Ql)的 两侧尾部粗一些.如图4.4.3所示.容易证明:I蚂L (x) = Mx),此处。(X)是N (0, 1)变量的 密度函数.若T二t. ,iBP(T I c) = 厕C = t. (。/2)为自由度为n的t分布的双侧分位数(如 图4.4.4所示).当给定。时,t (), t.(a2)等可通过查表求出.例如抽。05) = 1.782, t9 (0.025) 2.262等.图4.4.4 t.的双侧。分位数t分布是英国统计学家WS Gosset在1908年以笔名StUdent发表的论文中提出的,故 后人称为“学生氏(StUdent)分布或吩布”.
17、t变量具有下列的性质:(1)若随机变量T二则当n 2时,E (T) = 0.当n 3时,Var (T) =3.(2)当n o。时,t变量的极限分布为N(0, 1).?4.4.3 F 分布定义4.4.3.设随机变量X二X*, Y二Xf ,且X和Y独立,则称 X/ mF = Mr为自由度分别是m和n的F变量,其分布称为自由度分别是m和n的F分布,记为F二FriA0 .(X)= Im5x(nmx)-,X 0,其它.(443)若随机变量Z二FmA。,则其密度函数为(0,自由度为m, n的F分布的密度函数如图4.4.5 .注意F分布的自由度m和n是有顺序 的,当m# n时若将自由度m和n的顺序颠倒一下,
18、得到的是两个不同的F分布.图4.4.5中 给出了几个不同自由度的密度函数的曲线.由图4.4.5可见对给定m = 10, n取不同值 时fmA. (X)的形状,我们看到曲线是偏态的,n越小偏态越严重.若F二FmA.,记P(F c) = ,则C = FmA.(。)称为F分布的上侧a分位数(见图4.4.6). 当m, n和C(给定时,可以通过查表求出FmA.之值,例如F4aio (005) = 3.48, FK)Al5。OI)= 3.80等.这在区间估计和假设检验问题中常常用到.A Fm,n (x)F变量具有下列的性质:(1)若Z(Fm,n 很U Jz ( Fnm .(2)若T(tn,则T2( Fm
19、(3) Fm,n(l J ) = lFn,m()以上性质中(1)和(2)是显然的,(3)的证明不难,留给读者作为练习.尤其性质在求 区间估计和假设检验问题时会常常用到.因为当。为较小的数,如。=005或。=0.01, m, n给定时,从已有的吩布表上查不到Fm,n(l J 0.05)和Fm,n(l J 0.01)之值,但它们的值 可利用性质求得,因为Fn,m(0.05)和Fn,m(001)是可以通过查F分布表求得的.?4.4.4正态总体样本均值和样本方差的分布为方便讨论正态总体样本均值和样本方差的分布,我们先给出正态随机变量的线性 函数的分布.1 .正态变量线性函数的分布设随机变量X1,/,Xn U.d.(N(a, 2), c,c2,cn 为常数则有n/ nn 、T = CkXk ( N a ck, 2 Clkl吐1k兰1n特别,当Cl = / / / = Cn= n,即T =