《中科大概率论与数理统计讲义05参数估计.docx》由会员分享,可在线阅读,更多相关《中科大概率论与数理统计讲义05参数估计.docx(12页珍藏版)》请在课桌文档上搜索。
1、第五章参数估计教学目的:1)让学生理解矩估计和极大似然估计方法.2)理解置信区间定义.3)掌握常见的总体分布下参数的点估计和置信区间的计算.设有一个总体,以f (x; 1 , . . . , 8)记其概率密度函数(若总体分布是连续性的),或其 概率函数(若总体分布为离散型的).为叙述方便我们统一称f (x; 1 , . . . . &)为总体的概 率函数.参数估计问题是利用从总体抽样得到的信息来估计总体的某些参数或者参数 的某些函数.一般假定总体分布形式已知,未知的仅仅是一个或几个参数.利用从总 体f (x; e 1 k)中抽取的一组样本MXn去对参数01. W的未知值作出估计或估计它们的某个
2、已知函数g(仇, ,k).?5.1点估计设总体X的分布函数形式已知,但它的一个或多个参数为未知,例如参数e未知,根 据样本%Xn来估计参数e,就是要构造适当的统计量门=(i , , Xn).当有了样 本刈, ,Xn的值后,就代入 = (1Xn)中算出一个值,用来作为的估计值.为这样特定目的而构造的统计量”叫做的估计量.由于参数是数轴上的一个点,用“估计e ,等 于用一个点去估计另一个点,所以这样的估计叫做点估计.求点估计的方法有多种,下面介绍两种点估计方法:?5.1.1矩估计方法矩方法追溯到19世纪的KaH Pearson.矩方法是基于一种简单的“替换”思想建立起 来的一种估计方法.其基本思想
3、是用样本矩估计总体矩.由大数律,如果未知参数和总 体的某个(些)矩有关系,我们很自然的来构造未知参数的估计0回忆一下以前关于矩的记法:样本k阶矩:a = -X卜rk = - (Xi- Y)knn总体k阶矩:k = EXk k = E (X - EX )2因此在k阶矩存在的情况下,根据大数律有ak - k, mk - k从而我们可以使用ak, mk分别估计ak, Q介绍如下:假设总体X包含k个未知参数仇,.,k, 由方程组/,.a 1 = f (,., k):(v Qk = fk (, . . , k)反解得到! : 1 = g (a1,., ak):( k = gk (a,., ak)将其中的
4、总体矩用相应的样本矩代替,则我们可以得至惨数仇, .,k的一个估计:: 1 二 ,ak).(A6 k = gk(a,.,ak)若要估计参数仇,.,W的某函数g(&k),则用g(e)ft计它.这里我们用的都是原点矩k,当然也可以使用中心矩k,或者两个都使用。在这种 情况下,只需要把相应的总体矩换成样本矩0我们称这种估计方法为矩估计法,得到的 估计量称为矩估计量。矩估计方法应用的原则是之能用低阶矩处理的就不用高阶矩0矩估计法的优点是简单易行,并不需要事先知道总体是什么分布.缺点是,当总体类 型已知时,没有充分利用分布提供的信息.一般场合下,矩估计量不具有唯一性.例5.1.1 .投掷一枚硬币,为了解
5、正面出现的概率,现独立重复的投掷n次,用MXn表示投掷结果.显然此时总体X的分布为B(LP), P为感兴趣的量.而刈,.,Xn为样本,则 求参数P的矩估计量。解:由于EX = p,而样本均值S收敛到总体均值EX,因此P的一个矩估计量为N = S.例5.1.2.为考察某种考试成绩分布情况,使用正态分布N(a,d)来作为总体X的分布.现在从中随机调查n个人,即样本为Xi ,.,Xn.试求参数a, 2的矩估计量。解:由于EX = a, Var(X ) = 2所以a, J的一个矩估计量为 = , 2 = m2 = i (Xi- )2i=1我们知道ES2 = O 2 ,因此2的另一个矩估计量为* = S
6、2 .?5.1.2极大似然估计方法极大似然方法到目前为止应用最广的的点估计方法.这种方法是基于如下的看法:定义5.1.1.设总体X有概率函数f(x; ) = f(x; 1 , ., k),这里参数 = ( ,.k) _ ,而当固定X时把f(x; )看成为的函数,称为似然函数,常记为L(x; )或L(B).当固定参数时,f(x; )可以看成是得到样本观察值X的可能性,这样,当把参数看 成变动时,也就得到“在不同的e值下能观察到X的可能性大小,即L(x; );由于我们已 经观察到了X ,所以我们要寻求在哪一个e的值下,使得能观察到X的可能性L(x;田最大O 这个。的值即称为e极大似然估计值(看上去
7、最有可能的)0我们先看一个例子:例5.1.3.从鱼池里随机捕捞5。0条鱼,做好记号后重新放入鱼池中,待充分混合后再捕 捞IoOo条鱼,结果发现其中有72条带有记号.试问鱼池中可能有多少条鱼.解:先将问题一般化.设池中有N条鱼,其中r条做好记号.随机捕捞S条,发现X条有记 号.用上述信息来估计N .用X表示捕捞的S条鱼中带记号鱼的数目,则P(X=X)=WCR -目前发现在捕捞的S条鱼中有记号的鱼X条,要寻求N取何值时,使得观察到这个事件X = x的可能性最大.即X是固定的,N是变化的,记p(x; N) = P (X = X).因为(N) *= (,V-r) = .V=Ak + r)+-/ L M
8、rM _ 1) 一 (.v - r-w + j) ,2-,(r) + ,j , 当rs NX时,g(N) 1; rs NX时,g(N) 1.所以P(X = x)在N = 1%附近达到最大,注 意到N只能取正整数,故N的最可能的估计即极大似然估计为N =.X其中e 表示下取整,即小于该值的最大整数.将题目中的数字代入, NA= l0 C = 6944.即鱼池中的总的鱼数为6694条.现给出极大似然估计的一般性定义:定义5.1.2.设X = (X , . . . , Xn)为从具有概率函数f的总体中抽取的样本,为未知参数 或者参数向量.X=(XI , , Xn)为样本的观察值。若在给定X时,值 =
9、 e(x)满足下式L(a) = max L(x; )则称为参数的极大似然估计值,而(X)称为参数的极大似然估计量。若待估参数为的 函数g(),则g()的极大似然估计量为g(e。o求极大似然估计值相当于求似然函数的最大值。在简单样本的情况下, nL(x; ) = f (Xi; )i=1而把似然函数的对数() = log L(B)称为对数似然函数(这是由于在一些情况下,处理对 数似然函数更方便)当似然函数对变量。单调时,我们可以容易得到其最大值点.反之当似然函数为非 单调函数且对变量可微分时,我们可以求其驻点:令=O (或者”吧=0)(U)册当e为多维时,比如e = (&)时令训坐J/。)c 1
10、I1 = 0 (或者 =0) I = 1,. kJWltn)l然后判断此驻点是否是最大值点O例5.1.4.设XiXn为从总体X N (a, 2)中抽取的样本,求参数a, 2的极大似然估计量。解:易得对数似然函数为l(a, 2 ) = c - (xi - a)2 - log(2 )2喙1其中C是与参数无关的常数.令MN = 0则“ I= 0.*-彳导至I,a =下=L二Xi. 2 = l (xi- a)2ni-1容易验证此驻点是唯一的最大值点,因此得到a, J的极大似然估计量:ti = X = (i-X)2.i.1有时函数f并不对仇以可导,甚至f本身也不连续,这时求导就没法用,必须回 到原始定义
11、.例5.1.5.设总体X服从a, b上的均匀分布,ab,求参数a, b的极大似然估计.解:易得似然函数为1 n 1L(a, b) = I (a xj b) = -I (a VX(I) x(n) b).(6 -i)r,1(6- )于是对任何满足条件a xj b的a, b都有L(a, b) =!,即似然函数L(a, b)在a = x(i), b = x(n)时取到最大值.于是a, b的极大似然估计量为“=X( 1) , L = X(n) 例5.1.6.设M , . . . , Xn为从具有如下形式密度的总体中抽取的样本:f(x;a,b) J h卬-I O x a)i=1i=1在固定b时,显然似然函
12、数为a的单调增函数,因此L(a)的驻点为介=X。再令丐养=O , 得到b = I(Xi-X),容易验证此解是最大值点。从而得到a, b的极大似然估计量:i-1. = X(I) B = ;(Xi-X).1例5.1.7.设不,.,Xn为从如下分布中抽取的简单样本,求。的极大似然估计.f (X) = - (l - )2-x + 2-d - )x, X = 0, 1, 2; 0_(0, 3J!(2 -Ji解:由题设知f (X)为离散型,其分布律为X012P J(l - )2 + 02 2(1l- ) H(l -)2 2若直接从此分布出发,则不能得到的极大似然估计的显式表达。为此,我们重新参数 化,记
13、= 2(l - ).则由题设知n 1/20则X 012P (1 - n) !Qf)再记ni = #XiXn中等于的个数, i = 0, 1, 2,则得到似然函数为L(n) = (-t (l-)nm ( A (1 - )n = (1 (1 - )n-n 记求解并注意n的上界即得到n的极大似然估计为a = max- - _n,2再由 =匕、二到的极大似然估计为1?5.1.3点估计的优良准则我们看到对同一个参数,有多个不同的估计量,因此,评选不同估计量的优劣性是 需要考虑的。1.无偏性设MxlXn)为待估参数函数g(0)的一个估计量,若EgA(Xl,Xn) = g()则称gXXn)为g()的无偏估计
14、量O无偏性是对一个估计量的最基本的要求,其实际意义就是无系统误差.因此在有多个估计量可供选择时,我们优先考虑无偏估计量O 很多时候我们得到的估计量是有偏,例如正态总体的方差。2的极大似然估计量2 =1 n (Xi- )2是有偏的,E * = 22.若以号乘以乎,所得到的估计量就是无偏的.这 和片法称为修正.若某一参数存在多个无偏估计时,如何来选择使用哪个估计量?人们又在无偏性的 基础上增加了对方差的要求.2 .有效性设g (Xi,., Xn)和g%(XXn)为待估参数函数g()的两个不同的无偏估计量,若 对任意的有Var (91 (Xi,., Xn) 0和仇,.,W的一切可能值都有Jim二O
15、P1,kQT(X,., Xn) - g(,., k) c) = 0我们则称T(XI. Xn)为g(k)的一个(弱)相合估计量0相合性是对一个估计量的最基本的要求,如果一个估计量没有相合性,那么无论样 本大小多大,我们也不能把未知参数估计到任意预定的精度。这种估计量显然是不可取 的0矩估计量是满足相合性的,极大似然估计量在很一般的条件下也是满足相合性的O4 .渐近正态性估计量是样本XlXn的函数,其确切的分布一般不是容易得到O但是,许多形式很复杂的统计量(未必是和),当n很大时,其分布都渐近于正态分布,这个性质称为统 计量的“渐近正态性” O无偏性和有效性都是对固定的样本大小n而言的,这种性质称
16、为估计量的“小样本性 质,而相合性和渐近正态性都是考虑在样本大小趋于无穷时的性质,这种性质称为“大 样本性质” O例5.1.8.设从总体X0123P2 32 1 -30抽取的一个简单样本Xi 1.,o的观察值为(0, 3,1,1, 0, 2, 0, 0, 3, 0),求。的矩估计量e1和极大似然估计量,并求出估计值。(2)上述估计量是否为无偏的?若不是,请作修正.(3)比较修正后的两个估计量,指出那个更有效.由有效性的定义,我们自然会问在一切可能的无偏估计里,能否找到具有最小方差 的无偏估计量?如果存在这样的估计量,我们称其为最小方差无偏估计量,详细地可以 参考课本O?5.2区间估计对于一个未
17、知量,人们在测量和计算时,常不以得到近似值为满足,还需要估计误差, 及要求知道近似值的精确程度(亦即所求真值所在的范围).类似的,对于未知的参数e,除 了求出它的点估计e力卜,我们还希望估计出一个范围,并希望知道这个范围包含参数。真 值得可信程度.这样的范围通常以区间形式给出,同时还给出此区间包含真值得可信程 度.这种形式的估计称为区间估计.比如一个人的年龄在18-25之间;月支出在400-600元之间等.区间估计的好处是把可 能的误差用醒目的形式表示出来了.比如你估计月花费支出是500,我们相信多少会有 误差,但是误差有多大?单从你提出的500这个数字还给不出什么信息,若你给出估计支 出是4
18、00-600之间,则人们相信你在作出这估计时,已把可能出现的误差考虑到了,多少 给人们以更大的信任感.因此区间估计也是常用的一种估计方式.现在最流行的一种区间估计理论是J Neyman在上世纪30年代建立起来的.他的理 论的基本概念很简单,为表达方便,我们暂时假定总体分布只包含一个未知参数8 ,且要 估计的就是6本身.如果总体分布中包含若干位置参数& ,.,,而要估计的是g(, . , k), 则基本概念和方法并无不同.这在后面的例子里可以看出.?5.2.1置信区间Neyman建立起来的区间估计也叫置信区间,字面上的意思是:对该区间能包含未知 参数。可置信到何种程度.假设刈,. ,Xn是从该总
19、体中抽取的样本,所谓。的区间估计,就 是要寻求满足条件。(Xi,,Xn) (X,., Xn)的两个统计量殳和。一为端点的区间过,. 一旦有个样本Xl , , Xn的值后,就把估计在区间旦(Xi , . . . , Xn), (X1 , . . . , Xn)之内.不 难理解,这里有两个要求 以很大概率被包含在区间但,一内,也就是说P( ) = 1 - 尽可能大,即要求估计尽量可靠.估计的精度要尽可能高,比如要求区间但,咪要尽可能的短,或者某种能体现这个要 求的其他准则O比如估计一个人的年龄,如30,35,我们自然希望这个人的年龄有很大把握在这个区间 之内,并且希望这个区间不能太长.如果估计是口
20、0,90,当然可靠了,但是精度太差,用处 不大.但这两个要求是相互矛盾的,因此区间估计的原则是在已有的样本资源限制下,找 出更好的估计方法以尽量提高可靠性和精度ONeyman提出了广泛接受的准则:先保证 可靠性9在此前提下尽可能提高精度O为此,引入如下定义:定义5.2.1.设总体分布FGL。)含有一个或多个未知的参数6 ,e ,对给定的值a (0 a 1),若由样本XlXn确定的两个统计量。一 二(1 , . . . , Xn)和旦=旦(X1Xn),满足Pe ( ) = 1 - a A e 称1 - a为置信系数或置信水平,而称旦,。一为e的置信水平为1CC的置信区间。区间估计就是在给定的置信
21、水平之下,去寻找有优良精度的区间O一般,我们首先寻求参数的一个估计(多数是基于其充分统计量构造的),然后基 于此估计量构造参数的置信区间,介绍如下:1.枢轴变量法设待估参数为g(e),1 .找一个与待估参数g()有关的统计量,一般是其一个良好的点估计(多数是通过极 大似然估计构造);2 .设法找出T与g(e)的某一函数S(, g()的分布,其分布F要与参数无关(S即为枢轴 变量);3-对任何常数a b ,不等式a S (T, g() 能表示成等价的形式A g() v B ,其中A, B只与T, a, b有关而与参数无关;4-取分布F的上。/2分位数32和上(I- a2)分位数Ma/2 ,有F(
22、32) - F (.a2)=1 - .因此P (-a2 S (T1 g() a2) = 1 - a由3我们就可以得到所求的置信区间.例5.2.1.设刈,.,Xn为从正态总体N(, d)中抽取得样本,求参数, d的1 -。置信区 间。解3由于,02的估计tS2满足Ti = n( V - )S * tn.1T2 = (n - l)S2 2 所以,T2就是我们所要寻求的枢轴变量,从而易得参数, M的1 -。置信区间分别为1 - 1 V - -Stn-1 (a2), V + -Stn-1 (q2),6-1炉(r - 1)S2 1L(2),vLd-) ,例5.2.2.设Xi, Xn为从正态总体N( ,
23、书中抽取得样本,YYm为从正态总体N(2,例中抽取得样本,两组样本相互独立。求参数- 2 , o 变的I-。置信区间。解3方法完全类似于前面的例子,此处略.2.大样本法大样本法就是利用中心极限定理,以建立枢轴变量O通过以下例子说明:例5.2.3.某事件A在每次实验中发生的概率都是p ,作n次独立的实验,以Yn记A发生的 次数。求P的I- 置信区间。解3设n比较大,令q = 1 - p,则由中心极限定理知,近似有(Yn叩)/人词 N (0, 1),从 而(Yn- np)Apq可以作为枢轴变量。由P (-u2 (Yn - np)npq Ua/2) SI 。(*)P(ApB)sl-a可以等价表示成(
24、Yn - np)npq-= u2其中A, B为方程:XJ%?/X1-P) , u1-2nn 4 2的解,即A, BA取负号,B取正号,p = YnO由于(*)式只是近似成立,故区间估计也只是近似成立,当n较大时才相去不远。详 细的说明参见课本P203O我们还可以先假定方差是“已知的,最后再将其估计得到如 下WaId置信区间:A PA U2 PZl - Pa)?5.2.2置信界在实际中,有时我们只对参数的一端的界限感兴趣。比如果汁的最低含量,有害物 质的最高含量等等.这就需要寻求参数的感兴趣的置信界限.定义5.2.2.设总体分布F(x, )含有一个未知的参数 ,e ,对给定的值, (O a),
25、若由样本XlXn确定的两个统计量 = (X1Xn)和9 =。(X1 , . . . , Xn),L若P( 0_) 1 -a A e则称且为的一个置信水平为1 - a的置信下界。而(-0, 和但,+0)都称为是单边的置信区间O寻求置信上、下界的方法和寻求置信区间的方法完全类似O?5.2.3确定样本大小在以区间长度为精度准则下,置信区间越窄就越好,为什么呢?作为一个一般的原 则,我们已经知道更多的测量可以得到更精确的推断O有时候,对精度是有要求的,甚 至于是在测量之前就提出此要求,因此相应的样本大小就要事先确定下来O我们以如下 的例子说明如何确定样本大小,一般的方法类似O例5.2.4.假设某种成分的含量服从正态分布N(,。2 ),0 2已知o要求平均含量的(Iy)置 信区间的长度不能长于3。试确定测量样本大小。解:由于。2已知,我们已经知道可以根据S N (, d/n)来构造的95%置信区间。因此 易知区间长度为2ua2q.从而由2ua2 S,?.比如当。=0.1, = 0.05, a = 0.05,可以得到n J2 = 61.4656.即为达到要求至少需要测量62次。