《第5章正态分布.ppt》由会员分享,可在线阅读,更多相关《第5章正态分布.ppt(57页珍藏版)》请在课桌文档上搜索。
1、1,第五章:正态分布,1、标准正态分布2、常用统计分布3、大数定理与中心极限定理,2,学习目标,掌握正态分布的特性;正态分布曲线下面积的含义;标准分的计算和应用;利用标准正态分布表计算概率。理解大数定理和中心极限定理,3,从“分布”说起,一、什么是正态分布?,4,直方图用长条的面积来表示频次或相对频次;折线图用直线连接直方图中条形顶端的中点;当组距逐渐减小时,折线将逐渐平滑为曲线。,5,峰点(Peak)研究(P40),单峰,多峰,6,几种常见的频数分布曲线,7,一、正态分布曲线,8,1.1 什么是正态分布?,1、由德国数学家高斯提出,也叫高斯分布;2、自然界、社会经济生活中大量存在的分布规律;
2、3、经典统计推断的基础;4、在所有的分布中,正态分布居于首要位置;,9,1.2 正态分布的基本特征,特征一:一个高峰特征二:一条对称轴特征三:一条渐近线,M0Md=,众值=中位值均值,10,1.3 正态分布的数学表达式,(x)=随机变量 X 的频次(概率密度)总体标准差;=总体方差=总体均值=3.14159;e=2.71828x=随机变量的取值(-x),11,1.4 两个参数的影响(,),均 值,标准差,12,1.4.1 对正态曲线的影响,1 2 3,13,1.4.2 对正态曲线的影响,曲线A和B的比较,14,正态曲线的位置由均值 决定;正态曲线的形状“高,矮,胖,瘦”的特点由标准差 决定;,
3、15,二、正态曲线下的面积,2.1 正态曲线下面积的涵义随机变量的频次总和;一般把正态曲线下的总面积约等于1,这时一定区间内的频次分布表现为概率分布。,16,2.2 正态曲线的一个重要性质,无论正态曲线具有哪种均值和标准差,在均值和横坐标某一点的距离内(用标准差来表示)曲线下的面积是常数。下图说明此意。,17,正态曲线下的面积(图),-,+,95.46%,68.26%,18,2.3 几个典型取值区间的概率值,P(-+)=0.6827;P(-2+2)=0.9545;P(-3+3)=0.9973;,19,三、标准正态分布,3.1 什么是标准正态分布 以标准差为单位的正态分布一般称为标准正态分布(s
4、tandardized normal distribution),20,3.2 标准正态分布的重要性,简化统计分析 一般的正态分布取决于均值和标准差;计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表,21,3.3 标准分(Standard scores),公式:,Z值代表每个X值在标准正态分布上的数值。,22,3.4 标准正态分布的表达式,正态分布的表达式为:N(,)标准正态分布的表达式为:N(0,1)标准正态分布是一般正态分布的特例,即0,1的正态分布。,23,3.5 标准分的实际意义,各总体之间可以
5、通过标准分进行合理的比较不同总体间综合指标的比较,24,3.7 标准正态分布的面积,P(-1 Z 1)=0.6827;P(-2 Z 2)=0.9545;P(-3 Z 3)=0.9973;由于标准正态分布N(0,1)的图形是唯一的,因此使用标准正态分布无须自己计算,只需要学会查表就行了。,25,四、标准正态分布表的使用,4.1 标准正态分布表的介绍,26,4.2标准正态分布的计算,【例5】已知服从标准正态分布N(0,1),求P(1.3)=?解:因为 服从标准正态分布N(0,1),可直接查附表4,根据z=1.3,有 P(1.3)=1.3=0.9032,Xi:大写,小写读作:克西,27,【例6】:,
6、已知服从标准正态分布N(0,1),求P(1.3)=?解:因为 1,而 P(1.3)P(1.3)1因此有P(1.3)1 P(1.3)1 1.30.0968,28,【例7】,已知服从标准正态分布N(0,1),求P(1.3)=?解:附表四中没有给出Z0的 Z值。根据标准正态分布图形是以Z0为对称的原理,P(1.3)=1 1.30.0968,29,【例8】,已知服从标准正态分布N(0,1),求P(1.3 2.3)?解:P(1.3 2.3)2.3 1.3=0.98930.9032=0.0861,30,【例9】,已知服从标准正态分布N(0,1),求满足P()0.05 中的值解:P()P()+(-)2 P(
7、)=2(1-)=0.05=1-0.025=0.975查表得,=1.96,31,【例10】,根据统计,北京市初婚年龄服从正态分布。其均值为25岁,标准差为5岁,问25岁到30岁之间结婚的人,其百分比为多少?解:1.年龄换为标准分:Z1,Z22.查表得 Z1 0.50,Z2 0.8413 Z2-Z1=0.3413,所以25岁到30岁之间结婚的人,百分数为34.13%.,32,4.3 标准正态分布表的使用,1.通过标准分公式,将一般为正态分布转换为标准正态分布;2.计算概率时,查标准正态分布表;3.对于负的 x,可由(-x)x得到;4.对于标准正态分布,即XN(0,1),有P(a X b)b aP(
8、|X|a)2 a 1,33,常用的标准值,Z 1.65,概率P为0.05;Z 1.96,概率P为0.025;Z 2.58,概率P为0.005;,34,二项分布的正态近似法 通过前面的讨论,我们已经知道二项分布受成功事件概率p和重复次数n两个参数的影响,只要确定了p和n,二项分布也随之确定了。但是,二项分布的应用价值实际上受到了n的很大限制。也就是说,只有当n较小时,我们才能比较方便地计算二项分布。所幸的是,二项分布是以正态分布为极限的。所以当n很大时,只要p或q不近于零,我们就可以用正态近似来解决二项分布的计算问题。即以n p、n p q2,将B(x;n,p)视为N(n p,n p q)进行计
9、算。在社会统计中,当n 30,n p、n q均不小于5时,对二项分布作正态近似是可靠的。,35,常见的抽样分布,(一)分布 设 是独立同分布的随机变量,且每个随机变量都服从标准正态分布,即(0,1),则随机变量=的分布称为自由度为 的 分布,记作()。当 时,分布趋近于正态分布,即()(,2)。,36,卡方分布,卡方分布是一种连续型随机变量的概率分布,主要用于列联表检验。1.数学形式 设随机变量X1,X2,Xk,相互独立,且都服从同一的正态分布N(,2)。那么,我们可以先把它们变为标准正态变量Z1,Z2,Zk,k个独立标准正态变量的平方和被定义为卡方分布(分布)的随机变量(读作卡方),且,我们
10、把随机变量 的概率分布称为 分布,其概率密度记作。其中k为卡方分布的自由度,它表示定义式中独立变量的个数。,37,关于卡方分布的分布函数,附表7对不同的自由度k及不同的临界概率(01),给出了满足下面概率式的 的值(参见图)。,注意 写法的含义:它表示自由度为k的卡方分布,当其分布函数 时,其随机变量 的临界值(参见图)。具体来说,在假设检验中,它表示在显著性水平上卡方分布随机变量 的临界值。,38,解 查卡方分布表(附表7)得,例 试求下列各值:,例 已知k5,15,求临界概率。解 查卡方分布表,在表中自由度为5的横行中找到与15最接近的数值是15086,得到的近似值为001。由此可知 00
11、1,39,式中:2代表总体方差,自由度为nl。,2.卡方分布的性质(1)恒为正值。(2)卡方分布的期望值 是自由度k,方差 为2k。卡方分布取决于自由度k,每一个可能的自由度对应一个具体的卡方分布。卡方分布只与自由度有关,这就给卡方分布的实际应用带来很大方便。分布由正态分布导出,但它之所以与正态分布的参数和无关,是因为标准正态变量Z与原来的参数无关。(3)卡方分布具有可加性(4)利用卡方分布可以推出样本方差 S2 的分布,40,所以,样本方差S 2落在33和87之间的概率约为90。,3.样本方差的抽样分布 例 由一正态总体抽出容量为25的一随机样本,已知26,求样本方差S 2在33到87之间的
12、概率。解 已知n25,26,由 得,41,常见的抽样分布,(二)分布 设随机变量 与 相互独立,(0,1),(),则称随机变量 服从自由度为 的 分布,记作()。当 时,分布趋近于标准正态分布。实际应用中,当 30时,分布可用标准正态分布近似。,42,常见的抽样分布,(三)分布 1.设随机变量 与 相互独立,且分别服从自由度为、的 分布,则称随机变量 服从第一自由度为、第二自由度 为 的 分布,记作(,)。2.分布对于两个总体的方差比的统计推断问题十分重要,是方差分析等统计推断方法的基础。与前两种分布不同的是 分布不以正态分布为其极限分布,它总是一个正偏分布。,43,F 分布,F 分布是连续性
13、随机变量的另一种重要的小样本分布,可用来检验两个总体的方差是否相等,多个总体的均值是否相等。还是方差分析和正交设计的理论基础。1.数学形式 设 和 相互独立,那么随机变量,服从自由度为(k1,k2)的F分布。其中,分子上的自由度k1叫做第一自由度,分母上的自由度k2叫做第二自由度。,44,我们把随机变量F的概率分布称为F分布,其概率密度记作。本书附表8,对不同自由度(k1,k2)及不同的临界概率(01),给出满足下列概率式的F(k1,k2)的值(参见图)。,注意 写法的含义:它表示自由度为(k1,k2)的F分布,当其分布函数 时,其随机变量 F 的临界值(参见图)。具体来说,在假设检验中,它表
14、示在显著性水平上F分布随机变量 F 的临界值。,45,例 试求下列各值:,如果 和 是两个独立随机样本的方差,样本来源于具有相同方差2的两个正态总体,样本容量分别为n1和n2,那么根据(822)式,随机变量F 服从于自由度为(n11和n21)的F分布。,解查F分布表(附表8)得,46,2.F分布性质,(1)随机变量F恒为正值,F分布也是一个连续的非对称分布。(2)分布具有一定程度的反对称性。(3)F分布的期望值与变异数(方差),47,五、大数定理和中心极限定理,5.1 极限定理 简单讲,凡是采用极限的方法(例如,观察次数n趋于无限)所得出的一系列定理统称极限定理。极限定理分为两类:大数定理(L
15、aw of large numbers)中心极限定理(Central limit theorem),48,一旦统计的学习进入到推论统计,我们就必须同时与三种不同的分布概念打交道,即总体分布、样本分布、抽样分布。为了不产生混淆,视分布不同,将统计指标的符号加以区别是完全必要的。对那些反映标志值集中趋势和离中趋势的综合指标,尤其对均值和标准差(或方差)。,抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。,在一个总体中可以产生无数个样本,所以样本统计量(比如均值)必定是随机变量。这样就提出一个问题:如果样本统
16、计量作为随机变量,它的概率分布是什么样呢?,49,1中心极限定理 我们知道,概率论中用来阐明大量随机现象平均结果的稳定性的定理,是著名的大数定理。其具体内容是:频率稳定于概率,平均值稳定于期望值。但是,大量随机现象的稳定性不仅表现在平均结果上,同时也表现在分布上,这就是中心极限定理所要阐明的内容。显然,推论统计需要有一座能够架通抽样调查和抽样分布的桥梁。中心极限定理告诉我们:如果从任何一个具有均值和方差2的总体(可以具有任何分布形式)中重复抽取容量为n的随机样本,那么当n变得很大时,样本均值的抽样分布接近正态,并具有均值和方差。,50,(2)由于抽样分布的标准差要比总体标准差小,并且,所以如右
17、图所示,样本容量越大,抽样分布的峰态愈陡峭,由样本结果来推断总体参数的可靠性也随之提高。,无疑,中心极限定理大大拓展了正态分布的适用面,同时我们得到了以下重要信息:(1)虽然样本的均值可能和总体均值有差别,但我们可期望这些将聚集在的周围。因此均值抽样分布的算术平均数能和总体的均值很好地重合,这就是为什么总体均值和抽样分布的均值用同一个来表示的缘故。,51,5.2 大数定理,【例子】掷一颗均匀的正六面体的骰子,出现幺点的概率是16,在掷的次数比较少时,出现幺点的频率可能与16相差得很大,但是在掷的次数很多时,出现幺点的频率接近16几乎是必然的。,52,5.2 大数定理,【例子】从扑克牌盒中取出一
18、张牌,出现牌“K”的概率是1/13,在取的次数比较少时,出现“K”的频率可能与1/13相差得很大,但是在取的次数很多时,出现“K”的频率接近1/13几乎是必然的。,53,5.2 大数定理,这些例子说明,在大量随机现象中,不仅看到了随机事件频率的稳定性,而且还看到平均结果的稳定性。这就是概率论中大数定理的概念。阐明大量随机现象平均结果的稳定性的一系列定理。著名的大数定理:贝努里大数定理和切贝谢夫大数定理,54,5.2.1 贝努里大数定理,多次重复试验,随机事件的频率日趋稳定,具有接近概率的趋势。,55,5.2.2 切贝谢夫大数定理,多次重复试验,随机变量的平均值接近数学期望(即总体均值)。,56,5.3 中心极限定理,任何变量,不管其原有分布如何,如果把它们n 个加在一起,只要n足够大,其和的分布必然接近正态分布,均值的分布也接近正态分布。,57,如果一个现实的量是由大量独立偶然的因素的影响叠加而得,且其中每一个偶然因素的影响又是均匀地微小的话,可以断定这个量将近似地服从正态分布。这就解释了为什么在自然、社会、经济领域里大量存在服从正态分布的随机变量。例如,身高、体重、智商、婚龄等等,因为影响它们的因素都是大量的。,为什么社会经济生活、自然界存在许多随机变量的分布都服从正态分布?请结合中心极限定理来解释。,