《中科大概率论与数理统计讲义03随机变量的数字特征.docx》由会员分享,可在线阅读,更多相关《中科大概率论与数理统计讲义03随机变量的数字特征.docx(17页珍藏版)》请在课桌文档上搜索。
1、第三章随机变量的数字特征教学目的:1)理解随机变量的数学期望、方差的概念,并会运用它们的基本性质计算具体分布的 期望、方差.2)掌握二项分布、PoiSSon分布、均匀分布、指数分布、正态分布的数学期望和方差.3)会根据随机变量的概率分布计算其函数的数学期望.4)理解协方差、相关系数的概念,掌握它们的性质,并会利用这些性质进行计算,了解 矩的概念.5)理解大数定理与中心极限定理0在前章中,我们讨论了随机变量的概率分布,这种分布是随机变量的概率论性质最 完整的刻画.而随机变量的数字特征是某些由随机变量的分布所决定的常数,它刻画了 随机变量或者说刻画了其分布的某一方面的性质,这些性质往往是实际应用中
2、人们比较 关心的.例如,我们在了解某一行业工人的经济状况时,我们首先关心的恐怕会是其平 均收入,这会给我们一个总体的印象,而收入的分布状况,倒不一定是最重要的,这就是 刻画总体平均值的数字特征.另一类重要的数字特征,是用来衡量随机变量取值的分散 程度.还拿我们上个例子说明,如果我们考虑两个行业工人的经济状况,他们的平均收 入大体相近,但是一个行业收入分配较平均,即大多数人的收入都在平均值上下不远处, 分散程度就小;另一个行业则相反,其收入远离平均值很多,分散程度就大,这两者的实 际意义当然很不相同.平均值和分散度是刻画随机变量性质的两类最重要的数字特征. 除了这两者之外,对于多维变量而言,还有
3、一类刻画各分量之间关系的数字特征,较为 常用的是协方差和相关系数,这些我们将在下面的章节详细讨论.数字特征另一个重要 意义在于,当我们不知道随机变量的确切概率分布,但是清楚其数字特征的情形下,我们 可以根据这些数字特征推断该随机变量大致的概率性质.比如某个工厂生产一批灯泡, 我们想了解这批灯泡的质量如何.我们不知道这批灯泡寿命的确切概率分布,但是如果 我们知道这批灯泡的平均寿命,知道这批灯泡寿命的分散程度,那我们就可以大致推断 出这批灯泡的质量状况.?3.1数学期望(均值)及中位数?3.1.1数学期望数学期望也称均值,是随机变量的一个最基本的数字特征.我们先看如下的一个例 子例3.1.1. 一
4、甲乙两人赌技相同,各出赌金1。0元,约定先胜三局者为胜,取得全部200元. 现在甲胜2局乙胜1局的情况下中止,问赌本该如何分?解:如果继续赌下去而不中止,则甲有3/4的概率取胜,而乙胜的概率为1/4.所以,在甲 胜2局乙胜1局的这个情况下,甲能期望“得到”的数目,应当确定为3 I _200 - + 0 X - = 150(元),而乙能“期望”得到的数目,则为200 0 彳=50(元).如果引进一个随机变量X , X等于在上述局面(甲值2胜乙1胜)之下,继续赌下去甲 的最终所得,则X有两个可能的值:200和0,其概率分别为3/4和1/4.而甲的期望所得, 即X的“期望”值,即等于X的可能值与其概
5、率之积的累加这就是“数学期望”这个名称的由来.另一个名称“均值”形象易懂,也很常用.下面我们 就给出数学期望(均值)的定义:对一般的离散型分布,我们有定义3.1.1 ,设X为一离散型随机变量,其分布律为P(X = Xi) = pi, i = 1, 2,.如果xp +o,则称XiPii=1为随机变量X的数学期望(均值),用符号EX表示.若IxilPi= +。,则称X的数学期 望(均值)不存在.对连续型随机变量,其数学期望的定义如下定义3.1.2.如果连续型随机变量X具有密度函数f(x),则当 j xf (x)dx m=4 .均匀分布X U a, b:5 .指数分布X Exp():EX = 1?3
6、.1.2数学期望的性质1 .若干个随机变量线性组合的期望,等于各变量期望的线性组合.假设Cl ,C2, .,Cn 为常数,则有E(C1 Xl + C22 + . . . + CnXn) = C1 EXl + C22 + . . . + CnEXn ,这里假定各变量的期望都存在.例3.1.2.假设随机变量X B (n, p),求EX .解:令Ii B(1, p), i = 1, 2, . . . , n,则X = h 且Eh = p.所以,EX =Eli = np.2 .若干个独立随机变量之积的期望,等于各变量的期望之积,即E (X12 . . . Xn) = EXl E2 . . . EXn
7、,这里假定各变量相互独立且期望都存在.3 .(随机变量函数的期望)设随机变量X为离散型,有分布P(X = ai) =Pi, i = 1,2,.,或者为连续型,有概率密度函数f (X).则9Eg(X)= 尸八 尸 J(4l 卅 X二队)/(才bG)l3“ EX2 = X2 .e dx=1.所以,EY = EX2 + 1 = 2.例3.1.5.飞机场载客汽车上有20位乘客,离开机场后共有io个车站可以下车,若某个车 站没有人下车则该车站不停车.设乘客在每个车站下车的可能性相等,以X表示停车的 次数,求EX .解:设,1第i个车站有人下车.Y= 0,第i个车站无人下车 = ,420则显然X=Yi,所
8、以i=12020EX = EYi= * P (第i个车站有人下车)i= 1i=120=【1 - 0.920 = 8.784.?3.1.3条件期望我们知道条件分布也是一个概率分布,因此类似数学期望的定义,我们可以给出条 件期望的定义.在给定了随机变量X取值X的条件之下,丫的条件期望,我们记为E(YlX = X),也可简记为E(YlX).定义3.1.3.设X和Y为随机变量,若(X, Y)为离散型,且在给定X = X之下,Y有分布P(Y = aX = x) = pi, i= 1,2.,或者(X, Y)为连续型,且在给定X = X之下,Y的条件密度函(X. Y)为连续型;(X, Y)为离散型.数为f
9、(y) .则E (Y X = X)期望所具有的性质条件期望同样满足.例 3.1.6.设(X, 丫) N (a, b, ?, , p),试计算E(YlX = x).解:由于Y X = X N (b + PM(X - a), (1 - p2 )/),所以由二维正态分布的性质知E(Y X = x) = b + p (x - a).:条件期望E(YIX = X)是X的函数,当我们将X换为X时,E (YX)就是一个随机变量.我们有如下的公式成立: 定理3.1.1.设X, Y为两个随机变量.则有EX = E EXY)全期望公式证:我们仅在连续型随机变量的情形下证明此定理.设Y的Pdf为p(y),XY =
10、y的pdf为q(xy). 则EX = q(xy)p(y)dxdy =,q(xy)dxp(y)dy = , E XY = yp(y)dy=EEY)推广:当g(X )为可积随机变量时,有Eg(X ) = EEg(X )Y).由此得到求解期望的第二种方法:先求解h(x) = E(YlX = X),再求解Eh(X ),即可 求得EY .例3.1.7. 一窃贼被关在有3个门的地牢里,其中第一个门通向自由.出这门走3个小时便 可以回到地面;第2个门通向另一个地道,走5个小时将返回到地牢;第3个门通向更长的 地道,走7个小时也回到地牢.若窃贼每次选择3个门的可能性总相同,求他为获得自由 而奔走的平均时间.解
11、:设这个窃贼需要走X小时才能到达地面,并设Y代表他每次对3个门的选择情况,Y各以1/3的概率取值1,2, 3.则3EX = E E (XY)l = E (XY = i)P (Y = i)i=1注意到E(XlY =1) = 3, E(XY = 2) = 5 + EX, E(XY = 3) = 7 + EX ,所以EX=H3 + 5 + EX + 7 + EX即得到EX= 15.例 3.1.8.设(X, Y) N (a, b, f, /, p),试计算EXY .解:先算得E (XY X = x) = xE (Y X = x) = x(b + p (x - a); 所以EXY = E (bX + p
12、 打2 - p %X )=ab + p (a2 + ?) - p Ll2 1 1=ab + p 1 2.?3.1.4 中位数我们已经知道,随机变量X的数学期望就是它的平均值,因此从一定意义上,数学期 望刻画了随机变量所取之值的“中心位置” .但是,我们也可以用别的数字特征来刻画随 机变量的“中心位置”.中位数就是这样一种数字特征.定义3.1.4.称为连续型随机变量X的中位数,如果P (X )=.从定义上可以看出,m这个点把X的分布从概率上一分两半:在m左边占一半,m右 边也占一半,从概率上说,m这个点正好居于中央,这就是“中位数”得名的由来.在实 用上,中位数用得很多,特别有不少社会统计资料,
13、常拿中位数来刻化某种量的代表性 数值,有时它比数学期望更说明问题,例如,某社区内人的收入的中位数告诉我们:有一 半人的收入低于此值,另一半高于此值.我们直观上感觉到这个值对该社区的收入情况, 的确很具有代表性,和期望值相比它的一个优点是受个别特别大或特别小的值的影响很 小,而期望则不然,举例而言,若该社区中有一个收入在百万元以上,则该社区的均值可 能很高,而绝大多数人并不富裕,这个均值并不很有代表性,中位数则不然,它几乎不受 少量这种特大值的影响.从理论上说,中位数与均值相比还与一个优点,即它总存在,而均值则不是对任何 随机变量都存在.虽则中位数有这些优点,但在概率统计中,无论理论和应用上,数
14、学期 望的重要性都超过中位数,其原因有一下两个方面:1.均值有很多优良的性质,这些性质时使得在数学处理上很方便.例如,E (Xi X2) = EXi EX2 ,而M + X2的中位数与刈,X2各自的中位数之间,不存在简单的联系, 这使中位数在数学上的处理很复杂且不方便;2.中位数本身固有的某些缺点,中位数可以不唯一,且对于离散型随机变量不易定义.例3.1.9.设随机变量XB(1, ),求X的中位数.解:由于X的分布函数为O, X 1由中位数的定义知区间(0,1)内的每一个数都是X的中位数所以此例说明中位数可 以不唯一.?3.2方差、标准差和矩?3.2.1方差和标准差现在我们转到本章开始时候提到
15、的另一类数字特征,即刻画随机变量在其中心位置 附近散布程度的数字特征,其中最重要的是方差.在实际应用中,方差不仅是信息度量 的标准也是风险度量的标准.定义3.2.1.设X为随机变量,分布为F,则称Var (X ) = E (X - EX )2 = 2为X (或分布F)的方差,其平方根人Var (X )=。(取正值)称为X (或分布F)的标准差.显然有Var (X ) = EX2 - (EX )2 .对随机变量的方差,我们可以得到定理321 ,设C为常数.则有1. 0 Var(X ) = E2 - (EX )2 ,因此Var(X ) E2 .2. Var (cX ) = C2 Var(X )3.
16、 Var (X) = O当且仅当P(X = c) = 0,其中C = EX .4. 对任何常数C有,Var (X ) E(X - c)2 ,其中等号成立当且仅当C = EX .5. 如果随机变量X和Y相互独立,a, b为常数.贝!Var(aX + bY) = a2 Var(X ) + b2 Var(Y).常见分布的方差,1 .二项分布X B (n,p):VarX = np(1 - p)2 . Poisson 分布X P ():VarX = 3 .均匀分布X U a, b:(b . a)2VarX =124 .指数分布X Exp(A):VarX = 125 .正态分布X N (, 2 ):Var
17、X = 2由此得到正态分布N(,十)中另一参数。2的解释:它就是分布的方差,正态分布完全由 其均值和方差。2决定,故也常称为“均值为方差为。2的正态分布” .方差。2越小,则X 的取值以更大的概率集中在其均值附近.定义3.2.2.我们称v. .V - EX X =JVar(X)为X的标准化随机变量.易见EX* = 0, Var(X ) = 1.我们引入标准化随机变量是为了消除由于计量单位的不同而给随机变量带来的影 响.例如,我们考察人的身高,那么当然可以以米为单位,得到X:也可以以厘米为单 位,得到X2于是就有得到X2 = 100X1.那么这样一来,X2与Xi的分布就有所不同. 这当然是一个不
18、合理的现象.但是通过标准化,就可以消除两者之间的差别,因为我们 有XB = X ; .对于正态分布,我们经过标准化Y = (X - ) ,就可以得出均值为。方差 为1的正态分布,即标准正态分布.?3.2.2 矩下面我们引入矩的概念,并将之与我们前面所说的期望、方差建立联系.定义3.2.3.设X为随机变量,c为常数,为正整数,则旦(X - CY称为X关于C点的r阶 矩.比较重要的有两个情况:1. C = 0.这时k = EXr称为X的r阶原点矩.2. c= EX .这时k = E (X- EX )r称为X的r阶中心矩.容易看出,一阶原点矩就是期望,二阶中心矩就是X的方差Var(X ).?3.3协
19、方差和相关系数现在我们来考虑多维随机向量的数字特征,以二维的情况为例,设(X, 丫)为二维随 机变量,X, Y本身都是一维随机变量,那么它们相应的均值方差,我们都在上两节中讨 论过了,我们更有兴趣的数字特征是反映分量之间关系的那种量,其中最重要的,是本 节要讨论的协方差和相关系数.?3.3.1 协方差定义3.3.1.我们称Cov (X, Y) = E (X - EX )(Y - EY)为X与Y的协方差,其中COV是英文单词CoVarianCe的缩写.由协方差的定义,我们立刻可以得到协方差具有如下性质:1. Cov (X, Y) = Cov (Y, X), Cov (X, X) = Var (X
20、 )2. Cov (X, Y) = EXY - EXEY ,显然若X、Y 相互独立,则CoV(X, Y) = 03. Cov (Xi + 2, Y) = Cov (Xi, Y) + Cov (2, Y)4. 对任何实数,a2,b,b2122Cov (aX + a2X2, b1Y1 + b2Y2) = aicv(Xi, Yj)i1 j1?3.3.2相关系数定义3.3.2.设随机变量X, Y为随机变量,称COV (X, Y)为X与Y的相关系数.当px,Y=O时,则称X与Y不相关.由定义容易看出,若令X,= (XEX”AVarX和Y = (YEY)/AVarY分别 为X和Y相应的标准化随机变量,则p
21、x, = Cov (X*, V ).因此,形式上可以把相关系 数视为“标准尺度下的协方差”,从这个角度上说,相关系数可以更好的反映两个随机变 量间的关系,而不受它们各自所用度量单位的影响.例 3.3.1.设(X, Y) N (a, b,例例 p),则px, = P .相关系数有如下的性质:1 .若X和Y相互独立,则x, = 02 . px, 0, b e R使得X = aY + b(正相关)px, = -1,则存在a 工厂;n,其他由此,可得X和Y的边缘密度函数为 -f(X)= f(X)= 一 1 - X2 ,-1 X 1.Jr因止匕,EX = EY = 0, X 1 1.EXY = X. y
22、 . Adydx = 0.-1一Ji-JT所以,Cov (X, Y) = 0,从而px,Y = 0,即X和Y不相关.但由f (x, y) f (x).f (y),知X和丫显 然不独立.例3.3.4.设随机变量X和Y的分布律分别为/ / Vr 0v 01X ,Y 并且P(X . Y = 0) = 1 .则X与丫不独立,也不相关.注:只在正态情形下,不相关与独立等价.我们举二维正态的例子来说明,不妨设(X, 丫) N (a. b,萧,龙),则X和Y独立等价于P = px, = 0,从而等价于X和Y不相关.?3.4其他一些数字特征与相关函数表3.3.1常见分布表分布名称参数概率密度期望方差特征函数退
23、化分布C乙、C0eic,二点分布P(O p 10 p 1S、Pkqn * k = 0,., nPnpq(q + pei, )n几何分布P (0p1)qkip, k= 1,2,.1 P-fl. P2peil1 - qert巴斯卡分布r,P r e N0 p 0)苦铲,k = 0, 1,.e(ei,- 1)超几何分布M1 N, n e N(步(0 (?)nN1M (N-M) N -nNN N - 1均匀分布 U (a, b)a, b(a b) 0)e x lxo1 (T)TXz分布n(n 1)1yV2 - 1 p-X22V,(2X 0n2n(1 - 2it) nz2矩母函数Eeix,其中te R.
24、特征函数EeM ,其中t e R, i为虚数.定义3.4.1.如果离散型随机变量X的分布律为P(X = ai) = pi, ie N,那么EeitX =/口 .i=1如果连续型随机变量X的密度函数为f (X),那么Eeitx = , et f (x) dx.?3.5大数定律和中心极限定理极限定理是概率论的重要内容,也是数理统计学的基石之一.中心极限定理,是概率 论中讨论随机变量和的分布以正态分布为极限的一组定理,这组定理是数理统计学和误 差分析的理论基础,指出了大量随机变量近似服从正态分布的条件.?3.5.1大数定律定义3.5.1.如果对任何 0,都有Iim P ( - ) = 0, n- O
25、那么我们就称随机变量序列n, ne N)依概率收敛到随机变量,记为n S .定理3.5.1.设Xn)是一列独立同分布(Lid)的随机变量序列具有公共的数学期望和 方差。2.则1 n pX = Xk o , k=1即Xn)服从(弱)大数定律O注:实际上,我们只需要均值存在即有大数定律成立,上述定理中加上了方差存在的 条件,只是为了证明的方便O作为上述定理的一个特例,我们有例3.5.1.如果以n表示n重BemOuIli试验中的成功次数 则有*p如果用fn = rn表示成功出现的频率,则上例说明fn bp,即频率(依概率)收敛到概 率.为证明定理351,我们需要如下的ChebySheV不等式:引理3
26、51 (ChebySheV不等式).设随机变量X的方差存在则P (X - EX - ) , A 0.我们可以用ChebySheV不等式来估计X与EX的偏差,但是ChebySheV不等式作为一个 理论工具比作为估计的实际方法要恰当一些,其重要性在于它的应用普遍性,但是不能 希望很普通的命题对一些个别情况给了深刻的结果.如令X为掷一个均匀的骰子所得到 的点数,则 = EX = 7/2, 2 = Var(X) = 35/12. X与的最大偏差为2.5 二 32. X - 大 于这个偏差的概率为。,然而利用ChebySheV不等式仅仅断定这个概率少于0.47.这时就需 要找更精确的估计.定理3.5.1
27、的证明.利用ChebySheV不等式z并注意到EX = , VarX = 2n,我们有,P (X - ) 2 /(n2 ) o 0, n o o, V 0.定理得证.?3.5.2中心极限定理中心极限定理是概率论中讨论随机变量序列的分布收敛于正态分布的一类定理.它 是概率论中最重要的一类定理,有广泛的实际应用背景.在自然界与生产中,一些随机现 象可能会受到许多不确定因素的影响,如果这些彼此之间没有什么依存关系,且谁也没有 特别突出的影响,那么,这些影响的累积效应将会使现象近似地服从正态分布.中心极限 定理就是从数学上证明了这一现象.定理3.52设Xn)为ii.d的随机变量序列具有公共的数学期望和
28、方差。2 .则刈+ .+ Xn的标准化形式3(X1 + . . . + Xn - n)满足中心极限定理.即对任意X e R 有Iim Fn(x) = (x), n- o其中Fn(X)为,二(Xi + . . + Xn - n)的分布函数 而(x)为标准正态分布N (0. 1)的分布 函数.记为(Xi + . . . + Xn - n) N (0, 1).定理352的令人吃惊之处就是任何独立同分布的随机变量序列,不论它的分布是什 么,只要存在有限的方差,那么它们的标准化部分和都渐近于标准正态分布.这也说明了 正态分布的普遍性.由定理352,我们很容易得到如下推论定理3.5.3.设刈,.,Xn相互
29、独立且具有相同的分布P (Xi = 1) = 1 - P (Xi = O) = p, O p 1.则有Xi + 十 Xn-叩 d- N (0, 1).Mp(1-p)即/ Iim P 十 . L 5 X = (x), AxeR.n rr(l - p)定理352称为棣莫弟-拉普拉斯定理,是历史上最早的中心极限定理.因为定理352中 随机变量X1Xn的和Xl + . . . + Xn、B (n, p),我们利用正态分布近似地估计二项分布.设b V t2是两个正整数则当n相当大时,由定理352,近似地有P(tl - Xl +. + Xn - t2)次 (y2) - (y),其中y = (ti - np
30、)/ np( 1 - p), i = 1, 2.为提高精度,我们可把力,y2修正为y = (t - 1/2 - np)/ np(1 - p), y2 = (t2 + 1/2 - 1/2 - np)/ np(1 - p).例3.5.2.设一考生参加IOo道题的英语标准化考试(每道题均为有四个备选答案的选择 题有且仅有一个答案是正确的)每道题他都随机地选择一个答案假设评分标准为: 选对得一分选错或不选不得分O试给出该考生最终得分大于等于25的概率.解:记Xi表示第题的得分,i = 1, 2, 100.则刈,.,Xn是一列独立同分布的随机变量具有共同的分布1 - P (X1 = O) = P(1 =
31、 1) = 0.25.利用中心极限定理,有P (Xi + . . . + Xioo 司 25) = P / *十一+ 川一卜司 0、= 1 - (0) = 1/2.lO25*()75例3.5.3.每天有io。个旅客需要乘坐火车从芝加哥到洛杉矶,这两个城市之间有两条竞 争的铁路,它们的火车同时开出同时到达并且具有同样的设备.设这io。个人乘坐那一 条铁路的火车是相互独立而且又是任意的,于是每列火车的乘客数目可视为概率为1/2 的IOOO重BernOwi试验中成功的次数.如果一列火车设置SVn个座位,那么一旦有多 于S个旅客来乘车就容纳不下了,令这个事件发生的概率为f (s).利用中心极限定理,有一-小,2.、- KMM)f (S) _ 1 - .v1MNI要求S使得f (S) 0.01,即在IOO次中有99次是有足够的座位的.查表容易求出S = 537 .这 样,两列火车所有的座位数为1074,其中只有74个空位,可见由于竞争而带来的损失是很 小的.