《4.医学统计学.ppt》由会员分享,可在线阅读,更多相关《4.医学统计学.ppt(45页珍藏版)》请在课桌文档上搜索。
1、概率论的基本概念,一、随机试验 满足以下三个条件的试验称为随机试验。1)在相同条件下可以重复进行的试验;2)可能出现的试验结果不止一个;3)试验前不能预知本次试验会出现哪一个结果。,二、样本空间与随机事件:1.样本空间样本点:一个随机试验E 的每一个可能结果称为一个样本点,记为e。样本空间:一个随机试验E 所有可能结果构成的集合称为试验 E 的样本空间,记为S。显然,样本空间的元素即为 样本点。,例1:抛一枚硬币,观察正H、反面T出现的情况。例2:将一枚硬币抛三次,观察正H、反T面出现的情况。例3:将一枚硬币抛三次,观察正面出现的次数。例4:抛一枚骰子,观察出现的点数。例5:记录某城市120急
2、救电话台一昼夜接到的呼唤次数。例6:在一批灯泡中任意抽取一只,测试它的寿命。例7:记录某地一昼夜的最高温度和最低温度。,2.随机事件:定义:设E 为一随机试验,S 是E 的样本空间,则称S 的子集为E 的随机事件,简称事件,通常用大写字母A、B、C 等来表示。在每次试验中,当且仅当某事件A 中的一个样本点出现时,称为事件A发生。,注1:基本事件 由一个样本点组成的单点集称为基本事件.注2:必然事件 将样本空间S 视为它自身的子集,则在每 次试验中它必然发生,故称S 为必然事件。注3:不可能事件 空集 亦为S 的子集,但其中不包含任 何样本点,它在任何一次试验中都不可能发生,故称为不可能事件。这
3、里,必然事件和不可能事件实际上已经不具有随机性了,但为了处理起来方便,我们还是将其作为随机事件的两种极端情形来对待。,例:在E2中,事件A1:“第一次出现的是H”,即,事件A2:“三次出现同一面”,即,在E6中,事件A3:“寿命小于1000小时”,即,在E7中,事件A4:“最高温度与最低温度相差10摄氏度”,即,3.事件间的关系及运算 由于事件是一个集合,因此事件之间的关系及运算自然按照集合论中集合之间关系及运算来处理。下面按照事件发生的含义,给出事件间的关系及运算在概率论中的提法,与集合间的运算一样,事件间的运算满足如下规律:,三、频率与概率 问题:一个随机事件在一次随机试验中是否会发生?一
4、个随机事件在一次随机试验中发生的可能性有多大?,显然,频率在一定程度上反映了事件发生的可能性大小。在试验次数n较小时,频率具有波动性。当试验次数n较大时,频率具有稳定性。,在随机试验E中,一旦随机事件A给定,则A发生的可能性大小就已经确定,换句话说,事件A发生的可能性大小是事件A本身的一种属性。为了准确刻划这种属性,给出下面的定义。,四、古典概型(等可能概型)1.古典概型(等可能概型)的定义:如果随机试验的样本空间只包含有限多个样本点,且每个基本事件发生的可能性相同,则称这种试验为等可能概型(古典概型)。,2古典概型中事件的概率计算公式,例4-1,五、随机变量1.随机变量的定义:为方便计,设e
5、表示随机试验的结果,定义一个变量X,按试验的不同结果取不同的值。这个变量X称为随机变量。,ex1:考察抛硬币试验,它有两个可能的结果:正、反,为 了便于研究,我们引入一个变量,引入随机变量X,其主要作用在于用它来刻划随机事件,由于e的出现具有概率,故X(e)的取值也有具有概率,即对于任意给定的实数x,e:X(e)x 或Xx 表示一个随机事件,而随机事件的发生是具有概率的,我们用 Pe:X(e)x 或 PXx 来表示。如果一个随机变量所有可能的取值为有限个或可列无限多个实数,则称其为离散型随机变量;如果一个随机变量的取值充满一个实数区间或整个实数轴,则称其为连续型随机变量。,对于一个随机变量,我
6、们需要解决的问题是确定随机变量取哪些数为值、以及相应取值的概率。2.离散型随机变量的概率分布 设X为离散型随机变量,它的所有可能的取值为xi(i=1,2,3,),记事件X xi的概率为 PX xiPi 则上式表示了随机变量X的取值及其取值概率的规律,称上式为离散型随机变量的概率函数。它具有以下性质:1)0 Pi 1;2)Pi 1。,离散型随机变量的概率分布律,例4-3 记X为连续抛3次均匀硬币试验中“面值向上”出现的 次数,试求它的概率分布。X所有可能的取值为:0,1,2,3。我们可以计算出X取各个值的概率,列于下表:,3.随机变量的分布函数 设X为一随机变量(X可以是连续型,也可以是离散型)
7、,x为任意实数,称函数,为随机变量X的概率分布函数,简称分布函数。,4.连续型随机变量的概率密度函数与分布函数,六、常用概率分布,一)二项分布1.二项分布的概念例:一袋中装有2黄、3白共5个乒乓球。从中每次摸出1个,然后放回再摸。先后摸5次,问摸到0、1、2、3、4、5次黄球的概率各有多大?解:由于是有放回抽样,故每次摸到黄球的概率均为0.4,摸到白球的概率为0.6。设摸到黄球的次数为X,若5次摸球中前X次摸到黄球,后5-X次摸到白球,则相应的概率为:0.4X0.65-X 由于摸到黄球可能发生在5次摸球的任意X次中,故5次摸球中有X次摸到黄球的概率为,本例的实验有以下三个特点:每次摸球是彼此独
8、立的;每次摸球只有两种可能的结果;每次摸球出现某种结果的概率不变。满足上述三个条件的随机试验称为Bernoulli试验。本例摸了5次球,即进行了5次Bernoulli试验。一般地,在n次Bernoulli试验中,事件A出现的概率为,设X为事件A出现的次数,则X是一个离散型随机变量,它服从二项分布,记为B(n,),其概率函数为:,例4-5,在n次Bernoulli试验中,事件A至多出现k次的概率为,在n次Bernoulli试验中,事件A至少出现k次的概率为,2.二项分布的图形当n,已知时,由(4-22)式即可计算出x=0,1,2,n时的概率,由此即可作出二项分布概率函数的图形。下面是n,取不同值
9、时的图形:,n=7,=0.2,n=7,=0.5,n=25,=0.2,3.二项分布的性质1)对于固定的n和,当x(n+1)时,P(x)随着x的增大而减小,当x=(n+1)时,P(x)达到最大值。2)当=1-=0.5时,二项分布呈对称分布,当1-时,二项分布呈偏态分布,当n增大时,二项分布逐渐近似于对称分布。3)二项分布的数字特征:总体均数:=n 总体方差:2=n(1-)总体标准差:,若将出现阳性结果的频率记为:p=X/n,则p的总体均数:p的总体方差:p的总体标准差(又称为率的标准误):,例4-6,4.二项分布的应用 例4-7,4-8,若为未知,可用p=X/n作为的估计值,则 p 的估计值为,二
10、)Poisson分布1.Poisson分布的概念 设X是一随机变量,若它的概率函数为:,则称X服从参数为的Poisson分布。一般说来,满足以下三个条件的随机变量X服从Poisson分布:1)X取非负整数;2)X的取值与时间长度(或面积、体积)的大小有关,而与时间长度(或面积、体积)的起点无关;3)在充分小的时间长度(或面积、体积)内,X的取值2几乎是不可能的。(罕见事件发生的概率),例如,放射性物质在单位时间内放射出的质点数;在单位面积或单位体积内的细菌数、粉尘颗粒数、血细胞数;在一定人群中某种患病率很低的非传染性疾病的患病数或死亡数等均服从Poisson分布。在观察例数n充分大的样本中,至
11、多有k例阳性的概率为:,至少有k例阳性的概率为:,Poisson分布的图形,3.Poisson分布的性质1)当X 时,P(X)随X 的增大而减小,当X=时,P(X)达到最大;2)若X1服从参数为 1的Poisson分布,若X2服从参数为 2的 Poisson分布,则 X1+X2 服从参数为 1+2 的Poisson 分布。3)Poisson分布的总体均数和总体方差相等:=,2=4).Poisson分布与二项分布的关系 设XB(n,),可以证明,当n很大,很小时,二项分布 B(n,)近似于Poisson分布P(n)。,三)正态分布 1.正态分布的概念 正态分布(normal distributi
12、on)也叫高斯分布(Gaussian distribution),一种最常见、最重要的连续型分布。特点:中间频数多,两端越来越少,且左右大致对称。回顾一下编制频数表的例子:,81例30-49岁健康男子血清中的总胆固醇值(mg/dL)测定结果,81例健康男子血清总胆固醇值(mg/dl)的频数分布表,81名健康男子血清总胆固醇值的频数分布图,频数分布渐近正态分布示意图,正态密度函数 若随机变量X的概率密度函数为:,则称X服从正态分布,记为:,正态分布函数,2.正态分布的性质1)均数为,标准差为;2)对称性:以x=为对称轴;3)面积规律:曲线下的总面积为1。即X在(-,)取值的概率为1.,3.标准正
13、态分布 令,则正态分布的密度函数化为,称为标准正态分布,记为UN(0,1)。,例:已知某地正常女子血清总蛋白含量的均值为73.9g/L,标准差为3.9g/L。试估计该地正常女子血清总蛋白68.0g/L者占正常女子血清甘油三脂总人数的百分比。将x=68.0代入标准正态变量变换公式,得:,查附表2,在表的左侧找到1.5,在表的上方找到0.01,两者的相交处为0.0655=6.55%。即该地正常女子血清总蛋白68.0g/L者,估计占总人数的6.65%。,4.正态分布的应用 正态分布是人类社会生活与自然界最为常见的一种分布。一般说来,正态分布是众多微小的、独立的随机因素的总效应。在医学统计学中,正态分
14、布主要有以下用途:1)用于制定医学参考值(正常值)范围。2)用于构造检验统计量:如U、t、F、2等统计量。3)质量控制。下面我们重点讨论医学参考值的制定。,(1)医学参考值的概念:正常人的某项指标的波动范围称为参考值范围。,临床上常用的参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标,过去称正常值。,单侧下限-过低异常 单侧上限-过高异常 双侧-过高、过低均异常,双侧下限,双侧上限,注意:1)正常人是指排除了能影响该指标的有关因素的人;2)总体范围必须明确;3)统一检测方法与条件,避免检测误差;4)根据指标性质确定是否分组及分组数目,如年龄、性别等;5)确定观察对象的例数,不能太少;6)决定单、双侧位界;7)根据资料分布类型选择适当的制定方法。,(2)制定医学参考值的方法:1)正态分布法:若资料服从正态分布,则正常值范围由下表中的公式求得:,2).若资料为偏态分布,则可按百分位数法计算参考值范围:,例4-14,