《第二章-贝叶斯决策理论.docx》由会员分享,可在线阅读,更多相关《第二章-贝叶斯决策理论.docx(37页珍藏版)》请在课桌文档上搜索。
1、,(1)-NJN.PWNzfN)假设(类)条件概率密度函数P(X1.3i),j=1.,2,用来描述每一类中特征向展的分布情况.如果类条件概率密度函数未知,凰么可以从可用的训练数据中估计出来.贝叶斯判别方法贝叶斯分类猊那么描述为:如果P(P(ftX),那么XG1.如果&助|工)。2|回.那么丫%(211)贝叶斯分类规那么就是看XG四的可能性大,还是XGg的可能性大。P(iIX),/=1,2解件为当样本X出现时,石蛉微率/(他IX)和P(A1.X)的大小从而判别为属于勺或属于2类。三种概率的关系贝叶斯公式:Pgg=03D(2-1-3)P(X)其中.P(X)是X的概率.澎度函数(全概率密度:.它等于
2、所有可能的类概率.密度函数乘以相应的先验概率之和.P(X)=P(XI助)夕他)因为P(X)对于所存的类都是样的,可视为常数因子,它并不影响结果,不考虑“故可栗川下面的写法比拟后脸IK率的大小:p(x)P(P(X1.Q)P(h)那么有XGJ(2-1-4)(I)2二多类的情况 32,”表示样本X所属的个类别. 先龄概率P(姐),=1.2,m假设类条件概率密度函数P(X1.助),1=1,2,小,计算后验概率后,假设:P,IX)P(,IX)vji那么XG3i类.这样的决策可使分类错误率最小.因此叫做拈于最小错误率的贝叶斯决策.R1.和S3的分界点是p(x!)!)=p(x/i)P(i)的交点.R2和R3
3、的分界点是p(x!(2)P)三p(x(w)P(如)的交点.1R*Rif&决策域、决策面,决策面方程和判决函数和分类器决策域、决策面、决策面方程时于物类的分类任芬.按照决策规那么可以把多维特征空间划分成m个决策区域凡叫决策城.两个区域用,R.的边界叫决策面,X是一维时,淡策面是一个点:二维时,决策面是一条曲(三)线;三维时,决策面是一曲(平)面:雉时,决策面是一个切曲(平)面。在数学上用解析形式可以表示为用决黄血方置描述.可符决策面存作有正负的界面,对于任一样本X,代入决策面方程左边的多项式,段设是正的说明xe”,:假设为负说明x幼.判别函数4(x)把描述决策规那么的某种函数叫我别应改d,(x)
4、,例如4(x)=(P(SIX),其中/()是一个单调上升函数。对于最小错误率的情况,可描述为P(1.Ix)-P(WjIx)-O,用判决函数描述决策面方程更方便.分类号分类器可以看成是由软件或硬件组成的一个“分类的机器”,它的功能是先计算出m个判别函数再从中选出判别函数的大位的类作为决策结果.基于量小错误率的判决规那么的其他形式由P(XIe,)P(e)p(XIm)P(公),那么XG1.但这种月决规班么,可写成2,那么有XeHp(x2)J1(x),ji时,xyr;或当Jz(x)=11axP(y,IX)时,xP(ftx),那么有xwi.图2-1-1P(G=P(2x)p(x)dx+PIX)P(XwX=
5、,p(X16)P(y,)1.x+jp(x)P(*:A(*)(1.w2)A(af.cva)::(a4w)(.2)A(4.r,)a(4)这里,“可以等于或大于,大于”,包含了拒绝判决的情况.般,正确的判断要比错误判断的投失小,即以氏,叼)以见,利),亦即44,。条件期望损失RSJx)一(又叫条件风险)对于给定的X的测试(ft.如果采取决第4,4可以在相应行的,个N,.ej当中任取个.这里/=1,2,1.m,相应概率为P(勺).因此在采取决策,情况下的条件期望损失昭,IX)为:mR(a,1.X)=E(a1.,M)=(a1.coj)P(|x),i=1.2.a(2-2-3)?=1 此式是考虑到了某一行中
6、各种请况下的损失的一种加权平均效果即判断XM于?类时相应于决策,的损失函数以各类后验概率为权王的加权和。式中将Jr来自任何一类的情况都考虑到了,同于某一类的可能性越大,P)越大,权由越大。 这里求期不值实际上是求%条件下相对求各类的平均风险。 根据上表,可以计算出。个条件风险R(x).Ria2x).,R(a1.x.期城风险RX是随机向量的测量的,用于X的不同观察值,采取决策a,时.其条件风险的大小是不同的.决策可以看成随机向量X的函数,记为(x),于是我们可以定义期望风险R为:=(r)x)Xx)tZr(2-2-4)式中.公是特征空间的体积元.积分在整个特征空间进行.期里风险R反映对整个特征度间
7、所仃X的取值都采取相应的袂般(x)所带来的平均风险;而条件风险MajX)只是反映了对某X的取值来取决策里所带来的风哙。实际上是对某模式X进行分类判别决策时,算出判断它属于各类的条件期里风险夫(jx),阳%x).,K(ux)之后,判决X周于条件风险的那一类.最小风险贝叶斯决策规那么在考虑描到带来的损失时.我们带望损失最小.如果在采取每一个决策都使其条件风险最小,那么对所有的X作出决策时,其期望风险也必然最小.这样的决策就是最小风险贝H斯决策.最小风险贝叶斯决策班那么为:如果R(aiIx)=nin&勾x),那么有=4(2-2-5).i*1.2w.即在。个条件风险中,选一个最小的,这就是基于最小风险
8、的贝页Wi决策.最小风险贝叶斯决策的步骤(1)在汽叼),p(叼),J=1,2,m,并给出待识别的X的情况下,根据贝叶斯公式可以计算出后验概率:.、P(X!叫)似叫).(xIX)=-1Z,)-1.,2,m(226)p(xIa,)t(a,)SI(2)利用计算出的后段概率及决策表,按式(22-3)计算出采取,.二1.2.”的条件风险R(ai/x).(3)对步MU2)中得刎的。个条件风险值R(x).i1,2.”.进行比拟.找出使条件风险最小的决策见,即R(x)=minR(a1.x).那么aj1.就是最小风险贝叶斯决策,说明应该指出的是,最小风险贝叶斯决策除了要有符合实际情况的先验概率P(1.)及类条件
9、概率密度/Xx.)=0i,j=1,2,m(2-2-7)1.)式中线定时于m类只有=析个决策,即不考虑“拒绝的情况:时于正确决策(即i=力,4(勾,叼)=0,就是没有损失:而对于任何错误决策,其损失均为1.这样定义的损失函数称为01损失函数,此时,条件风险为:EERtaiIX)=(a,.u.(e)+(2(e)-0)式中A是1.agrangc乘子,目的是求r的极小值。从式(21-12)可知:%(,)=IP(XIw)dx,j()=IpxIo2)dx(2210;JiJR1式中.周是类别回的区域:为是类别码的区域,而凡+&=&,人为整个特征空间,也就是说,决策作出之后.俗个特征空间分割成不相交的两个区域
10、2和段.我设样本尸落入冬,就判定属广用类.反之那么随于g类.根据类条件概率密度的性质.仃:pixIco)dx=1-P(HI)dx(2-2-11)JR1.JR1.招式(2-2To)代入式(2-2-9),并顾及到式(2-271),可得:r=1.P(HI)d+Jr(xIcu2)-P(WI1)dj(2-2-12;由此式分别对X和/1求导,令包=O及=0drZ=4S2(xI:)I(xIajdjc=co(2-2-14)满足式(2-2-13)的最正确4值和满足式(2-2T4)的边界面就能使r极小,此时决策规那么可以写为:如果厂黑。,则有工卜2-215)pxI2或,如果(2216)eu2这种限定一类错误率7为
11、行数而使另一类错误率与最小的决策规瑶么就称为聂笠一皮尔透(NeymanPearson)决策规那么。回忆最小错误率贝叶斯决策观那么式(2T-5),将式(2-2T5)与它比照,可以看出聂姓-皮尔逊决策规居么与最小错俣率贝叶斯决策现那么都是以似然比为根底的所不同的只此出小错误率决策所用的Mitf1.是先验概率之比PgIP(A),而娃理皮尔逊决策所用的制值那么是1.agrange乘f2,它是式(2-2T3)和式(2-2-1力方程的解.但是在高维特征空间求解边界面并非易事.这时可利用慨然比密度函数来确定尤值似然比为G(X)=Pa1.叫)/p(xI.似然比密度函数为p(%)求解力=P(IIa2)d1.=C
12、q(2-2-17)由于p(8,那么Pe)1.,因此,采用试探法,对几个不同的尤值计售出鸟(。)后,总UJ以找到一个适宜.的2值,使它刚好能满足鸟修)=埒的条件,兄使小e)尽可能小,仅要得到式(2-2T7)中幺的显式解是不容易的,例1两类二维正态分布模式的均值向增为,w1=(-1.0)r./=(10)r,其秘方非矩阵均为单位矩阵/,即E,=Z=/,其分布如下图2-2-1。现确定=0.0%求聂曼皮尔逊判别道值,因为Mx1.阳)=-cxp-(x-M,1.)r(x-M1)/2J2乃p(x2)=-exp1.-(x,+1.)2+)2cxp-(-f/)z(A-n,)22/r-!-exp-(x1+1.).)2
13、171M工I5)(xI町)所以exp(-24),判别边界为入=exp(-2x)判别式为J与/1之间的关系为0令J,-1yXi=1.n于是,在4取不M数值时,可求得不同的y和却的值,如表2-2-2中所列.2-2-2A4211/21/4y-1.6931.347-i-0.653-0.307*1-0.693-0.34700.3470693、u,河行A1.,21a(2-2-18) 再置定两类区域RI和R2己确定,那么风险R可按式(2-27)=R(a(,x)Ix)pxdx,可写出.R=JR(x)IX)P(X)dx=,R(a,x)p(x)dx+R(a,X)P(X)dx=f)p(xI)+zP(1)p(xI2)
14、tx+1.H1.P(卬MX1.卬+%P(D,)p(x,)fZr我们的目的是要分析风险R1.j先验极率P(M)之间的关系.由于时两类情况.U,()dx=1-Jp(jtI)dxR1.J*2那么式12-2-19)可写为;RInm-奴小化般大风险R(P(O1)=,+(/?,-,)/XX/y,)1.)p(x1.)dx-1.2-n)p(x2)dxR2R1令其=0.可对最小呆大化求解(2-2-21)写成R(P()=+,P(J 由此式说明了,当P(三)变化时,在R1.和&被确定,不说1PQ)做相应时整的情况下.期里风险就是先监概率。(他)的线性函数,即8的“他)呈直线关系,如图皿强所示.其中我们考虑当HeJ变
15、化时的各种可能取值情况下的最正确决策。因为在类概率密度函数,损失函数及某个确定的先验概率P(三)时,利用最小风险贝叶斯决策方法,可以找出两类模式样本的分类决策面,把特征空间分割成R1.和R2两局部,使其风险为显小。所以,可以在(0,D区间内,对先验概率P4)取假设下个不同的值,分别按最小风险贝叶斯决策方法确定其相应的两类边界区域,从而计算出其相应的各个最小风险R-,然后就可以得出股小风险与先验概率P(3)的关系曲线曲P(1.),如下图。注意,这时曲线上各点有若不同的R1.和与边界划分,说明随P(q)变化两类边界在不断做调整,从而得出一些列最小风险。 直线CD在曲线上方并曲线在A点相切,其纵坐标
16、凡是对应厂先验概率为8)时的最小风险:直线上点的纵坐标那么是对应于P(q)变化时边界不做调整时的风险值,风险值在(a,+b)的范围内变化,最大风险为+b,其风险要比曲线情况卜大,直线在曲线上方说明了这一点。 如果能找到一个边界使比例常数为b-0,那么风险R独立于先验概率P(电3即以上既是最小最大求解,由式(2-2-21)可知,如果对于某个P(1.),能找出其决策方案使该式中P(三)的系数b=0即风险与汽必)无关。(1.1.-22)+(2-1.)(xI)dx-(12-A22)。(工*j)dr(2-2-22)那么,风险/?为R=Ajj+(j-Ajj)I(xIo2)dj=a(2-223)求使b-0的
17、P(R等价于在K4他)曲线关系中求使dRdP(i)=0的P(卬.显然最小最大决策的任务就是寻找使贝叶斯风险为最大时的?. 图2-2-23)中的B点的横坐标/:(牡)时应于决策方案.使系数b=0,纵坐标对应其贝叶斯风险,过H点的切线CD与横轴平行,即此时式(2-2-23)所发示的宜线与曲线相切且平行于。(回)坐标轴,不管。(他)如何变化,共风险都不再变化,其岐大风险等于。,这时就使最大风险最小.综上所述,可以得H1.结论:在作最小风险贝叶斯决策时,假设考虑P(q)有可能改变或对先验概率在无所知的情况,那么应选择使最小贝叶厮风险K为最大值时的Pi)来设计分类,即对应于图2-22(b)中的B点.其中
18、风险K:相对于其他的P(Q)为最大,且能保证不管声Pg)如何变化,最大风险都料为农小,这样的决策就称为最小最大决策“因此,G小报大决第的仔务就是寻找使贝叶斯风险为公大时的两类区域R1.和R2的边界点,它们对应于式(2-2-22)枳分方程的解,在求出使贝叶斯风险为最大时的凡、&以及相应的光股概率W(三)后,最小最大决策规那么就完全与公小风哙贝叶斯决策规那么相似,阳2-2-2图中位于位部的曲的显示了在固定分布的两类柯盟I,最小(贝叶斯.心率“回)的曲鼓,时f一个先的概率值(如P(r)R.25)都行个相关的最优决策边界以及相应的贝叶斯误差率,对于任何这样的(固定M:U界.如果改变先验概率tf1.那么
19、我生戕率珞作为尸(卬的线中忠线所示:他.曲“女变-此提仁的必大一屹现,:工心信守用Hfi处.此图中为Hao=1.为JF小化最大误差,我们将为被大的,!叶斯误敌这里跑P(q)=06)设计判决边界,使得该i,J:不会Hi公先兼粗车的改变而改变.如图中水平线所小具体设计过程按最小准那么找出对应于(。,D区间的各个不同的P(%)值的G1.E暗分类区域边界,计算相应各个城正确决策域的以小风险,汨RP(叼)由践,找出使R取最大伯的P(,).以后运用P,(1.),b尸(外)及构造似然比阕伯并运用运用以小准JE么下的决策观那么,对具体的模式分类识别,具体的最小最大损失决策规那么为:如果()此二左叫予明那么判X
20、J式中P(XhJ点,,金)是前K个特征己获得,关于天“的条件概率率度,上式是在N=。,,xt条件下最小平均风险的平均值.再假设获知第妙1个特征所拓要的代价是g*“.那么第步的继续损失是Pt(t,.,t)=g*,+J,/。,福田”)/XXA“I京,短)(应7最小条件平均风险由式(2-2-28)可知,为了计算第A步限小损失Pmrt(。.刍).必须计豫第HI步的G小平均风险又叫,以生.?)户(明.|。,.,i):同样,为T得到第IH步的最小横失外“小.x1,1).需要计算第H2步的最小条件平均风险.mint(a,t)P(ii1.t.2)宜到计算在三2.11所有特征条件下的最小损失,即在所有特征条件下
21、的地小条件平均风险r呼11)P(4I,.,va,1,.,t)|.(2-2-29)才能正确决断序贯分类过程是否应该停止在第k步。这种方法的计算状和存储J1.t都要求很大,因此开展了一系列次优的序赞方法,我主要的假定是在第志步作决策时只要考虑到H“步,即决策一定停止在第4步和Z步之间.例如可以取U等于2.这就大大战少了计算工作fi1.为了进一步到达序贯分类的效果.还要进行特征的排序,这将在别的章节里展开讨论.三节正态分布模式的统计决策(一)正忠分布概率密度*数的定义及性质正态分布的概念.图2-3T单变出正态分布概率由度函数实践中最常遇到的概率密度函数是高斯密位(正态密度)函数,流行的原因主要有两方
22、面:,数学上的管便性,除了些极具简单与不甚实用的统计分布模型外.正态分布可说是数学上最简便的一种.数学的简便性便于人们对统计识别方法进行数学分析.正态分布的一些特殊情况还会揭示统计判别方法中许多有捶的性侦,有助于我们对统计判别方法加深理解C2物理上的合31性,缺少这一条不可能得到如此广泛的应用.在许多实际应用场介,如果同一类样本在特征空间内Ha实较集中地分布在其类均值的附近,远离均值处分布较少,般情况下以正态分布模型近似往往是比拟合理的.人们也往往因数学分析复杂程度考虑而不得不采用这种模型,当然使用时应注意结果是否合理或关注其可接受的程度,正态分布是指个的机实数的度显值在整个实数域上的分布规律
23、.因此它属于概率密度函数类.即类笈朴概率*0帆数P(XI)。假设在“维特征空间中,?对于X的似然函数遵循多元正态密度函数,(二)单变量一元正态留度函数Mx)=(W)=(单变量X可看成X的特殊情况,既一维向量X=W1.不用写成黑体字*.而将P(X)写成MK1.ej是为了强调类别例这个条件)这里: 为随机变Stx的数学期望(均侪).-ooz4oo.=(x=xpxdx(2-3-2) b为陆机变址X的方差:。为均方差(标准差).=M(K-=:(x-/O?p(x)dr(2-3-3) 概率的度函数P(X1.Q)或P(X)完全由两个参数和,确定.满足以下关系式.p(x)0(-ooR枳分P(X1)=r-z/X
24、.r,Xjdxdx2.dxidxi.dxn共中.Ej是n淮协方差矩阵,是矩阵(X-M(X-尸的数学期望,下标i我示类别,ET是其逆阵,II是E行列式一元(单交二)正态密度函数中的常数因子,-7=,一72*b(2tY2zY2多元正态密度函数中的常数因子,(2多元正&密度函数的豪达式J=由亢严MT-2-,三1.2,.,/(236).i(-典C)I(%一必)(M-M),(x1-2)(一“)U2-/A)Cq一人)一”)(x1-,Mx,-z1).(,-1)(x-jmJ=E(公-.Mx,-.).(%-.)(x,-心(xr-jU.Mx,-A,).x,-x,-,-j是2的第i,j个元素:27=(%-XX厂0E
25、(x1.-/1)(A1-/1.)|EKXXN1.-M)11(ai-z1.)(x2-/,).f1.(.v2-2)(xi-2).EI(A1.-Zz1)(Xn-ZZn)E(x2-i)(xu-1.)闽区-nXX-M)旦(X一4)也-&UI-M,)(工一G1.=.(七-)(X厂巧)7M,.,/)必心“,G.j=12,鹿)当i=j时,。2仃为七的方差,它是办方差矩阵E对角戏上的元素:当iW0寸,2ij足X的第个i分小七和第j个分量XJ的例方差。一微心=2t.因此是对称矩阵。方差矩阵是非负定矩阵(半正定),只考虑正定矩阵情况,0.2.多元正笈分布的有关性质(。效和E对分布的决定性多元正态分布由均值向盘和工协
26、方差矩阵完全决定.均值向量是维向盘,协方差矩声E是对称矩阵,其独立元素只有“S+D/2个,多元正态分布是由r(n)/2个参数确定的.记为P(X)-M)(2等密度点的轨迹为一JfiH球面 从正态分布总体中抽取的样本大局部落在由和工协定的,个区域胆,这个区域的中心由均值向决定,区域的大小由协方差矩阵E决定。从多元正态概率密度函数的表达式可以布小,当指数项为常数时,密度值同工)不变, 等密度点应是使式的指数项为常数的点,即满足(x-)r(x-)=M(2-3-13) 可以证明上式的解是个超椭球面,其主轴方向由矩阵X的本征做决定,主轴的长度与相应的协力若如年X的本征隹(成正比,数理统计中称上式中的常.数
27、所表示的数最(.x)r(x-)=y2(2-3-14)叫做等密度样本点X到均值点的Maha1.anobis距离的平方,。所以等密度点的轨迹是X到的Maha1.anobis距离为常数的超椭球面。G)不相关性等价于独立性 不相关的定义,假设1.tx1.xj=Ex1.Exi(教材中印错门那么定义随机变量阳和巧是不相关的, 独立的定义:假设苦户,的联合概率等于各自的概率P(KJ、P(X,)之积,即P(J,)=P(XJP区),那么定义随机变依士和是独立的。 独立是比相关更强的条件,独立性要求两个随机变MX,和X,的戕率等各门概率的乘积,而不相关要求要求两个随机变球*和/的枳的数学期望等于各自的数学期望的乘
28、积,假设七和是独立的,那么K,和Xj是不相关;反之,刖么不一定成立.只有在随机变收儿和X,的分布规律服从正态分布时,它们之间的不相关才与独立等价。证明I根据阳和,互不相关的定义,有2ij=E(x1-,)(.rj-,)E(x1.-,)E(xt-j)=0,=1.2.n:ij因此例方差矩阵就成为对角阵Eb;0.0=%“(2-3-17)00.于是进而有I/Oi1.(2-3-18)W=11-r-1.I展=n/r-1.(X-)r(x-)IXI-M,X11-A1I=0所以p(x,)=H=11M11V-/2.(2-3-I9J(2-3-20)(2-3-21)(2-3-22)=11pU)r-1.由以上证明还可以得
29、个盅要的推论.推论如果多元正态随机向显X-xi.x2.,x,的协方差矩阵是对用阵,那么X是相互独立的正态分布随机受fit.(4)边缘分布和条件分布的的正方性多元正态分布的边缘分布和条件分布的仍然是正态分布,即对于正态分布随机变Ift*=斗,“.,匕其任意分出的分布为:p(xi)N(.)在给定$的条件下七的分布为P区=3扃E严exp卜翁(Xr冷”-ZO1.2P(XM)的估计.迭代式为了方便,将上式写成迭代式,以C/N)代表由N个样本求得的系数,如在参加一个样本,G就写成CJN+D=-X(x,)=INe(N)+/(XNu)111.*I式中由第一个样本确定的系数G=0,(j.利用迭代可简化G的计算.
30、利用基函数方注意以下三点(1)选择域函数来近似未知的您度函数,其近似性能与基函数的项数,”有关。因为不知道P(X),这就不能用直接比拟的方法去试验P(X)的近似性能.但热计算MX)必为了谀计贝叶斯分类器.因此就UJ以用分类港的识别性能来试验即用训练样本集来宜接试物.假设采用这种P(X)设计的贝叶斯分类器性能很差,可通过增加基函数的项数来改善WX),看能否提高分类器的性能这样不断施增加顶数,C1.到性能到达“饱和”,或项数多到不能接受的程度为止。2)基函数类型的选择要适宜.假设P(X)本质是正弦函数,这时检设把力(X)按多项式函数来展开.所需项数就大为增多。由于没仃P(X)的先验知识,所以只能按易尸实现的条件来选择丛函数,但它必须是线性独立的.在某些适宜的条件下.可以证明mco和N8,那么/Xx)TP(X).(3)拿维情况下,要选择适宜的基函数并稣出其系数不容易-