《2023人工智能机器算法概率模型学习.docx》由会员分享,可在线阅读,更多相关《2023人工智能机器算法概率模型学习.docx(40页珍藏版)》请在课桌文档上搜索。
1、人工智能机器算法概率模型学习目录1.1 统计学习31.2 完全数据学习8121最大似然参数学习:离散模型81.2.2 朴素贝叶斯模型111.2.3 生成模型和判别模型131.2.4 最大似然参数学习:连续模型131.2.5 贝叶斯参数学习151.2.6 贝叶斯线性回归19127贝叶斯网络结构学习221.2.8非参数模型密度估计24L3隐变量学习:EM算法271.3.1 无监督聚类:学习混合高斯281.3.2 学习带隐变量的贝叶斯网络参数值31133学习隐马尔可夫模型351.3.4 EM算法的一般形式361.3.5 学习带隐变量的贝叶斯网络结构37小结39在本文中,我们将学习视为一种从观测中进行
2、不确定的推理的形式,并设计模型来表示不确定的世界。我们在第12章中指出,现实环境中的不确定性是普遍存在的。智能体可以利用概率论和决策论的方法来处理不确定性,但它们首先必须从经验中学习到关于世界的概率理论。本文将通过学习任务表述为概率推断过程(20.1节)的方式解释它们如何做到这一点。我们将看到贝叶斯观点下的学习是非常强大的,它为噪声、过拟合和最优预测问题提供了通用的解决方案。本文还考虑这样一个事实:一个非全知全能的智能体永远不可能确定哪种描述世界的理论是正确的,但它仍然需要选择一种理论来进行决策。1.1统计学习本文的核心概念与第19章的一样,是数据和假设。在这里,数据可以看作证据描述相关领域的
3、一部分随机变量或所有随机变量的实例;假设是关于相关领域如何运作的一些概率理论,逻辑理论是其中的一个特例。考虑一个简单的例子。我们喜欢的某款惊喜糖果有两种口味:樱桃味(好吃)和酸橙味(难吃)。糖果的制造商有一种特殊的幽默感-它对两种口味的糖果采用同样的包装。这些糖果统一分装在同样包装的大糖果袋里进行售卖,因此我们无法从袋子的外观上辨别袋中的糖果口味,只知道它们有5种可能的组合方式:历:100%樱桃味h2:75%樱桃味+25%酸橙味h3:50%樱桃味+50%酸橙味h425%樱桃味+75%酸橙味/15:100%酸橙味给定一袋未拆袋的糖果,用随机变量”(以代表假设)表示糖果袋的类型,其可能的值为从阳至
4、5。当然,H不能被直接观测到。但随着袋中的糖果逐颗被打开与辨认,越来越多的数据也逐渐被揭示我们记为其中每个Q是一个随机变量,其可能的值为cherry(樱桃味)或Iime(酸橙味)。智能体要完成的基本任务是预测下一块糖果的口味。山尽管从表面上看这个情景很简单,但它还是引出了许多重要的问题。智能体确实需要推断出一个关于其所在“世界”的理论,尽管这个问题中的理论很简单。1.U有一定统计学基础的读者可以发现该情境是瓮与球(um-and-ball)情形的一个变种。我们发现相比瓮与球,糖果更容易令人理解与信服。贝叶斯学习(Bayesianlearning)是指基于给定的数据计算每个假设发生的概率,并在此基
5、础上进行预测。也就是说,这个预测是通过对所有假设按概率加权求和所得的,而不是仅仅使用了单个“最佳”假设。通过这种方法,学习就可以归约为概率推断。令。代表所有的数据,其观测值为九贝叶斯方法中的关键量是假设先验Psi)和在每个假设下数据的似然31儿)每个假设的概率可以通过贝叶斯法则得到P(hid)=aP(dIl)P()(20-1)现在,假定我们想要对一个未知量X做出预测,那么我们有P(Xm)=EP(Xm)PS (20-2)其中每一个假设都参与决定了X的分布。这个式子说明预测是通过对每个假设的预测进行加权平均得到的,其中根据式(20-1)可知,权重Pej与假设%的先验概率以及它与数据的拟合程度成正比
6、。从本质上说,假设本身是原始数据与预测之间的一个“中间人”。对于上述糖果示例,我们暂定假设力,.,佐的先验分布为01,020.4,0.2,0.1),正如制造商在广告中宣传的那样。那么在观测是独立同分布(见19.4节)的假定下,数据的似然可以按如下方式计算:Pmm)=尸也)/(20-3)举个例子来说,假定一个糖果袋是一个全为酸橙糖果的糖果袋(%),并且前10颗糖果均为酸橙味,因为在心糖果袋中只有一半的糖果为酸橙味,所以PI必)将为05。图20-Ia给出了5种假设的后验概率随着10颗酸橙味糖果逐颗被观测的变化过程。注意,每个概率是以它们的先验概率值作为出发点,因此/23是初始状态下可能性最大的选择
7、,在观测到1颗酸橙味糖果后也是如此。在打开2颗酸橙味糖果后,鱼是可能性最大的。打开3颗后,A5(可怕的全酸橙糖果袋)是可能性最大的。连续10次之后,我们认命了。图20-Ib表示我们对下一颗糖果为酸橙味的概率预测,它基于式(20-2)o正如我们所料,它单调递增,并渐近于1。121我们事先说明过糖果袋中的糖果数目非常多;否则,独立同分布的假设将不成立。严格来说更为正确(但是更不卫生)的做法是在分辨出糖果口味后重新包装糖果并放回袋中。观测d的数所圣窣匚u_ _ 一 9 8 7 SaaI 6 5 O.asws逑w 京 GI 工(a)(b.)图20l(a)根据式(20-1)得到的后验概率Pmj4,,4观
8、测数量N为I10,且每一个观测都是酸橙味的糖果。(b)基于式(20-2)的贝叶斯预测P(DNX=Hme:4,,dj这个例子表明,贝叶斯预测最终会与真实的假设吻合。这是贝叶斯学习的一个特点。对于任何固定的先验,如果它没有将真实的假设排除在外,那么在一定的技术条件下,错误假设的后验概率最终会消失。有这样的结果仅仅是因为无限地生成“反常的”数据的概率非常小。(这一点类似于第19章中关于PAC学习的讨论。)更重要的是,无论数据集大小,贝叶斯预测都是最优的。给定了假设先验之后,任何其他预测都不太可能正确。当然,贝叶斯学习的最优性是有代价的。对于真实的学习问题,如我们在第19章中所见,假设空间通常非常大或
9、无限大。在某些情况下,式(20-2)中的求和(或连续情况下的积分)可以容易地计算,但在大多数情况下,我们必须采用近似或简化的方法。一种常见的近似方法(在科学研究中经常采用的)是,基于单个可能性最大的假设使常仇据大化的进行预测。这样的假设通常被称为最大后验(maximumaposteriori,MAP)假设。从产(Xlrf)P(XAAP)的意义上来说,由MAP假设%”所做出的预测近似于贝叶斯方法所做出的预测。在我们的糖果例子中,在连续3次观测到酸橙糖之后有MAP=%5,因此MAP学习器预测第四颗糖果是酸橙糖的概率为1。这比图20-Ib所示的贝叶斯预测概率0.8更有风险。随着数据量越来越多,MAP
10、预测和贝叶斯预测将变得越来越接近,因为与MAP假设竞争的其他假设的可能性越来越低。找到MAP假设通常比贝叶斯学习更简单(尽管在这个例子中没有体现),因为它仅要求求解一个优化问题,而不是一个大规模求和或积分的问题。在贝叶斯学习和MAP学习中,假设先验P(4)都起着重要的作用。我们在第19章中看到,当假设空间表达能力过强时,也就是说,当它包含许多与数据集高度一致的假设时,可能会出现过拟合。贝叶斯学习和MAP学习利用先验知识来约束假设的复杂性。通常情况下,越复杂的假设对应的先验概率越低,其中部分原因是它们数量太多了。但是,越复杂的假设拟合数据的能力越强。(一个极端的例子是,查表法可以精确地拟合数据。
11、)因此,假设的先验体现了假设的复杂性与其数据拟合程度之间的权衡。在逻辑函数的情况下,即“只包含确定性的假设(例如/表示所有的糖果都是樱桃味),我们可以更清楚地看到这种权衡的效果。在这种情况下,如果假设用是一致的,邮则为1,否则为0。此时注意式(20-1),我们发现既必尸将是与数据一致的最简单的逻辑理论。因此,最大后验学习自然体现了奥卡姆剃刀。另一个看待复杂性和拟合程度之间权衡的观点通过对式(20-1)的两边取对数体现。此时,选择使PI幻P仇)最大化的72MAP等价于最小化下式:-IofeP(dIl)-log,P(hh利用我们在19.3.3节中介绍的信息编码和概率之间的联系,我们可以看至卜1。即
12、P仇)等于说明假设用所需的位数。此外,ToeP(dM)是给定假设时说明数据所需的额外位数。(为了更好理解,我们可以考虑,如果假设确切地预测了数据,就好像假设为后和一连串出现的酸橙味糖果一样,那么此时我们不需要任何额外位数,贝MogJ=0。)因此,MAP学习所选择的是能最大程度压缩数据的假设。同样的任务可以通过称为最小描述长度(MDL)的学习方法更直接地阐述。MAP学习通过给更简单的假设赋予更高的概率来体现其简单性,而MDL则通过计算假设和数据在二进制编码中的位数来直接体现简单性。最后一个简化是通过假定假设空间具有均匀先验分布得出的。在这种情况下,MAP学习被简化为选择一个使PaI外最大的团。这
13、就是所谓的最大似然(maximum-likelihood)假设,Amlo最大似然学习在统计学中非常常用,是许多不相信假设先验主观性质的研究者所使用的准则。当没有理由采用某个先验或倾向于某个假设(例如所有的假设都同样复杂)时,最大似然是一个合理的方法。当数据集很大时,假设的先验分布就不那么重要了,因为来自数据的证据足够强大,足以淹没假设的先验分布。这意味着在大数据集的情况下,最大似然学习是贝叶斯学习和MAP学习的一个很好的近似,但在小数据集上可能会出现问题(我们将在后面看到)。1.2完全数据学习假设我们要学习一个概率模型,给定数据是从该概率模型生成的,那么学习这个概率模型的一般性任务被称为密度估
14、计(densityestimation)0(密度估计最初用于连续变量的概率密度函数,但现在也用于离散分布。)密度估计是一种无监督学习。本节将介绍其最简单的情形,即拥有完全数据的情形。当每个数据点包含所学习的概率模型的每个变量的值时,我们称数据是完全的。对于结构固定的概率模型,我们注重于参数学习(parameterlearning),即寻找其参数数值。例如,我们可能对学习具有给定结构的贝叶斯网络中的条件概率感兴趣。我们还将简要地探讨结构学习和非参数密度估计问题。1.2.1 最大似然参数学习:离散模型假设我们从一个新的生产商手中买入了一袋可能含有樱桃味和酸橙味糖果的糖果袋,其中糖果口味的比例完全未
15、知。樱桃味糖果所占的比例可以是0和1之间的任意一个数。在这种情形下,我们将有一个连续的假设集。这种情况下的参数记为仇表示樱桃味糖果所占的比例,其对应的假设为心。(此时酸橙味糖果所占的比例恰好为1-仇)如果我们假设所有的比例有相同的先验可能性,那么采用最大似然估计是合理的。如果我们使用一个贝叶斯网络对这种情境建模,则只需要一个随机变量一力次(对应于从袋中随机选取一颗糖果的口味),它的值为Cherry或者Iime,其中CheiTy的概率为。(见图20-2a)。现在假设我们已经打开了N颗糖果,其中有C颗为樱桃味,=乂颗为酸橙味。根据式(20-3),该特定数据集的似然为PW也)=11p(4也)=为。4
16、片1最大似然假设所需的参数即为使得上式最大化的参数仇由于Iog函数是单调函数,我们可以通过最大化对数似然(loglikelihood)来得到同一个参数值:N1.(dIh)=logP(h)=XlogP(ty)=clog。+2log(l-)7三1(通过取对数,我们把数据乘积归约为数据求和,通常这更易于我们将其最大化。)为寻找使得似然最大的仇我们对L关于龌行微分并令其微分结果为0:dL(dh0)cZdf).0-0那么最大似然假设力ML将断言,糖果袋中樱桃口味的真实比例是到目前为止所打开观测到的糖果中樱桃口味的占比!从表面上看,我们做了大量的工作却得到了一些看上去很显然的结果。但实际上,我们已经给出了
17、最大似然参数学习的标准方法,这是一种应用范围广泛的方法。(1)将数据的似然写成关于参数的函数的形式。(2)写下对数似然关于每个参数的导数。(3)解出使得导数为0的参数。最后一步通常是最棘手的一步。在我们的例子中它是简单的,但我们即将看到,在很多情形下我们需要使用迭代求解的算法或其他数值优化方法,正如我们在4.2节所提到的。(我们将需要验证其黑塞矩阵是负定的。)这个例子还说明了最大似然学习中普遍存在的一个重要问题:当数据集非常小以至于一些事件还未发生时如,还没有樱桃味的糖果被观测到最大似然假设将把这些事件的概率置为0。有很多技巧可以用于避免这个问题,例如,我们可以将所有事件发生次数的计数初始化为
18、1而不是0。图202(a)樱桃味糖果和酸橙味糖果比例未知情况下的贝叶斯网络。(b)包装颜色(依概率)与糖果口味相关情况下的模型让我们来看另一个例子。假设一个新的糖果生产商希望通过使用红、绿两种不同颜色的糖果包装来给顾客一点关于口味的小提示。在选定一颗糖果后,其包装在概率上服从某个未知的条件分布,该分布取决于糖果的口味。图20-2b给出了对应的概率模型。该模型有3个参数,即0、4和劣。有了这些参数,我们可以从贝叶斯网络的标准语义(见13.4节)中得到观测到一颗带有绿色包装的樱桃味糖果的似然:P(FlaVor=cherry,FFropper=green|力4可为)=P(Flavor=cherryh
19、f2)P(Wrapper=greenFlavor=Cherry,力仇即&)=e(-4)现在假设我们打开了N颗糖果,其中C颗是樱桃味的,0颗是酸橙味的。包装的计数如下:仁颗樱桃味糖果的包装为红色,/颗樱桃味糖果的包装为绿色,颗酸橙味糖果的包装为红色,处颗酸橙味糖果的包装为绿色。则该数据的似然为Pml%岛a)二夕。一切.毋a-卢毋a-2r这个式子看起来非常糟糕,取对数会有帮助:=fClOg6+log(l-0)1+rclog+gelog(l-4)+rflog仇1Og(I-取对数的好处显而易见:对数似然的具体形式是3项求和,其中每一项包含单独的一个参数。当我们令对数似然对每个参数求导并置为0时,我们得
20、到3个独立的方程,其中每一个方程只含有一个参数:C-0-S-C-Uc+2_gc_0-S4?C714i-a1rcSc=L-=O=2=1一仇+g,其中参数。的结果与上一个例子相同。参数&的解,即一个樱桃味糖果有红色包装的概率,是观测到的樱桃味糖果中红色包装的比例,参数劣的解也与之类似。这些结果看上去非常简洁,并且容易发现我们可以将它推广到任意的条件概率以表格形式呈现的贝叶斯网络。其中一个最关键的要点在于,一旦我们有了完全数据,贝叶斯网络的最大似然参数学习问题将可以被分解为一些分离的学习问题,每个问题对应一个参数。(非表格形式的情形见习题20.Nc)RX,其中每个参数将影响若干个条件概率。)第二个要
21、点是,给定其父变量,变量的参数值恰好是该变量值在每一个父变量值下观测到的频率。和之前所提到的一样,当数据集很小时,我们仍要小心地避免出现0次事件的情况。1.2.2 朴素贝叶斯模型机器学习中最常用的贝叶斯网络模型是在第13章中介绍过的朴素贝叶斯模型。在该模型中,类变量C(将被预测)称为根,“属性”变量X,称为叶。该模型被称为是“朴素的。因为它假设属性在给定类的情况下是相互条件独立的。(图20-2b中给出的模型是一个朴素贝叶斯模型,具有类产/卯”和唯一属性WWP)在变量为布尔变量的情况下,其参数为O=P(C=true),OiI=P(Xi=trueC=true),n=P(Xi=trueC=false
22、)寻找最大似然参数值的方法与图20-2b中使用的方法完全一样。一旦模型已经用该方法训练完成,它就可以被用于给类别C还未被观测过的新样例分类。当观测到的属性值为X,.,4时,其属于某一类的概率由下式给出:P(Cx1,-,xn)=P(C)11P(x1.C)通过选择可能性最大的类,我们可以获得一个确定性的预测。图20-3给出了将该方法用于第19章中的餐厅等待问题所得到的学习曲线。该方法学习得相当好,但不及决策树学习;这是合理的,因为真实的假设是一个决策树,而决策树不能被朴素贝叶斯模型准确地表达。朴素贝叶斯在很多实际应用中的表现令人吃惊,它的增强版(习题20.BNBX)是最有效的通用学习算法之一。朴素
23、贝叶斯可以很好地推广到大规模的问题上:当有个布尔属性时,我们只需要2+1个参数,且不需要任何的搜索就能找到朴素贝叶斯最大似然假设最后,朴素贝叶斯学习系统可以很好地处理噪声或缺失数据,并且能在这类情况发生时给出适当的概率预测。它们的主要缺点是,条件独立性假设在实际中通常不成立;正如我们在第13章中所说,该假设会导致对某些概率做出过度自信的估计,使得它们接近0或1,尤其是在具有大量属性的情况下。0.4IIIII020406080100训练集大小图203将朴素贝叶斯学习应用于第19章餐厅等待问题得到的学习曲线;决策树的学习曲线也在图中给出,用于比较1.2.3 生成模型和判别模型接下来我们将区分两种不
24、同的作为分类器的机器学习模型:生成模型与判别模型。生成模型(generativemodel)对每一类的概率分布进行建模,例如,12.6.1节中提及的朴素贝叶斯文本分类器,它为每个可能的文本类型建立一个单独的模型一个用于体育,一个用于天气,等等。每个模型包含该模型对应类的先验,例如P(CRegory=Weather),以及对应的条件分布P(建心ICategory=weather)o根据这些我们可以计算出联合概率P(即心,Category=weather),并且我们可以随机生成Weather类别文章中有代表性的单词。判别模型(discriminativemodel)直接学习类别之间的决策边界,即学
25、习P(CafegaTl/印打)。给定一个输入样例,一个判别模型将会输出一个类别,但你不能使用判别模型生成某个类别下具有代表性的单词。逻辑斯谛回归、决策树以及支持向量机都是判别模型。由于判别模型把所有的精力都放在定义决策边界上,也就是说,它们实际所执行的任务就是我们要求它们执行的分类任务,因此在训练数据集可以任意大的情况下,它们往往在极限情况下表现得更好。然而在数据有限的情况下,生成模型有时会表现得更好。吴恩达和乔丹(NgandJordan,2002)在15个(小)数据集上比较了生成模型(朴素贝叶斯分类器)和判别模型(逻辑斯谛回归分类器)的表现,发现在使用了全部数据的情况下,判别模型在15个数据
26、集中的9个数据集上表现得更好,但在只使用少量数据的情况下,生成模型在15个数据集中的14个上表现更好。1.2.4 最大似然参数学习:连续模型例如我们在第13章中介绍的线性高斯模型,它是一种连续概率模型。由于连续变量在实际应用中普遍存在,因此了解如何从数据中学习连续模型的参数是非常重要的。最大似然学习的原理在连续和离散情况下是相同的。让我们从一个非常简单的例子入手:学习单变量高斯密度函数的参数。也就是说,我们假设数据按如下分布生成:P(X)=-U-e2N1 *广炉l = ,S-7=e 1 Cy2t这个模型的参数为均值以及标准差仇(注意,归一化常数取决于E因此我们不能忽略它。)假设我们有观测值处,
27、布。那么其对数似然为=N(-log2-log)-l2cr我们像一般做法所做的那样令其导数为0,得到LL*2 (Xi)=O(20-4)也就是说,均值的最大似然值正是样本均值,标准差的最大似然值是样本方差的平方根。同样,这些结果证实了我们的“常识L现在考虑一个线性高斯模型,它有一个连续的父变量X和一个连续的子变量匕如1323节所述,Y服从高斯分布,其均值线性地依赖于X,其标准差是固定的。为了学习条件分布P(WX),我们可以最大化条件似然:P(y I x)=T=e2?2(20-5)其中参数为“、仇和心数据是(小万)对的集合,如图20-4所示。运用一般的方法(习题20.LINR),我们可以找到参数的最
28、大似然值。但这个例子的重点在于,如果我们仅考虑定义X和y之间线性关系的参数&和劣,那么最大化这些参数的对数似然与最小化式(20-5)中指数的分子8-(8活+%)2是等价的。这恰好是上损失,即实际值y和预测值。送+冬之间的平方误差。a)图204(a)高斯线性模型,它表述为y=03+加上固定方差的高斯噪声。(b)由该模型生成的50个数据点,以及它的最佳拟合直线这也恰好是19.6节中所描述的标准线性回归过程要最小化的量。现在我们得到了更深刻的理解:如果数据的生成过程带有固定方差的高斯噪声,那么最小化误差平方和恰好给出最大似然线性模型。1.2.5 贝叶斯参数学习最大似然学习方法虽然过程简单,但在小数据
29、集情况下存在严重缺陷。例如,在观测到一颗樱桃味的糖果后,最大似然假设认为该袋子中100%都是樱桃味糖果(即,O=LOO除非其假设先验是糖果袋中要么全为樱桃味糖果要么全为酸橙味糖果,否则这将是一个不合理的结论。而更有可能的情况是,这个糖果袋混合了酸橙味和樱桃味的糖果。基于贝叶斯方法的参数学习过程从一个关于假设的先验分布开始,随着新数据出现而不断更新该分布。图20-2a中的糖果例子有一个参数必随机挑选一颗糖果,它为樱桃味的概率。从贝叶斯角度看来,。定义了假设空间,。是随机变量Q的一个未知值;假设的先验是先验分布P()。因此,P(=为是糖果袋中含有。比例的樱桃味糖果的先验概率。如果参数。可以是介于0
30、和1之间的任意一个值,那么P()将是一个连续的概率密度函数(见附录A.3)。如果我们对。的可能的值没有任何的信息,那么我们可以采用均匀分布P(=UE祇皿。;0,乍为先验,它意味着任何取值都是等可能的。B分布(betadistribution)是一个更为灵活的概率密度函数族。每个B分布由两个超参数国(hyperparameter)和匕定义:3它们被称为超参数,是因为它们参数化了。的分布,而本身就是一个参数。Beta(;a,b)=aa-i(-外H(20-6)其中。的取值范围为0,lo。为归一化常数,它使得分布的积分为1,它取决于。和。图20-5给出了在不同的4和。取值下分布的情况。B分布的均值为R
31、S+与,因此较大的。值表明更靠近1。较大的。+匕值会导致分布有更突出的尖峰,这也意味着对。估计更确定。容易发现,均匀分布密度函数与BeS(1,1)相同:平均值为1/2,且分布平坦。图20.5不同(ab)下Betaa,6)分布的例子除灵活性以外,B分布族还有一个很好的性质:如果参数Q有先验Beta(a,b),那么在一个数据点被观测之后,其参数。的后验分布仍是一个B分布。换句话说,B分布在这种更新规则下是封闭的。B分布族被称为布尔变量分布族的共飘先验(conjugateprior)o凹为了弄清楚这一点,假设我们观测到了一颗樱桃味的糖果,那么我们有4其他的共轨分布族包括关于离散多元分布参数的狄利克雷
32、分布族以及关于高斯分布参数的正态威沙特分布族。详见(BemardoandSmith,1994)P(ID1=cherry)=aP(DI=cherry)P()=a,Beta(afb)=a,ffll(l-)bl=a,0a(l-钟T=afBeta(1,6)因此,在观测完这个樱桃味的糖果后,我们简单地增大了参数。的值;同样,在观测到一颗酸橙味的糖果之后,我们增大参数匕的值。因此,我们可以将超参数。和。看作虚拟计数(Virtualcount),因为先验分布Beta(a,勿可被视为是从均匀分布先验反S(L1)出发,并且已经“虚拟”地观测到a-1次樱桃味糖果和b-1次酸橙味糖果。保持和两者比值不变,不断增大和
33、从通过观测一系列B分布,我们可以清楚地观测到参数。的后验分布随着数据增多的变化情况。例如,假设实际上一袋糖果中75%是樱桃味糖果。图20-5b显示了序列&f(3,1)Beta(6t2)、Beta(30f10)0显然,该分布正向着以参数9真实值为中心的窄峰收敛。因此,对于大数据集,贝叶斯学习(至少在这种情形下)所收敛到的值与最大似然学习相同。现在让我们考虑一个更复杂的例子。如图20-2b所示的网络有3个参数,0、&和2,其中以代表樱桃味糖果中包装为红色的概率,为代表酸橙味糖果中包装为红色的概率。贝叶斯假设的先验必须包含3个参数,也就是说,我们需要确定P)。一般来说,我们会假定参数独立性:P(1,
34、d)=Zwg)P)有了这个假设,每个参数就可以有它自己的B分布,且当新数据产生时可以独立地进行更新。图20-6展示了如何将假设先验和任意数据合并到贝叶斯网络中,其中每个参数变量都对应一个节点。图206与贝叶斯学习过程对应的贝叶斯网络。后验分布的参数6、,和&谍F根据它们的先验分布以及数据Fla和WraPPeri进行推断节点Q、碑口的有父节点。我们加入节点Wn驴p)与FZmg用于表示第i个被观测到的糖果包装以及对应的糖果口味。巴如也取决于口味对应的参数。:P(Flavori=cherry=)=Wrapper决于参数。和):P(Wrapperi=redFlavori=cherry,x=)=P(Wr
35、apperi=redFlavori=lime,I=&)=仇现在,图20-2b中原始贝叶斯网络的整个贝叶斯学习过程就可以按图20-6所示的方法表示为派生贝叶斯网络中的推断问题,其中数据和参数在该网络中以节点形式存在。在我们将所有的新信息添加为节点后,我们可以开始考虑参数变量(在该例子中即为。、乱和。在这种表述下我们只需要考虑唯一的学习算法贝叶斯网络的推断算法。当然,这样构建出来的网络的性质与第13章中所描述的网络有些不同,因为代表训练集的信息变量的数量可能很大,而且连续值参数变量也普遍存在。精确的推断通常不可能实现,除非是在非常简单的情形下,如朴素贝叶斯模型。实际建模中通常会使用近似的推断方法,
36、如MCMC(13.4.2节);为此,许多统计软件包也提供了MCMe的高效实现。1.2.6 贝叶斯线性回归在本节中我们将介绍如何将贝叶斯方法应用于标准统计任务:线性回归。我们在19.6节中介绍了最小化误差平方和的传统方法,并在2024节中将其重新解释为求解带有高斯误差的模型的最大似然。这些方法都给出了单独的最佳假设:一条具有特定斜率和截距值的直线,以及一个固定的数据预测误差的方差。这些方法没有提供对于斜率和截距值的置信度的度量。此外,如果要预测一个离现有数据点很远的新数据点的函数值,则假设该点的预测误差与已观测数据点附近的数据点的预测误差相同似乎是没有道理的。一个更合理的情况应该为数据点离观测数
37、据越远,则其预测误差越大,因为斜率的微小变化将导致较远的数据点的预测值发生较大变化。贝叶斯方法解决了这两个问题。如前一节所述,其总体思路是为模型参数线性模型系数和噪声方差提供先验,然后在给定数据的情况下计算参数的后验概率值。对于多元数据和噪声模型未知的情况,这种做法会导致相当复杂的线性代数运算,所以我们现在将着眼于一个简单的情况:单变量数据,其模型被约束为必经过原点,且噪声模型已知个方差为J的正态分布。那么我们将只有一个参数。且模型可以表示为1(Wx)(20-7)Pyx,0)=N(y;x.1y)=因为对数似然中参数。的次数为二次,因此参数。的一个合适的共胡先验将也是高斯分布。这将确保。的后验分
38、布也是高斯的。我们给定参数先验分布的均值%和方差端,那么其先验为.尸、P(6)=N(,q,)=一=eiJ271(20-8)基于即将被建模的数据,人们可能对参数。应当选取什么样的值有一定想法,又或者对它完全没有想法。如果是后一种情况,那么将依置为0且选择较大的或是一个比较合理的方法,即所谓的无信息先验(uninformativeprior)o最后,我们可以为每个数据点的X值设置一个先验尸(%),但是这对分析来说是完全无关紧要的,因为它不依赖于参数Oo现在我们已经完成了设定,可以利用式(20-1):P(OlOCP(d份P(计算参数0的后验分布。如果观测到的数据点为d=(MJi),(马,,“),那么
39、该数据集的似然可以由式(20-7)得到,如下式所示:1(M-%)-0i) 2尸(例)=(。?(七)。尸(切肉,夕)=21认,=ae其中我们已经将数据X的先验以及N元高斯的归一化系数归结为常数d它与参数例虫立。现在我们将该式与式(20-8)所给的参数先验相结合,得到其后验:P(d)=a,eiQM这看起来较为复杂,但实际上其每一个指数部分都是关于参数。的一个二次函数,因此对指数进行求和也将是一个二次函数。由此,。后验分布也将是一个高斯分布。利用与14.4节中相似的代数方法,我们可以得到-尸P(Irf)=*e成其中“更新”后的均值与方差为_,6。+笳ZQN-+旧;和)+隹片让我们进一步考虑这些等式的
40、意义。当数据紧密地集中在X轴上原点附近的某个小邻域内时,2落2将会很小,而后验方差bj将会较大,基本上等于先验方差4。这与我们所设想的相一致:数据对直线围绕原点的旋转影响较小。相反地,如果数据在坐标轴上的分布范围很广,那么4将会较大,且后验方差bj将会较小,近似等于b2(j),即数据对模型的斜率会有较严格的约束。为了预测某个特定数据点的函数值,我们需要对所有参数。的可能值进行积分,正如式(20-2)所示:P(jx,rf)=P(yX9d9)P(x9d)dFPyIx,)P(d)dIJ-OOJ-8=etGJdo同样的,这两个指数的和仍是关于参数。的二次函数,因此参数。的分布仍为高斯分布,且积分为1。
41、剩下的与),相关的一项来源与另一个高斯分布:P(VI %,d) 8 e1 1(尸为尸 22+z通过观察这个表达式,我们可以发现),的预测的均值为。炉,也就意味着它取决于参数。的后验均值。预测的方差等于模型噪声方差/加上与X2成正比的一项,这也意味着预测的标准差将随着数据与原点距离的增加而渐近线性地增加。图20-7说明了这种现象。正如我们在本节开头所提到的,对距离较远的观测点进行观测具有更大的不确定性是有据可依的。图207贝叶斯线性回归模型,它被约束为经过原点且噪声方差固定为M=O.2。误差为土1、2和3个标准差的密度预测等高线也在图中给出。(a)其中3个数据点距离原点较近,因此斜率相当不确定,
42、其方差bj38610注意,当离观测到的数据点距离增大时,预测的不确定性也逐渐增大。(b)相比前一幅图多出两个距离较远的数据点,此时斜率。被较严格地约束,其方差为iQ0.0286。密度预测中剩余的方差几乎完全来源于噪声的固定方差M1.2.7 贝叶斯网络结构学习到目前为止,我们都假设贝叶斯网络的结构是事先给定的,我们只试图学习其中的参数。网络结构代表了待解决问题的相关领域的基本因果知识,对专家或者一些用户来说,这些因果知识可能是简单的,容易得到的。但在某些情况下,因果模型可能是不可用的或存在争议的(例如,某些公司长期以来一直声称吸烟不会导致癌症;某些公司声称二氧化碳浓度对气候没有影响),因此,从数
43、据中学习贝叶斯网络的结构是非常重要的。本节将简要概述该方面的一些主要思想。最直白的方法是通过搜索得到一个好的模型。我们可以从一个不包含任何链接的模型出发,逐步为每个节点添加父节点,并用我们刚刚介绍的方法估计参数,并评估所得模型的准确性。或者,我们可以从我们对结构的某个原始的猜测出发,使用爬山算法或模拟退火搜索对其进行修改,并在每次结构修改后重新调整参数。其中结构修改可以包括反转、添加或删除链接。在这个过程中,我们不能产生环,因此许多算法都假设变量的顺序是给定的,并且一个节点的父节点只可能是在序关系中排在该点之前的点(就像第13章中描述的构造过程一样)。为保证一般性,我们的搜索还需要遍历所有可能
44、的序关系。有两种方法可用于判断我们某个时刻找到的模型是否有一个好的结构。第一个方法是检验数据是否满足了该结构中所隐含的条件独立性。例如,对餐厅等待问题使用朴素贝叶斯模型时,我们假设:P(HungryfBarWillWait)=P(HiInryWillWait)P(BarWillWaii)我们可以检验在数据中相同的等式在相应的条件频率之间是否成立。但是,即使结构准确描述了该领域的真正因果关系,数据集中的统计波动也会使得等式永远不会精确地成立,因此我们需要进行适当的统计检验以判断是否有足够的证据表明独立性假设不成立。所得网络的复杂性将取决于此检验使用的阈值独立性检验越严格,添加到模型中的链接就越多
45、,也就可能导致更高程度的过拟合。更符合本文思想的方法是评估所得模型对数据的解释程度(在概率意义上),但我们必须谨慎地考虑如何度量这一点。如果我们只试图找到最大似然假设,那么我们最终会得到一个完全连通的网络,因为向一个节点添加更多的父节点并不会导致似然降低(习题20.MLPA)。因此我们必须以某种方式对模型的复杂性进行惩罚。MAP(或MDL)方法只是简单地在比较不同结构之前从每个结构对应的似然中减去一个惩罚(在参数估计之后)。贝叶斯方法赋予结构和参数一个联合先验分布,这通常会导致有太多的结构需要进行求和(结构数量关于变量数量是超指数级的),所以在实践中大多数人采用MCMC的方法对结构进行采样。复
46、杂性惩罚(无论是通过MAP或贝叶斯方法得到的)表明了网络中条件分布的最优结构和表示性质之间的重要联系。对于表格化的分布,对节点分布的复杂性惩罚将随着父节点数的增加而呈指数增长,但是对于噪声或分布,它的增长速度只是线性的。这意味着,与使用表格化分布的学习相比,使用噪声或(或其他简洁的参数化)模型的学习往往会学习到具有更多父节点结构。1.2.8 非参数模型密度估计通过采用19.7节中的非参数方法,我们可以学习到一个概率模型,而无须对其结构和参数化有任何假设。非参数密度估计(nonparametricdensityestimation)任务通常需要在连续域中完成,例如图2(j-8a所示。该图给出了由
47、两个连续变量定义的空间上的概率密度函数。在图20-8b中,我们可以看到采样于该密度函数的数据点。我们要考虑的问题是,是否能从样本中复原模型。图208(a)图20-12a中所给出的混合高斯模型的三维样貌。(b)从混合高斯模型中采样的128个数据点、两个查询点(小方块)以及它们的10近邻(大圆圈以及右边的小圆圈)首先我们将考虑欠近邻模型。(在第19章中我们介绍过将最近邻模型用于分类与回归;在这里我们将看到它们如何应用于密度估计。)给定一组数据样本点,为估计某个查询点”的未知概率密度,我们可以简单地估计数据点落在查询点X附近的密度。图20-8b中标出了两个查询点(用小方块标记)。对于每个查询点,我们画出了以它为圆心且至少包含10个近邻的最小