第11章多元线性回归.ppt

上传人:夺命阿水 文档编号:680349 上传时间:2023-10-12 格式:PPT 页数:39 大小:317.50KB
返回 下载 相关 举报
第11章多元线性回归.ppt_第1页
第1页 / 共39页
第11章多元线性回归.ppt_第2页
第2页 / 共39页
第11章多元线性回归.ppt_第3页
第3页 / 共39页
第11章多元线性回归.ppt_第4页
第4页 / 共39页
第11章多元线性回归.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《第11章多元线性回归.ppt》由会员分享,可在线阅读,更多相关《第11章多元线性回归.ppt(39页珍藏版)》请在课桌文档上搜索。

1、第十一章多元线性回归(简介),当研究两个变量间的线性关系时,直线回归是回归分析中最简单的一种。直线回归主要研究一个应变量(dependent variable)与一个自变量(independent variable)间的线性趋势的数量关系。生物医学研究中,常遇到一个应变量与多个自变量数量关系的问题。,收缩压与年龄和体重的关系、血糖的变化与胰岛素、生长素等因素有关。肺活量与身高、体重、胸围的关系;胃癌术后效果与癌组织类型、浸润程度、肉芽反应、有无淋巴转移等因素有关;,例如:,用线性方程表达一个应变量与一组自变量的数量关系,就是多元线性回归(multiple linear regression),

2、常简称为多元回归(multiple regression)。,设应变量为Y,自变量为:X1,X2,Xk,Y与自变量X1,X2,Xk 的多元回归,就是指 Y与 k 个自变量X1,X2,Xk 有如下线性关系:,多元线性回归方程:,式中 是为Y的估计值或预测值(predicted value),表示当给定各自变量的值时,因变量Y 的估计值;b0 为截距,在回归方程中又称为常数项,表示各自变量均为0 时Y 的估计值;bi 称为偏回归系数(partial regression coefficient),简称为回归系数,表示其它自变量不变时,Xi 每改变一个单位,Y 的平均变化量。,原始资料作多元线性回归

3、分析,理论上应满足的条件有:,1)线性(linear),因变量与自变量的关系是线性的;2)独立性(independence),随机误差项在不同样本点之间是独立的,无自相关;3)正态性(normality),随机误差项服从均数为零、方差为2的正态分布;,4)方差齐性(equal variance,or homogeneity),随机误差项在不同样本点的方差相等。以上四个条件缩写为LINE,与直线回归中的条件是相同的。如果目的是建立多元回归方程,探讨自变量与因变量间的数量关系,而无需根据自变量的取值预测因变量的容许区间、可信区间等,则后两个条件可以适当放宽。,多元回归方程的资料格式例号y x1 x

4、2 xk 1 y1 x11 x21 x1k 2 y2 x12 x22 x2k n yn xn1 xn2 xnk,例11.1同样身高的20名健康男子的收缩压、年龄和体重的测量结果见表。试建立收缩压与年龄和体重之间的多元线性回归方程。,偏回归系数的估计,回归分析的目的之一就是要建立一个回归方程,以使研究人员能够根据已知的自变量去预测因变量的取值。回归系数的估计仍然用最小二乘法(LSM)。(计算方法略),20名建康男子的收缩压、年龄和体征的测定值,编号 收缩压y 年龄x1体重x2 1 15.60 50 76.0 2 18.80 20 91.5.20 19.19 43 85.5 用最小二乘法(meth

5、od of least square)求解b1、b2、b0得:,在该方程中,b1=0.0546,表示在体重不变的前提下,年龄每增加1岁,收缩压平均增加0.0546(kPa);b2=0.1944(kg),表示在年龄不变的情况下,体重每增加1kg,收缩压平均增加0.1944(kPa)。,截距b0=-0.6815,表示X1,X2 都为0 时,Y 的估计值,在这里没有实际意义,是根据方程估算出来的值。例如,当X1=50,X2=80 时,=17.60,表示对所有年龄为50岁,体重为80kg 的男子,估计平均收缩压为17.60(kPa)。,二、多元回归方程统计学意义的假设检验,假设检验包括多元回归方程的假

6、设检验与偏回归系数的假设检验。多元回归方程的假设检验常用方差分析:ANOVA(方差分析表)变异来源 Sum of squares df Mean Square F PRegression 33.65 2 16.82 11.31 0.0008Residual 25.28 17 1.49 Total 58.93 19,偏回归系数的假设检验用t检验:Coefficients(参数估计)Unstandardized Standardized Coefficients Coefficients Bota b std.Error b t P 偏回归系数b的标准误标准化偏回归系数Constant-0.681

7、5 3.9017-0.175 0.8634 X1 0.0546 0.0241 0.3667 2.268 0.0366 X2 0.1944 0.0429 0.7323 4.530 0.0003,三、标准化偏回归系数,由公式求出的偏回归系数的绝对值大小与自变量的度量单位有关,因而偏回归系数大的应变量未必对应变量y的线性影响也大。当自变量之间不存在较强的相关关系时,可以计算每一个自变量的标准化偏回归系数。具有较大标准化偏回归系数的自变量对应变量y的影响相对较大。,四、复相关系数,在多元线性回归分析中,直接建立Y 与全部自变量之间的线性回归模型通常是不可取的,因为不能说这些自变量对建立回归模型都是必要

8、的。因此,在建立回归方程的过程中有必要考虑对变量进行筛选,从许多自变量中挑选出对Y 有影响的自变量,有利于提高回归方程的质量。,一般来说,当回归方程中自变量个数增加,或多或少总能减少剩余误差,提高模型的拟合精度,但势必导致模型的复杂性。因此,在建立回归方程时,要遵循一个原则,即“少而精”。具体地说:既要尽可能地提高拟合的精度,又要尽可能地使模型简单。这就需要有一些量化的标准来衡量所得模型的“优劣”。目前,常用的衡量方程“优劣”的标准有复相关系数。,复相关系数(multiple correlation coefficient)用R表示,取值在01之间。表示m个自变量共同对应变量y的相关密切程度。

9、复相关系数的平方R2称为决定系数(coefficient of determination),R2表示回归平方和在y的总变异中所占的比重。用R2可定量评价y的总变异能被x1、x2、xm解释的比重。如本例R2=0.5709,可知由年龄和体重可解释该组观察对象收缩压变异的57.09%。,第二节多元逐步回归,一、多元逐步回归的基本思想逐步回归(stepwise regression)是从众多的回归模型中快速地选出“最优”模型而提出的一种策略算法。它是将自变量一个一个引入方程,引入变量的条件是该自变量对应变量的影响经检验是有统计学意义的。用该方法建立的回归方程一般具有较少的自变量,且变量之间具有较强的

10、相关关系的可能性较少。,当人们应用回归分析去处理实际问题时,经常碰到的重要问题就是选择自变量。一般说来,研究人员在设计、搜集资料时,常尽可能多地罗列出一切可能与因变量有关的自变量,生怕遗漏。事实上,其中有一些变量对应变量根本没有影响或影响很小,如果这些变量都进入回归方程,不但计算量大,而且模型参数的估计(偏回归系数)和预测的精度也会下降。因而在应用回归分析时,有必要对进入模型的自变量作精心选择。,前进法(step-up,forward-entry procedure)事先给定一个挑选自变量进入方程的标准。开始时,方程中除常数项外没有自变量,按各自变量对Y 的贡献大小由大到小依次挑选进入方程。每

11、选入一个变量进入方程,再重新计算方程外各自变量(扣除已进入方程的自变量影响)对Y 的贡献。直到方程外变量均达不到入选标准,没有自变量可被引入方程为止。该法只考虑选入变量,不考虑剔除。,对Y 贡献大者入选,计算方程外X对Y 的贡献,对Y 贡献大者入选,给定入选标准,直到方程外变量没有自变量可被引入,方程内无自变量,后退法(step-down,backward-elimination procedure)与前进法相反,后退法是事先给定一个剔除自变量的标准。开始全部自变量都在方程之中,按自变量对Y 的贡献大小由小到大依次剔除。每剔除一个自变量后,重新计算未被剔除的各自变量对Y 的贡献。直到方程中没有

12、自变量可被剔除为止。该法只考虑剔除自变量,不考虑进入。,对Y 贡献小者剔出,计算方程内X对Y 的贡献,对Y 贡献小者剔出,给定剔出标准,直到方程内无变量可剔出,全部自量都在方程内,逐步向前法(forward stepwise)本法事先给定一个剔选变量的标准。它不同于前进法,每选入一个自变量,都要对已在模型中的自变量进行检验,对低于剔除标准的变量要逐一剔除。,具体做法是,按自变量对Y 的贡献大小由大到小依次挑选进入方程;每选一个变量进入方程,则重新计算各自变量对Y 的贡献。并考察已在方程中的变量是否由于新变量的引入,其作用被新变量代替或部分代替,抑制了它的作用并退化为无意义。如果有,将它剔除并重

13、新计算各自变量对Y 的贡献。如仍有变量低于入选标准,则继续考虑剔除,直到方程内变量均符合入选标准,没有自变量可被剔除,方程外没有自变量可被引进为止。,选入方程外对Y 贡献大者剔出方程内对Y 贡献小者,计算方程内、外X对Y 的贡献,对Y 贡献大者入选,给定入选及剔出标准,直到方程内无变量可被剔出方程外无变量可被引入为止,方程内无自变量,逐步向后法(backward stepwise)本法亦事先给定一个剔选变量的标准,但思路与逐步向前法的方向正好相反。每剔除一个自变量,都要对方程外的自变量进行检验,对符合入选标准的变量要重新考虑选入。,具体做法是,开始时所有变量均在方程中,计算自变量对Y 的贡献,

14、并将贡献最小者剔除;每剔除一个变量,则重新计算各自变量对Y 的贡献,并考察方程外的变量;如符合入选标准,则将贡献最大的自变量选入,并重新计算各自变量对Y 的贡献;如仍有变量符合入选标准,则继续考虑选入,直到方程外变量均不符合入选标准,没有自变量可被引入,再考虑剔除。直到方程内没有变量可被剔除,方程外没有变量可被引进为止。,剔出方程内对Y 贡献小者选入方程外对Y 贡献大者,计算方程内、外X对Y 的贡献,对Y 贡献小者剔出,给定剔出及入选标准,直到方程内无变量可剔出方程外无变量可引入为止,全部自量都在方程内,常采用的剔选变量的标准有两种。一是假设检验的P 值,即对偏回归系数进行假设检验,P 值越小

15、则贡献越大,反之亦然。若自变量的P值小于事先给定的标准P 选(如0.05),则称符合入选标准,反之,如大于事先给定的标准,则不符合入选标准。二是偏回归平方和的检验统计量F,F 值越大则贡献越大,反之亦然。,理论上,剔除变量和选择变量是同一个界值。但实际分析时,可能会出现刚被剔除的变量,马上又被选入,从而使计算机进入“死循环”,特别是在界值附近时。为了避免这种情况的出现,总是选两个界值,一个用于剔除变量(P剔),一个用于选入变量(P选)。且P剔略大于P选,尤其是编写计算机程序时。,不同的逐步回归方法所得结果不尽相同;不同的界值所得结果不同;方程的优劣与界值F 的大小无必然联系;,应当注意:,逐步

16、回归所得方程不一定是真正最优的,而是局部的、相对的最优。因此,从寻求最优方程的角度说,界值要多取几个,以便得到多种不同组合的方程,从中找出“最优”,免得遗漏;从因素分析的角度看,多取几个界值,可以得到多组对因变量有统计学意义的变量组合,再结合逐步向前法和逐步向后法剔选变量的过程,可以得到更多的信息,找到最优方程的可能性也就大一些。,一般的做法是,先选择F=0,用逐步向前法剔选变量,看哪个变量先进入方程、每个变量进入方程时的F 值以及哪个变量先进入方程后又被剔除。再用逐步向后法逐个剔除变量,看哪个变量先被剔除方程、每个变量被剔除时的F 值以及哪个变量先被剔除后又被选入。然后,根据上述结果选择几个

17、不同的界值,再用逐步向前法和逐步向后法分别观察变量进出方程的情况。直至所得方程在专业上能得到较为合理的解释为止。,第三节多元回归分析的注意事项,一、多元回归的基本假定1.y,x1,x2,xm是正态分布的随机变量;2.自变量x1,x2,xm之间相互独立;3.mn。二、样本含量样本含量n是自变量m的310倍。,三、变量筛选1.因变量与自变量呈线性关系;2.选择适当的值(选入变量的entry值剔除变量的removal值);3.选择适当的变量筛选方法(逐步法、前进法、后退法)。四、自变量的联合作用分析主要靠医学专业知识或根据决定系数R2的大小判断。,五、自变量的共线性自变量之间存在较强的相关关系时,就称它们之间存在多重共线性。对存在多重共线性的一组自变量进行多元回归分析时,偏回归系数的估计值容易失真且稳定性差。1.在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义。2.偏回归系数的符号与医学专业知识不一致。但是也不排除因医学专业知识不全面而不能接受的情况。,1.应变量的变异可由自变量解释的比例;2.正确分析入选方程的自变量与应变量之间的关系;3.正确分析未入选方程的自变量与应变量之间的关系。,六、结果分析应注意的问题,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号