第7章自变量选择与逐步回归.ppt

资源描述

《第7章自变量选择与逐步回归.ppt》由会员分享，可在线阅读，更多相关《第7章自变量选择与逐步回归.ppt（64页珍藏版）》请在课桌文档上搜索。

1、第七章,自变量选择与逐步回归,多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的，但在许多回归分析的、应用中，由于没有清晰的理论依据，回归模型所包含的自变量难以预先确定，如果将一些不重要的自变量也引入方程，会降低模型的精度，因此选择有意义的自变量是回归分析的第一步。选择自变量的基本思路是：尽可能将回归效果显著的自变量选入回归方程中，将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。,第七章,第一节,机动目录上页下页返回结束,自变量选择对估计和预测的影响,在多元线性回归模型中，自变量的选择实质上就是模型的选择。,其中：Y是nx1的观测值，,X是nxm结构矩阵，并

2、假定X的秩为m。,现设一切可供选择的变量是t个,它们组成的回归模型称为全模型（记m=t+1),是mx1未知参数向量，,下面的回归模型称为选模型：,自变量的选择问题可以看成是这样二个问题：,究竟应用全模型还是用选模型；若用选模型，则究竟应包含多少变量最适合。如果全模型为真，而我们用了选模型，这就表示在方程中丢掉了部分有用变量，相反，如果选模型为真，而我们选用了全模型，这就表示在方程中引入了一些无用变量，下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。,为了讨论方便起见，先引入几个记号：,全模型中参数的估计：,其中：R(X)为矩阵X的秩。,在选模型中参数的估计：,在上的预测值

3、,分块矩阵求逆公式：,均方误差的概念,对无偏估计常用来衡量估计量的好坏，而对有偏估计则相应采用均方误差,而对有偏的估计，一般可用均方差去表明估计的好坏,在均方误差的意义下，预测的均方误差也是会下降。所以删去一些影响不大，但回归系数方差过大的变量（用为非负定矩阵来,表示）,对预测精度的提高是有利的.,综合以上所述,一般我们尽可能使模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利.,第七章,第二节,机动目录上页下页返回结束,自变量选择方法,自变量选择准则,若一个多元回归的问题中有t可供选择的自变量，那么所有可能的回归方程有 2

4、t-1个，下面给出一些自变量选择的准则，希望能从 2t-1个回归方程中选择一个最合理的方程.,对全模型，记：,对选模型，记：,准则1 平均残差平方和达到最小.,准则3 预测偏差的方差,准则4 平均预测均方误差Sp达到最小。,准则5 Cp统计量,准则7 AIC准则 AIC准则的定义：AIC=-2（模型的对数似然估计函数的极大值）+2（模型中独立参数的个数）,第七章,第三节,机动目录上页下页返回结束,逐步回归,一、全局选择法,对自变量各种不同的组合所建立的回归方程进行比较，从全部组合中挑出一个“最优”的回归方程。,R2可用来评价回归方程优劣。随着自变量增加，R2不断增大，对两个不同个

5、数自变量回归方程比较，须考虑方程包含自变量个数影响，应对R2进行校正。所谓“最优”回归方程指最大者。,1.校正决定系数选择法,2.选择法,P为方程中自变量个数。最优方程的Cp期望值是p+1。应选择Cp最接近P+1的回归方程为最优。,是由个自变量作回归的误差平方和，是从全部m个自变量的回归模型中得到的残差均方。,27名糖尿病人的血糖及有关变量的测量结果,全局择优法的局限性,如果自变量个数为4，则所有的回归模型有241 15个；当自变量数个数为10时，所有可能的回归为 2101 1023个；当自变量数个数为50时，所有可能的回归为25011015个。,二、逐步选择法,全局选择计算量很大：6

6、个变量，计算26-1=63个方程；10个变量，计算210-1=1023个方程。按选入变量顺序不同分前进法、后退法与逐步回归法，共同特点是每一步只引入或剔除一个自变量Xj。,对Xj的取舍要进行F检验：,计算进行到第l步时：p:方程中自变量个数SS回：Xj的偏回归平方和SS残：残差平方和,缺点：后续变量的引入可能使先前引入的变量变的不重要。,Xj入选,1.前进法（只选不剔）,自变量从无到有、从少到多,Y对每一个自变量作直线回归，对回归平方和最大的自变量作F检验，有意义（P小）则引入。,在此基础上，计算其它自变量的偏回归平方和，选取偏回归平方和最大者作F检验，,2.后退法（只剔不选）开始方程中包

7、含全部自变量，然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除，直至无自变量可以从方程中剔除为止。,缺点：当某些自变量高度相关时，可能得不出正确结果。,Xj剔除,3.逐步回归法（先选后剔，双向筛选）开始方程中无自变量，从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程；每引一个自变量进入方程后，从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除；直至方程外无自变量可引入，方程内无自变量可剔除为止。,入值定的越小选取自变量标准越严，被选入方程内自变量数越少。入值越大则反之。,小样本：入=0.05，出=0.10。大样本：入=0.10，出=0.1

8、5。入出，以免Xj上一步剔除后下一步又被选入,逐步回归法流程图,例,1.全回归,2.决定系数R2,血糖含量变异的60%可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。,选X4前先建立4个直线回归方程；选X1前先建立1个含3个自变量、3个含2个自变量的多元线性回归方程。,逐步回归法流程图,在自变量很多时，其中有的因素可能对应变量的影响不是很大，而且x之间可能不完全相互独立的，可能有种种互作关系。在这种情况下可用逐步回归分析，进行x因子的筛选，这样建立的多元回归模型预测效果会更较好。,逐步回归分析，首先要建立因变量y与自变量x之间的总回归方程，再对总的方程及每个自变量进行假设检验。当总的

9、方程不显著时，表明该多元回归方程线性关系不成立；而当某个自变量对y影响不显著时，应该把它剔除，重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量，并建立“最优”回归方程。,回归方程包含的自变量越多，回归平方和越大，剩余的平方和越小，剩余均方也随之较小，预测值的误差也愈小，模拟的效果愈好。但是方程中的变量过多，预报工作量就会越大，其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中，选择适宜的变量数目尤为重要。,例,变量说明如下：,1）准备分析数据在SPSS数据编辑窗口中，用“FileOpenData”命令,2）启动线性回归过程单击SPSS主菜单的“Anal

10、yze”下的“Regression”中“Linear”项,3)设置分析变量设置因变量：将左边变量列表中的“y”变量，选入到“Dependent”因变量显示栏里。设置自变量：将左边变量列表中的“x1”“x21”变量，全部选移到“Independent(S)”自变量栏里。设置控制变量:本例子中不使用控制变量，所以不选择任何变量。选择标签变量:选择“DIST”为标签变量。选择加权变量:本例子没有加权变量，因此不作任何设置。,4）回归方式在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验（F）的设置，在方程中进入或剔除单个变量，

11、直到所建立的方程中不再含有可加入或可剔除的变量为止。,5)设置变量检验水平“Options”,“Stepping Method Criteria”框里的设置用于逐步回归分析的选择标准。其中“Use probability of F”选项，提供设置显著性F检验的概率。如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的值，那么这个变量将被选入回归方程中；当回归方程中变量的F值检验概率大于剔除“Removal”栏里设置的值，则该变量将从回归方程中被剔除。由此可见，设置F检验概率时，应使进入值小于剔除值。,“Ues F value”选项，提供设置显著性F检验的分布值。如果一个变量的F值大于

12、所设置的进入值（Entry），那么这个变量将被选入回归方程中；当回归方程中变量的F值小于设置的剔除值（Removal），则该变量将从回归方程中被剔除。同时，设置F分布值时，应该使进入值大于剔除值。本例子使用显著性F检验的概率，在进入“Entry”栏里设置为“0.15”，在剔除“Removal”栏里设置为“0.20”（剔除的概率值应比进入的值大），如图2-89所示。,6）设置输出统计量“Statistics”,“Regression Coefficients”回归系数选项：“Estimates”输出回归系数和相关统计量。“Residuals”残差选项：其它输入选项“Model fit”输出相关系

13、数、相关系数平方、调整系数、估计标准误、ANOVA表。,7）绘图选项“Plots”8)保存分析数据的选项“Save”“Predicted Values”预测值栏选项：本例选中“Unstandardized”非标准化预测值。“Distances”距离栏选项：“Prediction Intervals”预测区间选项：“Save to New File”保存为新文件：“Export model information to XML file”导出统计过程中的回归模型信息到指定文件。本例不选。“Residuals”保存残差选项：“Influence Statistics”统计量的影响。,9）提交执行在主对话框里单击“OK”，提交执行，结果将显示在输出窗口中,10)结果分析主要结果:,逐步回归每一步进入或剔除回归模型中的变量情况,逐步回归每一步的回归模型的统计量：R 是相关系数；R Square 相关系数的平方，又称判定系数，判定线性回归的拟合程度：用来说明用自变量解释因变量变异的程度（所占比例）；Adjusted R Square 调整后的判定系数；Std.Error of the Estimate 估计标准误差。,逐步回归每一步的回归模型的方差分析,逐步回归每一步的回归方程系数表。,

展开阅读全文