《第10章线性回归分析.ppt》由会员分享,可在线阅读,更多相关《第10章线性回归分析.ppt(113页珍藏版)》请在课桌文档上搜索。
1、第10章 线性回归分析,例 设一个质点作匀速直线运动,其位移可以表示为S=+t。但在实验中由于受到环境等干扰因素的作用,在每一个时刻,人们观察到的不是准确的位移,而是具有误差S+,记这一观测值为Y,则所有观察数据满足,注意到各误差实际无法确切地知道,因此要确定质点的运动规律,需要使用回归分析的方法。,更一般地,回归分析在经济管理中常被用来分析变量之间的非确切对应的关系。,例 用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额与经营面积的比值对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰
2、富程度的满意度评分这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据,设各指标(变量)的变量名分别为:单位面积营业额:y,每小时机动车流量:x1,日人流量:x2,居民年消费额:x3,对商场环境的满意度:x4,对商场设施的满意度:x5,为商场商品丰富程度满意度:x6,问题:对单位面积营业额的影响因素确实是如下6个吗?单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。,不确定型的函数关系,在社会经济和管理中,变量之间的关系更
3、经常地表现为不确定的函数关系。如,销售量与人口数量,销售量与广告费用,收入与受教育水平,。,它们之间存在着明显的相互关系(称为相关关系),但这种关系又不像数学里常用到的确切的函数关系。,回归分析是研究随机变量之间相关关系的一种统计方法,其用意是研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。,例:宝丽来公司,宝丽来公司是即时显影技术的开拓者,并保持着技术领先地位。自公司成立以来,就不断地在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和更为便利的摄影系统。,在宝丽来的感光实验室中,科学家们把即时显像胶片置于一定的温度和湿度下,使之近似于消费者购买
4、后的保存条件,然后再对其进行系统的抽样和分析。他们选择了专业彩色摄影胶卷,抽取了分别已保存113个月不等的胶卷以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时间的延长而下降。它们之间的变动关系可用一条直线或线性关系近似表示出来。,y胶卷感光率的变动,x胶卷保存时间(月),从这一方程可以看出,胶卷的感光速率平均每月下降7.6个单位。通过此分析得到的信息,有助于公司把消费者的购买和使用结合起来考虑,调整生产,提供顾客需要的胶卷。,运用回归分析,宝丽来公司建立了一个方程式,它能反映胶卷保存时间对感光速率的影响。,例:收入与食品消费,人均收入X与人均食品消费支出Y之间的散点关系可以
5、如下图表示出来,根据散点图,我们有可能找到一条直线,从“平均”的角度来反映两个变量之间的关系。,从经济意义上看,这里人均收入可以作为解释变量(解释人均食品支出的变化。,这时,两个变量之间的不确定关系,可以用下式表示:,其中,人均食品消费支出Y是被解释变量,人均收入X是解释变量,1,2是两个待估计的参数,分别表示截距和斜率(反映了关于X的边际效益)。u是随机干扰项,通常假设它与X无关,它反映了Y被X解释的不确定性。,如果随机干扰项u的均值为0,那么上式两边在X的条件下求均值,就有,反映了从“平均”角度看的确定的函数关系(解释关系)。,例 一个假想的社区有100户家庭组成,要研究该社区每月家庭消费
6、支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。,收集了这100户家庭收入与消费支出的数据后,发现可将该100户家庭组成的总体按可支配收入水平划分为10组,具体数据见下表。,如 E(Y|X=800)=605,例 多孩率与人均收入,不同地区的多孩率与人均国民收入之间的散点图为,同样有可能找到一条曲线,从平均的角度来反映两个变量之间的关系。,这里仍然将人均国民收入作为解释变量。,这时两个变量之间的不确定关系可以大致用如下包含对数的函数关系表示:,其中多孩率Y是被解释变量,人均国民收入X是解释变量,1,2是两个待估计的参数。但是2不再表示边际效益
7、,而是表示当X增加百分之一时,Y的增加值。u是随机干扰项,仍假设它与X无关,从而与 ln X 无关。,注意此时Y与X的关系并非线性关系,但经变换,就转化为线性关系:,10.1 一元线性回归,10.1.1 问题的提出,上面的这些例子中反映一个变量(被解释变量)的变动可以被另一变量(解释变量)来解释的变量之间的关系的表达式,就是最普通的线性回归式。经济与管理中广泛利用线性回归式来研究变量之间的解释关系。,线性回归的任务,就是用恰当的方法,估计出参数1,2,并且使估计出来的参数具有良好的统计性质,由此可见,回归问题实际上是一种特殊的参数估计问题。,变量X,Y之间成立的关系式对它们的每对对应的样本值都
8、成立,因此对任一对样本值Xi,Yi,i=1,2,n,有,估计参数的目的就是求参数的估计值,使得直线(称为线性回归方程),最好地拟合了这些样本数据点,并且参数估计值还具有较好的统计性质。,10.1.2 高斯基本假设,对于线性回归模型,高斯基本假设为:,(1)ui为随机变量;,(2)E(ui)=0,即所有的随机扰动项的期望值为零;,(3),即所有的随机扰动项的方差等于一个常数;,(4);这等价于,即所有不同的随机扰动项的协方差等于零,也就是不同的随机扰动项是不相关的。,(5)即随机扰动项都服从正态分布。,(6)E(Xi uj)=0 对所有的i和j都成立。,关于解释变量Xi的这一性质可以分为两种情况
9、:,Xi是随机变量但它与uj无关,因此(6)成立。,Xi是确定型变量,它自然与uj无关,因此(6)成立。,介绍了参数估计方法后,再具体说明这些假设的应用。,10.1.3 普通最小二乘法(OLS:Ordinary Least Square),对线性回归模型,回归分析的任务就是要求参数的估计值,使得到的回归方程,最好地拟合了所有样本数据点。,Xi,Yi,这意味着对所有的样本点(Xi,Yi),都应尽可能小。,为了使得回归直线 最好地拟合所有样本数据,就应该使所有残差 绝对值都尽可能小。,具体地做法是让残差的平方和达到最小,这就是所谓的最小二乘准则。,最小二乘准则:,最小二乘法就是根据最小二乘准则来确
10、定 1,2 的估计值 的方法。相应的估计量称为最小二乘估计量(OLS估计量),注意到,因此,为此,我们求参数的估计值 使残差平方和,达到最小。注意到上式可以看成 的二次函数,因此其最小值存在,取最小值的条件就是,由此得到关于 的线性方程组,解之得,其中xi,yi分别为Xi,Yi的中心化数据(也称离差),在高斯的基本假设下,按上式计算得到的参数估计值 是最优的线性无偏估计量(BLUE,Best Linear Unbiased Estimator)。即OLS估计量 是线性估计量并且是无偏的,在所有的无偏估计量中,的方差是最小的。,具体来说,模型是线性的,是线性的,假设(2)、(6),是无偏的,假设
11、(3)、(4),具有最小方差,注:对于 是BLUE来说,(5)是不必要的。但是如果(5)成立,则还能保证 也服从正态分布。,10.2 多元线性回归,在实际问题中,常常需要研究一个被解释变量,多个解释变量的线性回归模型,例(详见商务与经济统计)位于南加州的巴特勒运输公司的管理人员为制定最佳的工作计划,希望估计他们的司机每天行驶的时间。起初,公司管理人员认为,司机每天行驶的时间与每天运送货物行驶的里程密切相关,通过观察散点图,管理人员假设,能利用一元线性回归模型,来描述行驶的小时数(Y)与行驶的英里数(X)之间的关系。,对公司的实际数据,采用普通最小二乘法估计出回归方程为,通过对方程的分析,公司的
12、管理人员发现,虽然这一结果不错,但方程只能解释每天行驶时间的变异性的66.4%。因此希望增加第二个解释变量去解释剩下的变异性。,管理人员在研究其它影响行驶时间的因素时,觉得运送货物的次数也会影响行驶的时间。因此在增加了一个解释变量运送货物的次数,以及相应的数据后,再进行回归分析,得到的回归方程具有形式,管理人员现在发现,这一方程能解释行驶时间变异性的90.4%。这已是相当好的结果了。,10.2.1 多元线性回归模型的基本假设(高斯假设),多元线性回归模型的矩阵表示,多元线性回归模型,应该对所有的样本数据都成立,因此有,这是n个表达式。回归分析的目的就是利用由样本数据产生的这n个表达式估计模型的
13、参数,得到模型的参数估计值 使得回归方程,最好地拟合了所有样本数据。,为便于讨论,对多元线性回归模型,常使用矩阵形式,其中,高斯假设,(1)u是随机向量;,(2)E(u)=0;,这里,所以这一假设就是要求所有的随机扰动项的期望值为零。即,(3);,这里,因此条件(3)意味着,这等价于 并且,也即所有扰动项方差相等,并且不存在序列相关。,(4),注意这一条件是用矩阵形式给出的。这相当于,(5)要求所有变量Xji是非随机的;或变量Xji虽然是随机的,但与ui不相关。,用数学表达式的形式,后者就是,(6)秩,这里实际上是两个判断,一个是 而另一个则是k n。,在(6)中的要求k n,实际上是要求样本
14、数据的数量n大于解释变量的个数(或待估计的参数的个数)k。而注意到矩阵X为,因此意味着矩阵X的行数大于列数。而要求,意味着矩阵X是满列秩的,即其所有列向量线性无关。并且这一条件蕴涵矩阵XTX正定(从而非奇异)。,其他假设:,(7)行列式|XTX|远离零。,10.2.2 普通最小二乘估计式,现在仍采用矩阵的记法,多元线性回归模型为,若得到了参数的估计量 则相应的回归方程为,于是残差向量为,普通最小二乘法就是要确定参数的估计值 使残差平方和,达到最小。,由于残差的平方和可以表示为,而,要使残差的平方和最小就必须,即,这就是所谓的正规方程组,其解就是要求的估计量。,由条件(6)可知矩阵 可逆。因此正
15、规方程组的解为,这就是要求的普通最小二乘(OLS)估计量。,10.2.3 普通最小二乘估计量的性质,高斯马尔柯夫定理:若关于多元线性回归模型的高斯假设中除了(4)外,其他假设都满足,则普通最小二乘估计量 是最优线性无偏估计量(BLUE)。若当 时,收敛于非奇异矩阵,则普通最小二乘估计量 还是一致估计量。,由上述定理可知,在高斯假设下,多元线性回归模型的普通最小二乘估计量具有非常好的统计性质。,具体来说,模型是线性的,OLS估计量是线性的,假设(2)、(5),OLS估计量是无偏的,假设(3),OLS估计量具有最小方差,10.2.4 普通最小二乘估计量的方差和分布,为了计算 的方差,考虑 的方差-
16、协方差矩阵,而,所以,假设(5),假设(3),即,从而有,其中 是矩阵 对角线上的第j个元素,常常将它记为cjj。于是有 或,可以证明:,(1)服从正态分布,(2)服从 分布,10.2.5 随机扰动项方差的无偏估计,在上面的讨论中可以看到我们要经常用到随机扰动项的方差。然而随机扰动项的方差是观察不到的。不过可以证明,是 的无偏估计量,10.2.6 判定系数R2(Coefficient of Determination),设想有如下图所示的两个样本,要分别建立能拟合它们的线性回归方程。,直观上容易看出,左边的图形显示的数据建立的回归方程对样本数据的拟合情况更好。这一观察表明:,(1)使用不同的数
17、据建立的线性回归方程对样本数据的拟合程度是有差别的。(2)线性回归方程对样本数据的拟合程度越好,样本数据所代表的解释变量与被解释变量之间的线性关系就越显著,从而越适合用线性回归方程来描述解释变量与被解释变量的相关关系。,可以看出离差(此处称为总变差)可分解为,其中,残差,解释变差,并且可以证明,即总变差的平方和=残差的平方和+解释变差的平方和,明显地,线性回归方程对样本数据的拟合情况越好,残差平方和就越小,从而残差平方和在总变差平方和中占的比重就越小,于是解释变差平方和占的比重就越大。,解释变差平方和占的比重,我们就把解释变差平方和在总变差平方和中占的比重称为判定系数,记为R2,即,或者使用矩
18、阵与离差的记号,R2越接近于1,线性回归方程对样本的拟合程度越好,也就是,整体回归效果越好。实际上R2越大,能用线性回归方程解释的被解释变量变异性的比例越大。,此外称R为复相关系数(Multiple Correlation Coefficient).,例1970-1982年美国“期望扩充”菲利普斯曲线,考虑如下的模型,其中,Yt时期t的真实通货膨胀率(%),X2t时期t的失业率(%),X3t时期t的预期通货膨胀率(%),根据宏观经济理论,预期有,并且值应该接近1。现在采用美国商务部经济分析局及联邦储备银行的数据(1970-1982年)估计模型,根据上表,可知回归的结果为,可见这一回归结果还是比
19、较好的,判定系数表明,两个解释变量合起来,可以解释真实通货膨胀率的变异的87.66%。此外直观地,并不为1,但可利用后面将要介绍的系数的t检验,检验它是否显著异于1。,10.2.7 回归效果的F检验,尽管判定系数较好地说明了回归效果,但它没有提供一个客观的标准来判断回归效果是否可以接受。这可以通过如下的F检验来判别。,原假设H0:,若不拒绝H0,则表明回归模型表示的线性关系并不显著,否则回归模型所表示的线性关系是显著的,因此回归效果是可以接受的。,检验统计量,易知,10.2.8 F与R2的关系,这就是为什么我们说拒绝了H0,就表明总的回归效果较好的缘故。,在F统计量的表达式中,分子与分母同时除
20、以总变差平方和就可得,10.2.9 校正的判定系数(Adjusted R2),前面定义的判定系数R2中不含自由度,因此在解释变量的个数k增加时,R2会变大,但它并不意味回归效果的改善。为了得到不依赖自由度变化的回归效果的检验,可以考虑使用校正的判定系数,即考虑了自由度的判定系数:,剔除了自由度影响,且也可以用来衡量回归效果,10.2.10 回归系数的T检验,对线性回归模型,除了需要考虑总的回归效果外,还需要考虑每个解释变量对被解释变量的影响是否显著。这可通过如下的方式进行检验。,原假设 H0:j=0;,备择假设 H1:j 0,检验统计量:,其中记号 称为 的标准误差表示将 的标准差 中的 换成
21、 的结果。t服从自由度为n k 的t分布。,对给定的显著性水平,查t分布表可得临界值,若 则拒绝H0,而不拒绝H1。这表明 显著异于零,因此解释变量Xj对被解释变量有显著影响。,这一检验称为系数 的显著性检验。拒绝H0,称通过了显著性检验。,反之若系数 没有通过显著性检验,则表明变量Xj对被解释变量的线性影响关系并不显著,因此可以考虑将它从回归模型中剔除出去。,在前面的美国“期望扩充”的菲利普斯曲线中,变量X1,X2系数的t统计值分别为-4.5652,8.3626,可见它们对被解释变量的影响都是显著的。,此外,t检验统计量也可用于,的检验。仍以前面的美国“期望扩充”的菲利普斯曲线为例。我们已经
22、提到对变量X3t时期t的预期通货膨胀率,我们预期其系数的值为1,但实际估计值为1.470032。现在来检验它是否显著异于1。这时,而在显著性水平5%下,临界值为t=2.2281,可见X3的系数是显著异于1的。,10.2.11回归系数的置信区间,对于系数,利用前面的T统计量,可以得到它在指定置信水平1-下的置信区间为:,在多元线性回归统计性质研究中,人们最注重的是如下三个统计量:,10.2.14 标准回归系数,在回归方程中,自变量的单位(例如,元,百元,万元等)对回归系数的数量级有很大的影响,如果要简单比较自变量对因变量作用的大小,就应剔除自变量单位的影响。一种经典的处理方式是将所有变量标准化。
23、,所谓标准化就是对变量Y,X1,X2,Xk进行如下处理:,其中Sj,SY分别表示变量Xj,Y的样本数据的标准差。,标准化以后的变量均值为0,而方差为1。,经过标准化处理,原始方程:,就化为了标准方程,所谓标准回归系数,就是指这一方程的回归系数。通常的统计软件会自动计算标准回归系数。,在前面的美国“期望扩充”的菲利普斯曲线例子中,注意到我们使用EXCEL进行回归并没有给出标准回归系数的估计值,但如果使用SPSS进行回归,将自动计算并给出标准回归系数的估计值。,10.3 逐步回归,10.3.1回归系数的F检验,为了检验回归方程某个系数是否显著异于零,可使用前面介绍的T检验,那里我们采用检验统计量,
24、来检验系数j是否显著地为零,以便考虑是否应剔除变量Xj。但是有可能存在这样的情况,尽管系数绝对值比较小,但在整个回归方程中,变量Xj在解释因变量的作用中占的比重却不小。因此在这种情况下,根据T检验的结果来剔除Xj就不是适当的。,为此,考虑一种新的方法来检验j是否小到足以让我们剔除Xj的地步。,原假设 H0:j=0,备择假设 H0:j 0,由于 服从分布,(其中Q为残差平方和)服从分布。因此,检验统计量,如果变量Xj的系数通过这一检验,则该变量可以作为自变量,否则可以考虑将其从自变量中剔除。,10.3.2 偏解释变差(偏回归平方和),若在回归模型,将自变量Xj从解释变量中剔除,我们实际上得到新的
25、模型,估计该模型得到一个新的回归方程,分别用小写的x,y表示中心化的数据(即离差)则原来的回归方程和新回归方程可分别表示为,和,对于第i个数据,恰好就是解释变差。因此,和,分别是新回归方程和原回归方程的解释变差平方和。,解释变差反映了回归方程解释作用的大小,剔除掉的变量多少会有一点解释作用因此一般有,并且,就度量了被删除的变量Xj对解释变差的贡献,并且称它为Xj的偏解释变差(偏回归平方和)。,可以证明,即Vj就是Xj的偏解释变差(偏回归平方和)。于是我们前面使用的F统计量,是变量Xj的偏解释变差与残差平方和(未解释变差平方和)与相应的自由度的商之比。它反映了变量Xj的解释作用(对解释变差的贡献
26、)的相对大小。,10.3.3 逐步回归法,逐步回归法的基本思路:在考虑被解释变量Y对一组解释变量的回归时,只将那些对解释变差贡献较大的变量作为解释变量,那些贡献小的则不能作为解释变量。,具体做法,逐步进入(Forward):先选择统计量Fj的值fj最大的变量Xj进入模型,然后在剩下的变量中再考虑这统计量有最大值的变量,依次类推。需注意的是每次进入模型的变量的这一统计量都必须接受在一给定的显著性水平的显著性检验,只有通过检验的变量才进入。,逐步移除(Backward):与前面相比现在反过来进行变量的挑选。先让所有变量进入模型,然后逐步将统计量Fj的值小的变量从模型中剔除,剩下那些该统计量能通过在
27、某一给定显著性水平下的显著性检验的变量。,边进边出(Stepwise):即“一边进”、“一边出”的方法。值得注意的是在SPSS中默认的“进入”变量的F统计量显著性的概率为0.05,而“出来”的显著性概率为0.10。,SPSS默认的方法:Enter,即全部变量一次进入。,此外SPSS还有一种回归的方式:Remove,即在现有的回归的基础上剔除变量。,10.4 用SPSS处理经典回归问题,经典回归问题满足所有的高斯假设的单方程的线性回归模型的分析。,10.4.1 自变量强行进入的回归,例10.4.1 关于人均食品支出与人均收入关系的回归模型,考虑如下形式的模型:,数据文件“CH10回归人均食品支出
28、”,操作过程与结果说明(p277)见演示。,例10.4.2多元线性回归模型,本例讨论人均食品支出由两个解释变量:人均收入与粮食单价解释的回归模型,方法:Enter,10.4.2 逐步回归法,例10.4.3 研究某市散户股民在“证券市场投资总额”是否可以用变量“证券市场外的收入”、“受教育程度”、“入市年份”和“股民年龄”来解释。,被解释变量:“证券市场投资总额”,解释变量:“证券市场外的收入”、“受教育程度”、“入市年份”和“股民年龄”,方法:逐步回归,数据:“CH6CH9CH10证券投资额与依据”,操作及结果说明:(p282)见演示,10.5 多元线性回归的三大基本问题,10.5.1 多重共
29、线性,1 概念,若多元线性回归模型的解释变量X2,X3,Xk是线性相关的,则,从而逆矩阵 不存在。这种现象称为完全的多重共线性。,若高斯假设(6)“秩”满足,则各解释变量X2,X3,Xk是线性无关的。因而一定不会出现完全多重共线性这种情况。所以完全多重共线性实际上就是指高斯假设(6)不满足的情况。,完全多重共线性在实际问题中并不多见,即便出现了完全多重共线性,也容易判别出来。,实践中常见的多重共线性是指解释变量X2,X3,Xk是近似线性相关的。这时虽然有,但却,注意到,实际问题中,解释变量X2,X3,Xk近似线性相关,往往表现为几个解释变量之间存在着高度的相关性,其数据有共同变化的趋势。,因此
30、若存在多重共线性,矩阵 的各元素的绝对值将变得非常大。回顾OLS估计量的方差表达式。,其中cjj就是矩阵 对角线上第j个元素。因此OLS估计量的方差将变得非常大,这意味着估计的误差非常大。,所以多重共线性将给模型的建立带来严重的后果。,2 多重共线性的后果,(1)计算 时,将溢出,(2)的方差将变的很大,(3)各变量系数的t统计量的值普遍变小。,实际上,其中记号表示将 的标准差 中的 换成 的结果。由于t的表达式中分母变的很大,因此t的值会变的很小。,(4)R2的值变得接近于1,给出虚假的回归结果好的结果。,(5)各参数估计值仍然是无偏的。,此外由于各解释变量之间存在相关性,解释变量系数的大小
31、和符号可能变得不合理。不能单独考虑一个解释变量对因变量的影响。,例如应用中国宏观经济运行的实际数据(1985-1999)建立的反映人均消费C与人均可支配收入Y、人均储蓄余额Z之间关系的线性回归方程为,这是否意味着存钱越多,消费也越多?,3 若干判别是否存在多重共线性的方法,(1)容许度(Tolerance)方法,将某个解释变量Xj对其他解释变量进行回归,得到的回归方程的判定系数记为。定义Xj的容许度为,容许度越小,由Xj导致的共线性越强。,(2)方差膨胀因子(VIF),VIF越大,由Xj导致的共线性越强。,(3)根据回归分析的结果判别,若回归方程的判定系数R2很大,但各系数的显著性检验的t统计
32、值却小,则模型中可能出现了多重共线性。,(4).通过条件指数检验,条件指数(condition index或条件数condition number)是矩阵 的最大特征值与最小特征值之比的平方根,易见条件指数越大,越接近于零,因而存在越严重的多重共线性。,但并没有一个绝对的标准来判断,当条件指数大到什么程度时,存在多重共线性。,经验的法则:条件指数小于10,不存在多重共线性;大于30,存在严重的多重共线性。,一些常用统计软件都会提供计算此检验值的功能。,4.多重共线性的处理,(1)逐步消除不重要的解释变量,可直接使用逐步回归法完成(但需考虑遗漏重要的解释变量导致的估计有偏问题)。,(2)对模型施
33、加适当的约束,例如对生产函数。若规模效益是不变的,则有 因此模型两端除以K后得,然后两端取对数得,新模型中不存在多重共线性。,(3)改变模型的结构,包括改变数学表达式的形式及选择不同形式的变量。例如表示某商品需求量及其影响因素的模型为,其中 分别为需求量、收入、该商品的出厂价格和市场价格。,在实际数据中,出厂价格和市场价格往往呈同方向变动,因此高度相关,模型存在多重共线性。,如果我们仅要求知道相对价格变动时需求量的变化规律,则可将需求函数变为,就可解决多重共线性问题。,(4)恰当处理滞后变量,对包含滞后自变量的模型,由于滞后变量的同趋势性,很容易出现多重共线性。解决问题的办法是,令,则,而在时
34、刻 t 1,有,于是将前式减后式的倍,得,其中,这样就消除了多重共线性的问题。,(5)增加数据,多重共线性实际上是数据问题。理论上高度相关的变量,其具体观察值之间未必高度相关。因此可以用增加观测值、利用不同的数据集或采用新的样本等方法,有可能消除或减缓多重共线性问题。,对于多元线性回归模型,多重共线性总是存在的,只是影响的程度上有区别,如果模型仅用于进行预测,则只要模型拟合样本数据的情况较好,可不处理多重共线性问题。,10.5.2 异方差问题,1.异方差问题的提出,由前面的讨论,高斯假设中的(3),这等价于 并且,也即所有扰动项方差相等,并且不存在序列相关。,若其中的所有扰动项的方差相等的假设
35、不再成立,则称模型(或随机扰动项)出现了异方差性。这时高斯基本假设中的表达式只能写成如下形式。,其中是一个对称正定矩阵,但不再是对角线上元素都相等的矩阵。,使用截面数据建立的模型较易出现异方差性。,例如研究一个行业的各企业的截面数据时,可能会发现,大企业的误差项比小企业的误差大;大企业的销售量会比小企业的销售量有更大幅度的变化。再如在考虑家庭的收入与消费的截面数据时,可能会发现,低收入家庭的支出比较稳定,而高收入家庭的消费相对波动较大,因此利用这样的数据建立家庭的收入与消费的回归模型时,将导致异方差出现。,.,.,x1,x2,E(y|x)=b0+b1x,y,f(y|x),Normaldistr
36、ibutions,在前面的讨论中我们已经提到:,高斯基本假设(3)保证了OLS估计量具有最小方差。因此若存在异方差性,则假设(3)不再成立,从而OLS估计量不再具有最小方差性。,2.异方差问题出现的后果,这意味着,估计的误差可能十分大;此外构造系数的显著性检验的t统计量,我们需要用到同方差的假设,因此异方差存在时,显著性检验失去意义;进一步,利用模型预测可能失效。,使用截面数据建立的模型较易出现异方差性。,3.异方差问题存在的判断,判断异方差存在的基本思路就是考察随机扰动项的方差是否与Yi有关,或是否与某个解释变量Xji有关。问题是随机扰动项的取值通常是观测不到的。因此在实际问题中通常将残差e
37、i的平方作为随机扰动项方差的估计值。即通过观察ei与Yi或某个解释变量Xji是否相关来判断是否出现了异方差。具体方法有下面一些。,(1)用散点图判断,以残差与Yi的散点图为例,在同方差情况,散点图应该具有右边的形状。点应该分布在一水平的带形区域。,Yi,ei,Yi,ei,若存在异方差,则可观察到ei的取值随Yi的取值的变化而变化的现象。如,Yi,ei,Yi,ei,(2)通过ei与Xi的相关性来判别。,值得注意的是ei与Xi的简单相关系数总是等于零的,但这并不能排除所提及的相关性。为此计算的|ei|与Xi等级相关系数(Spearman)。如果计算得到的等级相关系数显著异于零,则表明ei与Xi相关
38、,因此存在异方差。,4.异方差的处理,(1)试算异方差的形式,|ei|对某个解释变量的各种形式进行回归,如,或者|ei|对被解释变量的各种形式进行回归,然后利用决定系数选择最佳的拟合形式。再对这种最佳的拟合形式进行系数的显著性检验。若通过检验,则表明存在相应的相关性。并由此可得到 与,(2)用下面的广义最小二乘法,求原方程的系数,得到 与 后,若仅存在异方差的影响,就可估计下面表达式中的矩阵,为,然后就可以利用广义最小二乘法得到多元线性回归模型的系数的估计值。,10.5.3 广义最小二乘法(GLS),(1)广义最小二乘法的估计式,设多元线性回归模型为,设高斯基本假设中的其他假设都满足,只有(3
39、)现在为,其中是一个对称正定矩阵。则有如下的广义最小二乘估计式。,(2)广义最小二乘估计量的性质,对广义最小二乘估计量,高斯马尔柯夫定理的结论仍然成立。,(3)WLS估计法,特别地,当矩阵是对角矩阵,但其对角线上的元素不相等。这意味着仅存在异方差性的影响。此时按照前面的方法可以得到,从而可以计算GLS估计量。但这等价于以下的方法:,将原模型的第i个表达式,的两端除以,得,容易证明此时新的随机扰动项,具有同方差性。于是可用OLS估计上面的模型。得到的参数估计量就是GLS估计量。,这种方法相当于以原模型残差绝对值的倒数为权,将所有的样本数据分别乘以相应的权值,然后用变换以后的数据来估计多元回归模型
40、。所以这种方法称为加权最小二乘法(WLS)。,例 住房支出,本例中考虑由4组家庭住房支出和年收入的截面数据:,利用该组数据建立住房支出模型,采用OLS法进行估计得:,由数据分析,以及由散点图,可知存在异方差性。,更进一步,X与残差绝对值的Spearman等级相关系数为0.560,在显著性水平5%下显著异于零。,通过试算异方差的形式我们得到,因此采用WLS估计模型。先变换模型为,再用OLS法进行估计得到,注意系数的变化不大,但t值明显增大,这表明当异方差存在时,标准误差被高估了。,10.5.4 自相关(序列相关)问题,1.序列相关问题,前面提到的高斯基本假设(3)实际上等价于两个要求:并且,也即
41、所有扰动项方差相等,并且不存在序列相关。,前者不满足就产生异方差问题,而若后者不满足,即,存在i,j,i j使得,则产生序列相关(自相关)的问题。,序列相关常见于采用时间序列样本数据建立的模型,要求序列不相关等价于要求各期的数据不相关。实际问题常常无法满足如此要求。,2.实际问题中产生序列相关的主要原因,经济因素是前后关联的随机冲击影响的滞后作用遗漏的变量,3.序列相关的后果,若存在序列相关,则高斯假设(3)不满足,因而得到OLS估计量不具有最小方差。因此从应用的角度,存在序列相关像存在异方差一样,有如下不利的后果:,OLS估计量不再具有最小方差性,因而不是BLUE不再可以信赖显著性检验的结果
42、预测可能失效,4.序列相关的检验,(1)通过观察散点图判别,由于随机扰动项本身观察不到,所以通过观察其估计量残差来观察是否出现序列相关。,有两种作散点图的方式:,a.以残差为纵坐标,以其下标为横坐标作散点图。,i,ei,i,ei,无序列相关,负自相关,i,ei,正自相关,b.以ei为纵坐标,ei-1为横坐标作散点图。,ei-1,ei,正自相关,ei-1,ei,负自相关,(2)一阶自相关的DW检验法,在实际问题中,最常见的序列相关是一阶自相关,即随机扰动项之间的相关关系可以表示为形式:,下面只就这种形式的序列相关进行讨论,注意:上面表达式中的t是一个随机扰动项满足:,式中,为自相关系数(),即扰
43、动项只与前一期的值相关。根据 的不同,一阶自相关可分为下面三种情况,思路:DW检验法要检验=0是否成立,若等式成立,则,所检验的模型不存在自相关;否则存在序列相关。使用的统计量为DW统计量,其计算公式为,与前面的检验不同的是,这一统计量的真实分布无法确切地得到,只知道在两个已知分布之间,下分布,上分布,A,B,C,D,对给定的显著性水平,可以通过DW的临界值表查到这两个已知分布的临界值,分别记作dL、dU,根据这两个临界值可以用如下的规则来判别自相关性:,判别:,若0DWdL,则扰动项正自相关;,若dLDWdU,不能判断;,若dUDW4-dU,则扰动项无自相关;,若4-dUDW4-dL,不能判
44、断;,若4-dLDW4,则扰动项负自相关。,0,4,2,dL,dU,4-dU,4-dL,正自相关,负自相关,无自相关,从上述判别规则可知:DW统计量的值越接近2,随机扰动项越可能不自相关。,由于采用时间序列数据建立回归方程时,随机扰动项往往可能存在自相关,因此通常在给出回归方程的同时,也给出DW统计量的值。,但是,DW检验也存在缺陷,主要是:,它只能用来判别是否存在一阶自相关;,DW统计量的取值范围内有不能判别是否存在一阶自相关的区域;,当存在以滞后被解释变量作解释变量的情形时,该方法不再适用。,在DW检验法不再适用时,可以考虑其他检验法(比较常用的有LM法)。,5.序列相关的处理,这里只讨论
45、一阶自相关的情形。,如果自相关具有形式,则只要知道,就可以完全消除自相关。下面通过一元模型说明消除自相关的方法。,设,且,对模型取一期滞后,得,于是,其中 满足前述条件,且。,故,由于 从而经过变换,得,于是可以用OLS估计上面的方程。这种方法称为广义差分法。,但若未知,则需首先估计,然后再应用上面的方法。,科克伦奥克特法(Cochrane-Orcutt)两步法,这是一个迭代方法,它通过一个有两个步骤的迭代过程来确定要求的参数。,科克伦奥克特法的步骤:,1)用OLS估计原模型,并计算残差et。,2)et对et-1回归,即估计,得到的估计值。,3)利用 进行变换,然后估计变换后的方程,得到估计值。再计算残差并回到 2)得到所需的估计值。,注意估计3)中的模型等价于估计以下模型,在这一估计结果中,Yt-1的系数估计值就是广义差分法所需要的系数。,科克伦奥克特法的实际做法:,假设已经检验模型,存在形式 的自相关。,构造模型,利用样本数据估计该模型,其中估计值 就是进行一阶广义差分变换所需要的系数的估计值。,以 为系数对原模型进行一阶广义差分变换,就可消除或减弱自相关性。,10.6 用SPSS处理线性回归的三大基本问题,例题、方法、具体步骤、结果分析与说明见教材与例题的求解过程演示。,关于三大问题的小结,