《第4章多元回归分析.ppt》由会员分享,可在线阅读,更多相关《第4章多元回归分析.ppt(67页珍藏版)》请在课桌文档上搜索。
1、1,第四章 多元线性回归分析,2,多元线性回归模型 包含多个解释变量的线性回归模型,一元线性回归模型能合理地描述实际经济情况吗?现实经济情况往往体现:对一个经济变量的解释有多个因素,因此应该使用多个解释变量的多元回归分析。如果一个模型确实存在多个解释变量,我们使用一元线性回归会产生设定偏误。,3,4.1 多元线性回归模型的两个例子,一、例题1:CD生产函数 这是一个非线性函数,但取对数可以转变为一个对参数线性的模型注意:“线性”的含义是指方程对参数而言是线性的,4,例题二:新凯恩斯混合Phillips曲线,根据经济学理论数理模型被表述为:对应的计量经济学模型为:计量模型有时来源于经济学理论,随
2、机误差项包含一些次要的、没有出现在经济模型中的影响因素,5,二、多元线性回归模型的一般形式,一般形式可以表述为如下的形式:均值方程线性回归方程与均值方程的联系,6,问题本质:,这部分是解释变量无法解释的随机噪声。并且被分解的这两部分是正交的,即这两部分没有信息的重叠。,多元线性回归方程将被解释变量分解成为两部分:,这部分是可以由解释变量来解释。,(2),(1),7,三、偏效应,解释变量的估计参数 表示 对被解释变量均值的偏效应。表示其他被解释变量均保持不变时,变化一个单位,导致被解释变量均值变化 个单位。为什么叫偏效应?这是因为它的含义恰好类似于高等数学中偏导数的含义。,8,4.2 多元线性回
3、归模型的OLS估计一、回归系数的估计1.回归系数的OLS估计:一般形式,其样本回归函数为:,是OLS估计量,9,问题本质,OLS的估计思想:,(1)寻找参数估计量,使得样本回归函数与所有样本观测点的偏离最小,即残差平方和最小。,为什么不选择离差之和最小化或者离差绝对值之和最小化呢?,因为离差之和会使正负误差抵消,而离差绝对值不便于数学上做优化处理,所以选择了离差平方和最小化作为优化目标,这也就是为什么这种估计方法被称为最小二乘法的原因。,10,(2)优化目标,根据其一阶优化条件:,11,得到计算回归系数估计量的正规方程组:,注意:只有回归方程中包含常数项,由OLS估计所得残差总和才一定为0。,
4、含义:OLS估计所的残差与解释变量不相关。即残差中不存在任何可解释的成份。,12,假定7:回归模型的解释变量之间不能存在完全的多重共线性。“完全的多重共线性”:是指一个解释变量是其他解释变量的线性组合。说明该解释变量所提供的信息与其他解释变量是完全重复的。当存在完全共线性时,模型的参数不可识别。即任何方法都无法得到参数估计值,包括OLS。存在不完全共线性时,可以得到参数估计值。OLS估计量是BLUE。但与没有多重共线性时相比,估计量的方差较大,估计精度下降。,13,高斯马尔可夫定理,如果多元线性回归方程满足经典假定条件17,则回归系数的OLS估计量是线性的、无偏的,最优的(在所有无偏估计量中具
5、有最小方差)估计量,即BLUE。最关键的假定:解释变量是外生变量,它保证了OLS估计量的无偏性。讨论:如果解释变量不满足外生性假定,例如,解释变量与误差项相关,那么误差项对被解释变量的影响由谁反映?,14,2.回归系数的OLS估计:以二元回归模型为例,基于残差平方和的最小化,得到正规方程组:,15,由正规方程组求解,得到回归系数的估计量:,16,基于方差公式得到各回归系数估计量的方差:,17,例子:基于表4.1.1的数据估计中国宏观生产函数,Se:0.7880 0.0902 0.0220t值:-11.31367 7.3534 34.1171p值:0.0000 0.0000 0.0000,P值非
6、常小,这表明各个解释变量对被解释变量有显著的解释作用。,回忆:P值是检验结论犯第一类“弃真”错误的概率。P值非常小的含义是什么呢?,18,二、随机误差项方差的估计,的无偏估计量可以表述为:,自由度为什么是N-(K+1)?多元回归模型的OLS估计中,我们基于正规方程组中的K+1个约束估计了K+1个回归系数,所以损失了K+1个自由度,独立的观测信息只剩下N-(K+1)个。,19,三、判定系数的调整,总平方和等于解释平方和加上残差平方和,TSSESS+RSS,判定系数,后果:在回归模型中增加新的解释变量时,只可能增加,而决不会下降。,缺陷:只反映拟合效果,不反映自由度损失。,20,调整后的,调整思想
7、:对 进行自由度调整。,21,基本统计量TSS、RSS、ESS的自由度:,TSS的自由度为N-1。基于样本容量N,,因为线性约束,而损失一个自由度。,2.RSS的自由度为N-(K+1)。基于样本容量N,统计量,因为正规方程组的K+1个线性约束而,损失了K+1个自由度。,3.ESS的自由度为K。,是K个统计量的加总,统计量,的自由度为1。,22,4.3 多元线性回归模型的假设检验,一、参数假设检验的基本思想基于对误差项分布的假定,得到参数估计量的分布;对参数估计量进行标准化,使之服从某一标准分布,如我们熟悉的t分布,得到检验统计量;以原假设的参数值作为检验统计量中的参数真值。如果原假设为“真”,
8、则检验统计量就服从相应的理论分布。反之,检验统计量就不服从该分布。基于所选择的显著性水平,将检验统计量的理论分布区间划分为小概率的“拒绝域”和大概率的“不拒绝域”。根据参数的估计值计算检验统计量的值。如果检验统计值出现在拒绝域,根据“小概率事件原理”,原假设很可能是“假”的,则拒绝原假设。反之,就没有充分的理由拒绝原假设。,23,二、单参数的显著性检验,1.随机误差项方差的显著性检验,如果随机误差项,是经典误差项,且满足正态性假定,则:,来源:标准化残差服从标准正态分布,统计量,实际上是,N-(K+1)个相互独立的标准化残差的平方和。而服从标准正态分布的多个独立统计量平方加总,所得到的新统计量
9、就服从 分布。,24,双侧检验,图4.3.1,(N-K-1)的双侧临界值,双侧检验:统计值如果落入两尾中的任何一个则拒绝原假设,25,概率密度,图4.3.2,(N-K-1)的单侧临界值,单侧检验,拒绝域在右侧,拒绝域在左侧,26,例子:中国宏观生产函数,估计得到:,检验统计值为:,13.8439,41.9232,,待检验假设为:,在5%的显著性水平上,不能拒绝 的原假设。,27,2.单个回归系数的显著性检验,如果随机误差项,是经典误差项,并且满足正态性假定:,用估计量的标准误替代标准差,统计量服从t分布。即:,注意:与一元回归的唯一区别是自由度。,28,三、多参数的线性约束检验1:模型的总体显
10、著性检验,(5.4.3),、,若随机误差项满足,中至少一个不为0。,则在原假设成立情况下:有,29,F分布的密度函数,概率密度,图4.3.3 F检验的判定规则,注意:总体显著性检验是单边的右侧检验。若统计量的统计值超过,则拒绝原假设,30,2:模型参数之间的线性约束检验:,例子:柯布道格拉斯生产函数检验假设为:,1,这样的多参数单个线性约束,有两种检验方法.,31,本例中:,=5.9456。,p值为0.0000,结论:拒绝规模报酬不变的原假设,而认为规模报酬是递增的(为什么?)。,(1)t检验,32,(2)F检验:,无约束回归方程将原假设中的约束条件带入回归方程,得到了所谓的“有约束回归方程”
11、。,将其RSS记为,,自由度为N-3。,将其RSS记为,,自由度为N-2。,33,基于,和,,在原假设成立的情况下,有,如果原假设为真,我们会倾向于得到较小的值。,反之,我们会倾向于得到较大的值。,检验统计量,判定:若F值大于临界值,或p值小于显著性水平,则拒绝原假设。,34,中国生产函数的例子:,39.2330。,0.0279,,0.0700,,F检验统计值为:,该F统计值的p值为0.0000,所以,我们可以拒绝中国经济规模报酬不变的原假设。,35,3:参数的线性约束检验:F检验一般形式,对于多元线性回归模型:,参数的多个约束:,待检验假设:,原假设中至少有一个约束条件不成立。,36,基于,
12、和,,在原假设成立的情况下,有,如果原假设为真,我们会倾向于得到较小的值。,反之,我们会倾向于得到较大的值。,检验统计量,判定:若F值大于临界值,或p值小于显著性水平,则拒绝原假设。,37,4:经济关系的结构稳定性检验:F检验的一个例子邹检验,例:中国宏观生产函数在1992年前后是否不同?,19781992年:,19932006年:,无约束回归:参数可以不同,受约束回归:参数不变,19782006年:,38,F检验统计量:,在原假设为真时,其分布为,本例中,邹检验结果:,P=0.0000。,结论:拒绝中国生产函数保持稳定的原假设。,待检验假设:,:原假设中约束条件至少有一个不成立。,39,t检
13、验与F检验的总结,t检验 优点:可作单侧检验 不足:无法检验多个约束条件F检验 优点:可检验多个约束条件 不足:无法进行单侧检验,40,4.4 极大似然估计与似然比检验一、极大似然估计线性回归方程:,如果随机误差项是满足正态性假定的经典误差项,即,,则,服从相互独立的正态分布:,41,的联合概率密度函数:,基于未知参数的估计量,该联合概率密度函数被称为似然函数:,42,ML的基本思想:找到一组参数估计值,使得我们观测到的样本数据出现的概率最大,即似然函数最大。,极大似然估计的优化目标:,注意:似然函数取对数是一个单调变换,不会影响参数估计值的最优解。,43,极大似然估计的优化一阶条件:,结论:
14、回归系数的ML估计量与OLS估计量完全等价。,在有限样本下是有偏的,大样本下具有一致性。,44,二、参数约束的似然比检验,例子:柯布道格拉斯生产函数,无约束方程:,受约束方程:,待检验假设:,无约束方程进行ML估计,得到极大对数似然函数值:,45,受约束方程的极大对数似然函数值:似然比检验统计量:,原假设成立的情况下:,q是原假设中约束条件的个数,讨论:检验统计量中为什么用无约束对数似然函数值减受约束对数似然函数值?,46,4.5 线性回归模型的扩展,一、含有对数化变量的模型,对 的弹性,不变的条件下,每增加一个百分点,平均增加 个百分点。,半弹性,不变的条件下,每增加一个单位,平均增加 10
15、0 个百分点。,半弹性,不变的条件下,每增加一个单位,平均增加 0.01 个百分点。,47,二、多项式模型,厂商平均成本与产量之间的U型关系,图4.5.1 厂商平均成本曲线,48,环境库兹涅茨曲线,环境污染与人均收入的关系,图4.5.2 环境库兹涅茨曲线,49,环境库兹涅茨曲线的回归方程:,(1)回归系数不再反映解释变量对被解释变量的偏效应,(2)多项式模型可以帮助估计经济关系发生转换的位置,经济关系发生转换的位置是:,即,WG:排污量;PGDP:人均GDP,50,三、变量的时间趋势,考察一个经济体的生产函数时,受知识积累等多方面因素影响,其总产出可能会包含一个随时间变化的确定性成份对数变换的
16、形式为 通过引入时间变量作为解释变量以退化被解释变量时间趋势的同时,还同时退化了其他所有解释变量的时间趋势。,51,变量时间趋势的等价处理:,、,退势后变量的等价回归方程:,52,4.6 多元回归分析实例:货币需求分析,货币需求的影响因素:总收入和持有货币的机会成本,RM:经过价格因素调整的货币供给量M2 RGDP:经过价格调整后的实际GDP,IB:为长期债券利率(作为长期利率的替代变量)ID:为储蓄利率(作为短期利率的替代变量),53,OLS估计结果:,t值 7.556 13.789-7.970 0.896p值(t统计量)0.000 0.000 0.000 0.374,0.926,,0.92
17、2,RSS0.0926。,总体显著性的F统计值213.235 p值(F统计量)0.000。,54,图4.6.1 货币需求的实际观测值、拟合值和残差,55,一、回归结果的经济解释,1.回归系数的经济解释(1)lnRGDP系数估计值1.296:总收入对货币需求有正向的影响(交易性需求)。实际收入水平每增加一个百分点,实际货币需求相应地平均增加1.296个百分点。系数估计值的t统计值为13.789,其p值0.00,意味着我们可以拒绝 0的原假设.,56,(2)IB系数估计值为-2.616:长期利率的上升会导致持有货币的机会成本增加,从而减少对货币的需求。长期利率每上调一个基点(0.0001),货币需
18、求平均下降0.02616,即0.02616个百分点。系数估计值的t统计值为-7.970,其p值0.00,(3)ID系数估计值的t统计值为0.896,其p值为0.374,意味着短期利率对于货币需求量的影响在统计上是不显著的。,57,二、残差及其正态性检验,在有限样本中,所有的统计推断都依赖于随机误差项的正态性假设,所以必须对误差项的正态性假设进行检验。残差项的QQ图、直方图提供了最简单的图形观察的检验方式。JB统计量的检验,58,JB正态性检验统计量,其中:S为残差序列的偏度;K为其峰度。JB检验用来判定一个分布的偏度和峰度是否与正态分布一致。(正态分布偏度为0,峰度为3)。,JB检验的原假设为
19、:变量(这里就是残差)服从正态分布。,原假设成立时,JB检验统计量服从自由度为2的,分布,即,。,59,货币需求方程残差的JB检验,偏度S-0.1117,峰度K2.8329,JB0.1783,p值为0.9147。根据JB检验统计量的p值,我们不能拒绝残差序列(进而误差项)服从正态分布的原假设。,60,三、参数线性约束的检验,货币需求方程:(4.6.1)文献中通常会用长期利率与短期利率之差即变量IB-ID作为持有货币机会成本的度量指标。即模型(4.6.1)可以表述为:,(4.6.4),61,回归系数的线性约束:命题“长期利率与短期利率之差可以度量持有货币的机会成本”对应的待检验假设:,(4.6.
20、4)是无约束方程(4.6.1)的受约束形式。,62,F检验 RSSur0.0926,RSSr0.122,16.192,检验结论:就本例所考察的经济体而言,“长期利率与短期利率之差可以度量持有货币的机会成本”这一命题不成立。,在5显著性水平上,F(1,51)的临界值为4.03。,63,4.7 分布滞后模型与解释变量的选择,分布滞后模型:模型包含解释变量的滞后项。例子,表示鸡蛋行业第t期的投资额,形成的对t+1期鸡蛋市场价格的预期,是在第t期,64,预期价格没有观测数据。根据适应性预期的假定,只能以本期和以前几期鸡蛋的市场价格作为下一期预期价格的替代变量。即:,分布滞后模型的主要特点就是考虑了解释
21、变量对被解释变量的滞后影响。,即期乘数,中期乘数,,长期乘数,65,如何选择分布滞后模型的滞后阶数m?调整后的判定系数可以作为一个选择依据。如果知道有一个最大限度的滞后阶数M,从M阶滞后开始依次剔除最高阶的滞后项,如果被剔除项是必要的,将会减小,否则就会增加。信息判定准则:赤池信息准则(AIC)、施瓦茨准则(SC),66,信息准则的基本思想如果我们减少了一个不必要的滞后项,RSS基本 不变而m减小了1,所以AIC和SC值会倾向于下降。如果我们减少了一个必要的滞后项,RSS会显著增加,而m仅减小了1,所以AIC和SC的值会倾向于上升。从一个足够大的滞后阶数M开始,依次剔除最高阶的最后项,基于AI
22、C和SC的最小化,我们就可以确定一个恰当的滞后阶数m。,67,本章小结,多元线性回归模型的回归系数可以反映解释变量对被解释变量的偏效应。可以对解释变量的贡献和自由度损失进行权衡,比 更好地反映了模型的拟合优度。t检验仅用于参数单个约束条件的检验,而F检验可用于参数的多个约束条件的检验。总体显著性的检验、经济关系稳定性的邹检验等都是F检验一般形式的应用特例。如果随机误差项是满足正态性假定的经典误差项,线性回归方程中回归系数的极大似然估计量与OLS估计量等价,误差项方差的极大似然估计尽管是有偏的,但具有一致性。参数约束检验可以基于极大似然估计结果通过似然比检验统计量来实现。含有对数化变量的回归方程有助于分析变量之间的弹性与半弹性。多项式模型有助于分析变量之间的U型、倒U型关系、以及判定顶点或拐点的位置。包含了解释变量的滞后项的模型被称为分布滞后模型,有助于分析解释变量对被解释变量的即期、中期乃至长期影响。,