《SPSS实验报告-线性回归-曲线估计.doc》由会员分享,可在线阅读,更多相关《SPSS实验报告-线性回归-曲线估计.doc(6页珍藏版)》请在课桌文档上搜索。
1、数据分析实务与案例实验报告曲线估计一、 实验目的1. 准确理解曲线回归分析的方法原理.2. 了解如何将本质线性关系模型转化为线性关系模型进行回归分析.3. 熟练掌握曲线估计的SPSS操作.4. 掌握建立合适曲线模型的判断依据.5. 掌握如何利用曲线回归方程进行预测.6. 培养运用多曲线估计解决身边实际问题的能力.二、 准备知识1. 非线性模型的基本内容变量之间的非线性关系可以划分为 本质线性关系和本质非线性关系.所谓本质线性关系是指变量关系形式上虽然呈非线性关系,但可以通过变量转化为线性关系,并可最终进行线性回归分析,建立线性模型.本质非线性关系是指变量之间不仅形式上呈现非线性关系,而且也无法
2、通过变量转化为线性关系,最终无法进行线性回归分析,建立线性模型.本实验针对本质线性模型进行. 下面介绍本次实验涉与到的可线性化的非线性模型,所用的变换既有自变量的变换,也有因变量的变换.乘法模型:其中,都是未知参数,是乘积随机误差.对上式两边取自然对数得到上式具有一般线性回归方程的形式,因而用多元线性回归的方法来处理.然而,必须强调指出的是,在求置信区间和做有关试验时,必须是,而不是,因此检验之前,要先检验是否满足这个假设.三、 实验内容已有很多学者验证了能源消费与经济增长的因果关系,证明了能源消费是促进经济增长的原因之一.也有众多学者利用C-D生产函数验证了劳动和资本对经济增长的影响机理.所
3、有这些研究都极少将劳动、资本、和能源建立在一个模型中来研究三个因素对经济增长的作用方向和作用大小.现从我国能源消费、全社会固定资产投资和就业人员的实际出发,假定生产技术水平在短期能不会发生较大变化,经济增长、全社会固定资产投资、就业人员、能源消费可以分别采用国内生产总值、全社会固定资产投资总量、就业总人数、能源消费总量进行衡量,并假定经济增长与能源消费、资本和劳动力的关系均满足C-D生产函数.问题中的C-D生产函数为:式中:Y为GDP,衡量总产出;K为全社会固定资产投资,衡量资本投入量;L为就业人数,衡量劳动投入量;E为能源消费总量,衡量能源投入量;A,为未知参数.根据C-D函数的假定,一般情
4、形,均在0和1之间,但当,中有负数时,说明这种投入量的增长,反而会引起GDP的下降,当,中出现大于1的值时,说明这种投入量的增加会引起GDP成倍增加,这在经济学现象中都是存在的.以我国19852004年的有关数据建立了SPSS数据集,参见data16-2.sav.请以此数据集为基础估计生产函数中的未知参数.四、 实验步骤与结果分析1. 确定非线性回归模型的类型有上述分析过程确定要建立的回归模型为:式中,Y为自变量,K,L,E为解释变量,A为常数项.2. 通过变换将非线性方程转化为线性方程将原回归模型两遍同时取对数:得:式中,.选择转换计算变量,对所有数据取对数完成数据的处理,过程与结果如下图:
5、3. 进行初步线性回归分析选入所有变量用最小二乘法建立回归方程由非线性模型转化为线性模型后,即可按照建立多元线性回归模型的步骤进行操作,求得回归方程表达式.(1) 选择分析回归线性,弹出线性回归对话框.将lnY选入因变量框,lnk到lnE选入自变量框.注意,可以通过点击上一张与下一张按钮切换,选择不同的自变量构建模型,每个模型中可以对不同的自变量采用不同的方法进行回归.方法下拉框中有5个选项,此处先选择进入,即所选变量全部强行进入回归模型.(2) 点击统计量按钮,选择输出各种常用判别统计量,本案例选择估计、 模型拟合度、描述性、共线性诊断,以与残差中的Durbin-Watson检验和个案诊断.
6、得到如下结果:由模型汇总表,拟合优度很强.统计量DW=0.763,该检验用于判断相邻残差序列的相关性,其判断标准如下:DWdL,认为残差序列存在正的一阶自相关;duDW4-dL,认为残差序列间存在负的一阶自相关;dLDWdU或4-dUDW4-dL时,无法确定残差序列是否存在自相关.本例中,k=4,n=21k为解释变量的数目,包括常数项,n是观察值的数目时,5%的上下界:dL=1.03,dU=1.67.有,认为残差序列存在一阶自相关.由方差分析表,统计量F=594.101,p值小于0.05,认为方程在95%的置信水平下是显著的.但是,变量lnK、lnL、常量lnA的t值均大于2.110,所以这几
7、个变量对方程的影响都很显著,而变量lnE的t值很小且p值明显大于0.05且回归系数为零,说明该变量对方程影响不显著,回归模型是无效的.4. 消除模型中变量的共线性逐步回归共线性统计量中,容忍度Tolerance越接近于0,表示复共线性越强,越接近于1,复共线性越弱.而方差膨胀因子VIF的值越接近于1,解释变量间的多重共线性越弱,如果VIF的值大于或等于10,说明一个解释变量与其他解释变量之间有严重的多重共线性.本例中,变量lnK和lnE的VIF值都大于10,说明它们与其他解释变量之间有严重的多重共线性,不符合经典假设,需要修正. 通过以上结果分析,采用逐步回归的方法来消除变量之间的多重共线性.
8、重复以上步骤从新建立回归方程,将进入替换为逐步如下图所示:得到如下结果:从上表可以看出通过逐步回归剔除掉了变量lnE,整个模型的拟合优度上升,调整R方从0.989上升至0.990.方差膨胀因子VIF值均小于10,多重共线性已消除.T检验的概率明显小于0.05说明变量对模型的影响显著.而此时DW值并未有明显改变,残差序列仍然存在一阶自相关.此时采用数据变换的方法来消除残差的自相关.5. 消除残差的自相关对于自相关的处理方法,其基本思想是通过一些数学转化,对数据进行处理,消除数据的自相关性,在对参数进行估计.当误差序列的自相关系数已知,且时,采用差分法,即利用增量数据来代替原有的样本数据建立方程.
9、当误差序列的自相关系数未知时,先求处自相关系数,再通过反复迭代法消除来自相关.我们知道DW与之间的近似关系:其中:因为DW=0.764,代入上式很明显得出不为1,所以此处不能用差分而采用迭代的方法消除自相关性.这里先求出lny的一元线性回归方程:中的残差,i=1, ,n,将残差代入如下公式:其中残差序列代入上式求的一阶自相关系数再令:用EXCEL完成数据的迭代得到新的数据,这里用Y1代表原先的lnY,K1代表原先的lnK,L1代表原先的lnL.并导入到SPSS中,重复以上步骤对新的数据进行回归分析.得出结果的:数据经过一次迭代以后DW的值有明显增加,查表k=3,n=20k为解释变量的数目,包括
10、常数项,n是观察值的数目时,5%的上下界:dL=1.10,dU=1.54.有duDW4-dU,认为残差序列间不存在一阶自相关.此时得到新的回归方程:6. 残差正态性检验点击绘制按钮,将ZRESID选入Y轴,ZPRED选入X轴,绘制散点图,并在标准化残差图中选择直方图,输出带有正态曲线的标准化残差的直方图.点击保存按钮,在对话框中保存一些统计量的值,此案例在预测值框中选择未标准化,在残差框中选择未标准化,在预测区间框中选择均值和单值.其他不变,点击继续确定.输出结果如下图:上面操作已输出残差的直方图,还可以通过分析描述统计P-P图和分析描述统计Q-Q图输出正态分布的P-P图、Q-Q图,若散点围绕
11、图中所给斜线有规律的分布,则可以认为所检测变量服从正态分布.P-P图Q-Q图从以上图形可以初步认为该模型的残差服从正态分布.进一步进行K-S检验.选择分析非参数检验旧对话框1-样本 K-S检验,弹出单样本Kolmogorov-Smirnov检验窗口,将未标准化残差选入变量框,K-S检验输出结果K-S检验统计量为0.676,检验概率p值为0.751,大于0.05,可以认为在95%的置信水平下,该模型的残差服从正态分布.7. 残差的其他检验(1) 异方差检验:根据回归分析输出的标准化残差的散点图,初步判断是否存在异方差,但此种判断方法较主观,且不容易判断.进一步用Spearman等级相关检验分析是
12、否存在异方差.首先对未标准化残差取绝对值,点击转换计算变量,弹出计算变量窗口,目标变量输入abs,数学表达式输入abs,选择分析相关双变量,将abs、所有回归变量与未标准化预测值选入变量框中,相关系数栏选择Spearman,点击确定.Spearman相关系数表观察系数表的abs行,发现未标准化预测值与残差绝对值的相关性p值为0.443大于0.05,说明该模型的残差不存在的异方差问题.五、 实验总结根据上述分析,采用逐步回归法得到最后确定的回归方程:其中代入上式得回归方程为:将上式同时取以e为底数进行指数变换得到非线性模型中的本质线性关系的方程:根据所建的回归方程可以看出社会固定资产投资K和劳动力L对GDP增长的影响较明显,而能源的消费对经济的增长没有明显影响.经济增长对能源消费无非线性影响.