《第6讲相关分析与回归分析.ppt》由会员分享,可在线阅读,更多相关《第6讲相关分析与回归分析.ppt(129页珍藏版)》请在课桌文档上搜索。
1、数学建模培训,第6讲 相关分析与回归分析,一、引 言,2023/11/8,4,在很多研究领域中,往往需要研究事物间的关系。如收入与受教育程度,子女身高与父母身高,商品销售额与广告费用支出,农作物产量与施肥量,上述两者间有关系吗?如果有关系,又是怎么样的关系呢?如何来度量这种关系的强弱?解决上述问题的统计方法是相关,2023/11/8,5,分析和回归分析。相关分析和回归分析的共同点是都可推断两个变量间的统计相关性。但两者的区别是明显的,主要表现在:1.变量地位 在相关分析中,两个变量地位是对等的;但在回归分析中,一个变量是因变量,其余的变量均为自变量。,2023/11/8,6,2.变量类型 相关
2、分析中的两个变量均为随机变量,而回归分析中的因变量是随机变量,但自变量可以是随机变量,也可以是非随机变量。3.研究目的 相关分析仅度量两个变量间的相关程度和方向,而回归分析则要进一,2023/11/8,7,步建立因变量与所有自变量间的回归方程,即回归分析不仅推断自变量对因变量的影响程度,还可以根据回归方程进行预测和控制。,二、相关分析,2023/11/8,9,1.概述 事物之间的关系可分为两类,一类是函数关系,另一类是相关关系。所谓相关关系指的是两个变量间存在的一种不确定的数量关系,即一个变量的取值不能由另一个变量唯一确定。相关分析研究的是相关关系。,2023/11/8,10,相关分析主要研究
3、线性相关关系,但也考察非线性相关关系。下列不属于相关关系的是()。A.产品成本与生产数量 B.球的表面积与体积 C.家庭的支出与收入 D.人的年龄与体重 下列关系是线性相关的是()。,2023/11/8,11,A.人的身高与视力 B.圆心角大小与所对弧长 C.收入水平与纳税水平 D.父母平均身高与儿子身高 相关分析主要研究变量间是否相关及相关的密切程度与方向。相关分析中最常用的是简单相关分析,即两个变量间的相关性。,2023/11/8,12,三个及三个以上变量间的关系称为复相关,它研究的是一个因变量与两个及以上自变量间的关系。通常,通过控制变量法将复相关转化为两个变量间的相关性,这种关系称为偏
4、相关。描述变量间相关性的常用统计指标是相关系数。除此之外,还可以通,2023/11/8,13,过距离来描述变量间的关系,称之为距离相关分析。下面分别介绍简单相关分析、偏相关分析和距离相关分析。2.简单相关分析 简单相关主要包括Pearson相关,Spearman相关和Kendalls相关。(1)Pearson相关系数,2023/11/8,14,Pearson相关是简单相关分析中最常用的相关分析方法,其适用范围是:连续数据;正态分布;线性关系。Pearson(线性)相关系数r的性质:|r|1;r0 时正相关;r0 时负相关;r=0时不相关,即两变量间不存在线性相关关系,但可能存在其它形式的非线性
5、关系。,2023/11/8,15,|r|0.8时高度相关;0.5|r|0.8时中度相关;0.3|r|0.5时低度相关;|r|0.3时基本不相关。由于相关系数是用样本计算得到的,带有一定的随机性,所以用样本相关性估计总体相关性的可信度需要检验。SPPS可以自动进行检验,并分,2023/11/8,16,别用“*”,“*”标注显著性水平0.05,0.01下的显著相关。(2)Spearman和Kendalls相关系数 Pearson相关系数属参数统计分析中的矩相关系数,有一定的局限性:当正态分布假设不成立时,检验结果不可信;只能度量线性相关性,不能描述非线性相关性。,2023/11/8,17,Spea
6、rman和Kendalls相关系数为非参数统计分析中的秩相关系数。当正态分布假设不成立或分析非线性相关关系时,可考虑用上述两种相关系数。但这两种相关系数最适合度量两排序变量间的相关性,对连续变量效果欠佳。,2023/11/8,18,排序变量的取值可以表示某种顺序关系,如服务满意度取值15,分别表示非常不满意,不满意,一般满意,满意,非常满意。例1 24位高水平数学家的年收入y与其研究成果指标x1,研究工作时间x2以及申请项目成功指标x3如下,分析年收入与三个指标的关系。,2023/11/8,19,解 分析-相关-双变量-调入所有变量,默认“Pearson,双侧检验,标记显著性相关”。结果显示,
7、年收入与三个指标的相关系数分别为0.668,0.859,0.673,在0.01水平下显著相关。上述相关分析只是给出了年收入与三个指标的两两线性相关程度,并,2023/11/8,20,没有给出它们之间统计学意义下的具体关系,可用回归分析进一步研究。,2023/11/8,21,3.偏相关分析 有时,由于第三个变量的作用,使得简单相关系数不能真实反映两变量间的相关性。例如,研究身高与体重的相关性时,如不考虑年龄、地域的影响,则所得相关系数有可能不能真实反映身高与体重的关系。,2023/11/8,22,偏相关分析是在控制对两变量间相关性可能产生影响的其它变量的前提下,即在剔除其它变量的干扰下,研究两变
8、量间的相关性。偏相关分析假定变量间的关系均为线性关系,没有线性关系的变量不能进行偏相关分析。因此,在偏相关分析前,可以先通过计算Pearson相关,2023/11/8,23,系数来判定两两变量间的线性关系。偏相关分析通过计算偏相关系数来研究变量间的相关性。偏相关系数的含义与检验方法与简单相关系数类似。,2023/11/8,24,例2 Pearson相关分析显示,年收入与研究工作时间相关性最强。现剔除x1,x3影响后,分析年收入与研究工作时间的关系。解 分析-相关-偏相关-y,x2调入变量,x1,x3调入控制,选择“双侧检验,标记显著性相关”。结果显示,年收入与研究工作时,2023/11/8,2
9、5,间的偏相关系数为0.825,小于简单相关系数。可见,简单相关系数有夸大的成分,偏相关系数与实际更加吻合。,2023/11/8,26,4.距离相关分析 简单相关分析和偏相关分析研究的是两个变量间的相关关系,它们不能分析两个以上变量间的相关关系。此时,可以通过距离相关分析,考察变量间的相似性。距离相关分析通过计算广义距离度量样品或变量间的相似程度。,2023/11/8,27,距离相关分析一般不单独使用,而是作为聚类分析、因子分析等的预处理过程。距离相关分析根据统计量的不同,分为不相似性测度和相似性测度。对于不相似性测度,通过计算距离来表示,距离越大,相似性越弱;对于相似性测度,通过计算 Pea
10、rson 相关系,2023/11/8,28,数来表示,其数值越大,相似程度越强。在不相似性测度距离分析中,应根据变量的类型选用不同的距离,如区间、计数、二分类。,2023/11/8,29,例3 根据8种品牌啤酒的部分调查数据,分析啤酒品牌的相似度。解 分析-相关-距离-所有指标调入变量,计算距离选“个案间”。注 SPSS中的个案指数据表中的行,即一个样本的数据;变量指数据表中的列,即同一指标的所有值。通常,考察变量间的相关性可用,2023/11/8,30,相似性测度,而个案即样品间的相似性则采用不相似性测度。显然,品牌1和品牌6最相似,而,2023/11/8,31,和品牌2最不相似。若采用相似
11、性测度,结果为 显然,样品间的相关系数都接近于1,很难辨别出其相似程度。,2023/11/8,32,例4 5名考官给10名应聘者的面试分数如下,请问各考官评分的一致性如何?哪位考官的可信度较小?各应聘者分数的差异是否明显?解 若第1问改为:请问不同考官对应聘者面试分数的影响是否显著,则勉强可用方差分析。因为考官给10应聘者打分不是严格意义下的重复试,2023/11/8,33,验。同理,若将应聘者分数做为指标,5个考官打分可视为5次重复试验(这需要假设考官的打分客观,基本无偏差),则第3问也可使用方差分析。考虑到题目和问题的特点,本题用距离分析更为合理。因为方差分析比较的是均值,而两组很不一致的
12、分,2023/11/8,34,数的均值却可能相差不大。分别对5个变量(列)做相似性分析,如果如下:,2023/11/8,35,结果显示,前4个考官的评分比较相似,一致性较好;第5个考官的评分与前4个考官的评分很不相似,一致性较差,故第5个考官的评分不太可信。为了考察应聘者分数的差异,应该对数据进行按行距离相关分析。分析结果如下:,2023/11/8,36,从上述结果可以判断,应聘者的分数差异较为明显。,三、回归分析,2023/11/8,38,1.概述 与相关分析相比,回归分析不仅能刻画变量间的线性相关程度,而且还能根据回归方程进行预测和控制。英国统计学家Galton和他的学生Pearson观察
13、了1078对夫妇,得出了其成年儿子身高y与夫妇平均身高x的统计关系为,2023/11/8,39,即父辈身高每增加或减少一个单位,其子辈身高仅增加或减少半个单位,也即子代的身高有回到同龄人平均身高的趋势。Galton称这种现象为“回归”。为了纪念Galton,后人将研究两变量间统计关系的方法称为回归分析。,2023/11/8,40,回归分析包括的内容甚广。本讲仅介绍下列基本内容:,2023/11/8,41,回归分析的过程和步骤为:(1)根据研究目的,选定指标变量 研究目的确定后,被解释变量比较容易确定。比如,研究通货膨胀时,自然选择全国零售物价总指数作为被解释变量,即因变量。但对被解释变量有影响
14、的解释变量的确定就不太容易。一是人的认识,2023/11/8,42,有局限,很难确定哪些因素对被解释变量有影响;二是回归分析要求解释变量间应该是不相关的,而研究者很难确定哪些变量相关或不相关,因为在经济领域很难找到影响同一结果的一些因素彼此之间是独立的;三是从经济关系角度考虑可能要引入某个重要变量,但实际中并无这样的统计数,2023/11/8,43,据。此时,可考虑用相近的变量替代,或由其它几个指标复合而成一个新的指标(主成分分析)。另外,不要认为回归模型包括的解释变量越多越好。若回归模型漏掉主要变量肯定会影响应用效果,但如果连一些不重要的因素也进入模型其实未必就好。,2023/11/8,44
15、,当引入的变量太多时,一来计算量大,累积的计算误差也大,估计出的模型参数精度自然不高;二来可能引入了相关性较强的变量,它们反映的信息有较严重的重叠,即所谓共线性问题。总之,回归变量的确定是一个非常重要的问题,是建立回归模型最基,2023/11/8,45,本的工作。(2)数据的采集和处理 数据的采集也是建立回归模型的重要一环。大多数建模竞赛题目会提供相关数据,但这些数据可能包含了一些无用的信息,个别数据缺失甚至失真。在建模前,需要对数据进行适当,2023/11/8,46,处理。比如标准化,剔除个别过大或过小的“野值”,用插值方法补齐空缺数据等。(3)回归模型形式的确定 收集、处理好数据后,首先要
16、确定适当的数学模型来描述这些变量间的统计关系。本讲仅介绍线性回归,对一元线,2023/11/8,47,性回归,可以根据散点图判定;对于多元线性回归,通常只能根据事后的模型的显著性检验。(4)模型参数的估计 模型确定后,就要利用样本数据对模型中的参数进行估计。估计参数的常用方法是最小二乘法。,2023/11/8,48,利用统计软件可便捷地进行参数估计。(5)模型的检验与修正 模型的参数估计完成后,只能说初步建立了回归模型,还不能立即用用这个模型进行预测和分析,因为这个模型是否真正揭示了被解释变量和解释变量间的关系还有待检验。,2023/11/8,49,回归模型通常需要进行统计检验和经济意义检验。
17、统计检验包括回归方程的显著性F检验,回归系数的显著性t检验,回归方程的拟合优度R2检验和解释变量的多重共线性检验等。由于样本容量所限或数据质量问题,回归模型可能得不到合理的经济,2023/11/8,50,解释,比如出现了国民收入与GDP负相关。当回归模型没有通过检验时,要对模型进行修正。模型的修正可以考虑变量是否设置合理,变量间是否有很强的相关性,样本量是否太少,理论模型是否合适等。(6)回归模型的应用,2023/11/8,51,当回归模型通过了各种检验后,就可以进行模型应用了。回归模型的一个重要应用是进行预测。比如根据宏观国民经济模型就可以预测下一年的GDP。这方面已有很多成功的范例。回归模
18、型的另一个重要应用是进行控制。,2023/11/8,52,因为回归模型揭示了被解释变量和解释变量间的因果统计关系,所以可以通过给定被解释变量值来控制解释变量值。例如,若想将通货膨胀控制为全国零售物价指数增长5%以下,则可以根据通货膨胀回归模型,确定货币的发行量和银行的存款利率等。,2023/11/8,53,2.一元线性回归 一元线性回归是描述两变量间统计关系的最简单的回归模型。(1)模型的建立与参数估计 根据相关背景知识或散点图,若两变量间近似呈线性关系,则可用一元线性回归模型,2023/11/8,54,其中y称为被解释变量(因变量),x称为解释变量(自变量),称为回归系数,称为随机误差。利用
19、最小二乘法,可求出的估计值。(2)回归分析的显著性检验 可以用F统计量检验回归方程的显著性。,2023/11/8,55,对于给定的显著性水平,可查表得,若根据样本计算得到的F值满足,则拒绝假设(不显著),即回归方程在 水平下是显著的。通常取,SPSS可自动进行F统计量检验。可以用t统计量检验回归系数的显著性,检验方法与F检验类似。,2023/11/8,56,还可以用决定系数R2来检验回归方程对样本观察值的拟合程度。R实际上即为相关系数;R2是衡量回归直线与样本值拟合优度的相对指标,越接近于1,表明拟合优度越好;R2与自变量个数有关,有时用调整的R2(Adj R2)更合理。,2023/11/8,
20、57,这里要特别指出上述三种检验的关系:在一元线性回归中,回归方程的F检验和回归系数的t检验等价;千万不要混淆回归方程和系数检验与R2检验。前者检验的是方程或系数的显著性,而R2表示的是因变量被自变量解释的程度。,2023/11/8,58,有时,回归方程和系数均显著,但R2却可能较小。(3)预测 预测分为单值预测和区间预测。当x=x0时,称为因变量y的单值预测值。单值预测值统计意义不大,因为对于预测问题,除了要给出预测值外,2023/11/8,59,还希望知道预测精度,这就需要做区间预测。区间预测的思路是:对于给定的显著性水平 和x=x0,给出一个区间(T1,T2),使得预测值以概率 落在此区
21、间内,此区间即置信区间。通常,SPSS会同时给出y0和y0平均值的置信区间。,2023/11/8,60,(4)控制 控制相当于预测的反问题,即要求y在一定范围内取值,如何控制x的取值。控制问题比较复杂,没有通用的方法,可采用作图法或解不等式法,这里不做详细介绍。统计软件一般不提供控制功能。,2023/11/8,61,例5 经调查,某地区住宅建筑面积和建筑成本的有关资料如下,求建筑面积与建筑成本的回归方程。解 做原始数据的散点图,近似为直线,考虑用一元线性回归。,2023/11/8,62,原始数据的散点图,2023/11/8,63,分析-回归-线性-选建造成本为因变量,建筑面积为自变量;方法可选
22、进入(全部被选变量一次进入回归模型)或逐步(每一步将有最小F概率的变量引入回归方程,若引入回归方程的变量的F概率大于设定值,则将其剔除,直到无变量被引入或剔除,则终止回归过程)。,2023/11/8,64,统计量中可选估计、置信区间、模型拟合度、描述性。绘制中选DEPENDNT为Y,ZP RED(标准化预测值)为X。保存中选择预测值(未标准化,均值预测值的S.E.),残差(未标准化),预测区间(均值,单值),2023/11/8,65,2023/11/8,66,2023/11/8,67,回归方程在0.01水平下显著。,2023/11/8,68,回归系数在0.01水平下显著。标准化系数是在将原数据
23、进行标准化之后回归生成的系数。标准化系,2023/11/8,69,数越大,表明该自变量对因变量的影响越大。在一元线性回归中,标准化回归系数等于相关系数。非标准化系数就是用原来的数据算出来的系数。若要写出回归方程,则应该用非标准化系数。,2023/11/8,70,回归分析完成后,在原数据表中增加单预测值(含残差)、均值预测值(含SEP)及两者的区间估计。若需预测新因变量值,则只需给定新自变量值,然后回归分析,即可获得预测值。也可以将模型保存,再利用新自变量值进行预测。,2023/11/8,71,3.多元线性回归 当解释变量超过一个时就需要考虑多元线性回归模型。多元线性回归模型的建立、参数估计、模
24、型的检验及应用与一元线性回归类似。多元线性回归模型为,2023/11/8,72,其中y称为被解释变量,xi称为解释变量,称为回归系数,称为随机误差。利用最小二乘法,可求出回归系数 的估计值。多元线性回归的检验与一元线性回归的检验既有相同之处,也有不同之处。,2023/11/8,73,首先可用F统计量检验回归方程的显著性,即自变量整体上对因变量是否有明显影响。在一元线性回归中,回归方程的F检验与回归系数的t检验等价。但在多元线性回归中,回归方程显著并不意味着每个自变量对因变量的影响都显著,所以还要用t统计量检验每个回,2023/11/8,74,归系数的显著性。拟合优度用于描述回归方程对样本观察值
25、的拟合程度。与一元线性回归类似,可以用确定系数R2直观地反映回归方程拟合的效果。需要指出的是,R2并不是检验模型优劣唯一标准。有时,为了使得模型从结构上有较合理的经济解释,,2023/11/8,75,R2等于0.7左右也可以给接受模型。另外,R2与自变量个数及样本容量n有关。当自变量个数及样本容量接近时,R2易接近于1,此时R2中隐含着虚假成分。总之,由R2决定模型优劣时要慎重。检验多元回归模型时要多种检验方法结合,综合评判。,2023/11/8,76,例6 某产品20022008年的销售额与流通费用、利润的数据如下,给出利润与销售额、流通费用间的回归方程。解 做原始数据的散点图,近似为平面,
26、考虑用二元线性回归。,2023/11/8,77,2023/11/8,78,2023/11/8,79,2023/11/8,80,从方差分析表中可知,回归方程显著;从系数表可知,回归系数除常量外显著;从模型汇总可知,模型拟合优度高。需要指出的是,从相关性表中可知,自变量销售额和流通费用有较高的相关性,这不符合线性回归分析的假设,即所谓多重共线性问题。,2023/11/8,81,从共线性诊断表的特征值、条件数和方差比指标可知,自变量销售额和流通费用的确存在共线性。但从系数表VIF指标可知,共线性并不太严重。共线性相关内容见后。,2023/11/8,82,4.逐步线性回归 如果在回归方程中引入了某些对
27、问题研究影响不大或与其它变量有很大程度重叠的变量,则可能增大参数估计的误差,影响回归方程的预测精度。因此,挑选对因变量有显著影响的自变量,构造“最优”回归方程十分重要。,2023/11/8,83,构造“最优”回归方程的常用方法是逐步回归法,其基本思想是:将变量逐个引入,每引入一个变量后,对已引入的变量要进行逐个检验;当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除,即每次引入新变量前回归方程只包括显著的变量。这个过程反复进行,直到既无,2023/11/8,84,显著的变量选入回归方程,也无不显著的变量从回归方程中剔除为止。例7 某种水泥在凝固时放出的热量y与水泥中的四种化学成分x1
28、,x2,x3,x4有关,观测数据如下,试从中选出主要变量,建立y关于它们的线性回归方程。解 选择逐步回归。,2023/11/8,85,2023/11/8,86,2023/11/8,87,2023/11/8,88,2023/11/8,89,2023/11/8,90,上述回归采用的是系统默认变量进入概率(0.05)和剔除概率(0.1)。若将进入概率和剔除概率修改为0.1和0.11(要求降低了),则回归分析结果如下:,2023/11/8,91,2023/11/8,92,2023/11/8,93,2023/11/8,94,2023/11/8,95,2023/11/8,96,2023/11/8,97,2
29、023/11/8,98,选用全部变量的回归结果为:,2023/11/8,99,2023/11/8,100,两次逐步回归模型包括的变量分别为x1,x4(默认进入和剔除概率)和x1,x2(不同的进入和剔除概率),而根据全部进入回归分析结果,后者更为合理。虽然逐步回归能在一定程度上有助于选择显著变量,但它存在着下列缺陷:,2023/11/8,101,(1)进入或剔除概率设置不当时,逐步回归法可能得到的只是局部最优方程,甚至会出现“未输入任何变量到方程中”情况。(2)极端情况下,逐步回归法可能会漏掉重要的变量。(3)逐步回归法不能完全消除多重共线性。,2023/11/8,102,可见,对逐步回归法要有
30、正确的认识,不能盲从。在实际中,最好将逐步回归与进入回归结合起来选择显著变量。此外,还要注意从变量的实际背景(比如经济学意义)进行选择。,2023/11/8,103,5.基本假设不成立时的线性回归 回归模型有下列三个基本假设:对于(1)方差齐性(2)不相关性(3)自变量线性无关性 线性无关,2023/11/8,104,当 时,称为异方差性。当 时,称为自相关性。异方差性和自相关性可能会导致参数估计非有效,显著性检验无意义,预测精度低。当 线性相关时,称为,2023/11/8,105,多重共线性。下面对多重共线性做简要介绍。(1)多重共线性的不良后果 若两个自变量x1,x2存在线性关系,此时它们
31、前的参数 并不反映x1,x2与因变量间的结构关系,而是反映它们对因变量的共同影响。这就导致 失去了应有的经济意义,,2023/11/8,106,使得对回归方程无法进行合理的经济解释,降低了回归方程的应用价值。例8 为了研究财政收入,建立了1978年2003年财政收入与农业增加值、工业增加值、建筑业增加值、总人口、消费、受灾面积的回归模型。数据见中国统计年鉴2004。回归分析的结果如下:,2023/11/8,107,2023/11/8,108,F统计量为632.10,表明在0.05水平下回归方程显著;决定系数为0.995,模型拟合得很好,模型对财政收入的解释程度高达99.5%。t检验表明,除农业
32、增加值、工业增加值和总人口外,其它因素对财政收入的影响均不显著。农业增加值和建筑业增加值的回,2023/11/8,109,归系数小于零,即农业和建筑业的发展反而会使财政收入减少。这显然与理论和实际不符!本例显示了多重共线性的典型后果:回归方程显著,决定系数也很高,但某些回归系数的t检验却不显著,甚至使得回归系数符号相反,无法正确反映该解释变量对被解释变量的单,2023/11/8,110,独影响。(2)多重共线性产生的原因 多重共线性产生的主要原因有:许多经济变量间存在密切的关联,互相依存,互相制约,往往存在同方向的变化趋势。当它们成为解释变量时,就会出现共线性现象。利用截面数据建立的回归方程,
33、2023/11/8,111,往往存在共线性。自变量选择不当时,也容易出现共线性。在实际中,自变量完全不相关不太可能,即共线性不太可能完全避免,只能设法降低。(3)多重共线性的诊断 多重共线性有下列判定方法:,2023/11/8,112,相关系数检验法若两个解释变量的简单相关系数较高(0.8),则可认为存在较严重的共线性。但要注意,高相关系数是共线性存在的充分条件,即相关系数高一定存在共线性,但相关系数低的变量间也不一定没有共线性。况且,相关系数法也只适用于两,2023/11/8,113,个变量共线性的判定。可见,不能简单地依据相关系数进行多重共线性的准确判定。方差膨胀因子法(误差)理论证明,共
34、线性可以引起参数估计的方差增大,所以方差膨胀因子(VIF)可以做为共线性的判定标准。当1VIF10时,可以认为共线,2023/11/8,114,性不严重;当VIF10时,则认为该解释变量与其余某些解释变量间有较严重的共线性。SPSS可以自动计算每个参数的VIF。特征值(奇异)或条件数(稳定)判定法根据线性代数知识,可以用XTX的特征值判定共线性。,2023/11/8,115,XTX有几个特征值接近于零,就有几个共线性关系。也可用条件数CI判定共线性。当0100时,共线性非常严重。SPSS可以自动计算特征值和特征值CI。,2023/11/8,116,不显著系数检验法当F检验显著,而某些参数的t检
35、验不显著或估计值符号有误,则直观上可以判定存在共线性。(4)多重共线性的消除方法 剔除一些不重要的自变量将VIF最大值对应的自变量剔除后再建立回归方程,直到回归方程中不再,2023/11/8,117,出现严重的共线性。此方法可以与逐步回归法结合使用。增大样本容量虽然增大样本容量不一定能消除共线性,但可以减小估计量的方差,即可以消除共线性的不良后果。,2023/11/8,118,例9 建立全国旅游收入多元回归模型。考虑的自变量有国内旅游人数x1、城镇居民人均旅游支出x2、农村居民人均旅游支出x3、公路里程x4、铁路里程x5。具体数据见下表,数据来源中国统计年鉴。,2023/11/8,119,20
36、23/11/8,120,选用全部变量的回归结果为:,2023/11/8,121,2023/11/8,122,结果显示,模型调整R2为0.99,F统计量为173,回归方程显著。但对0.05显著性水平,不仅x1和x5的t检验不显著,而且x5的系数与预期的相反。这表明极有可能存在严重的多重共线性。,2023/11/8,123,2023/11/8,124,相关系数表显示,各变量间确存在严重的多重共线性。进一步从系数及共线性诊断表中确认存在严重的多重共线性。将VIF最大的x5剔除,再做线性回归。结果显示,x1的VIF仍超标。继续将x1剔除,接着做回归。,2023/11/8,125,剔除x5后的回归结果再剔除x1后的回归结果,2023/11/8,126,最终模型的结果为,模型调整R2为0.987,F统计量为233,回归方程显著。不仅x2,x3,x4的t检验均显著,而且对应的VIF均小于10,即多重共线性得以基本消除。从预测值也可看出,最终模型的预测精度有明显提高。,2023/11/8,127,最后对数据做逐步回归,结果如下:,2023/11/8,128,2023/11/8,129,显然,逐步回归选择的自变量及回归分析结果与前一模型完全一致。,