《第11章相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《第11章相关与回归分析.ppt(42页珍藏版)》请在课桌文档上搜索。
1、第十一章 相关与回归分析,一、相关与回归分析的基本概念二、简单线性回归分析三、相关分析,一、相关与回归分析的基本概念,函数关系与相关关系 函数关系:当一个或几个变量取值一定时,另一个变量有确定值与之对应,我们称这种关系为确定的函数关系。相关关系:当一个或几个相互联系的变量取一定数值时,与之对应的另一个变量的值虽然不确定,但它仍按某种规律在一定范围内变化,我们称这种相互关系为具有不确定性的相关关系。函数关系和相关关系在一定条件下可以相互转化。,一、相关与回归分析的基本概念,相关关系的种类,相关,完全相关;不完全相关;不相关(按相关程度划分),正相关;负相关(按相关方向划分),线性相关;非线性相关
2、(按相关形式划分),单相关;复相关;偏向关(按变量多少划分),真实相关;虚假相关(按相关性质划分),一、相关与回归分析的基本概念,相关分析和回归分析 相关分析:用一个指标来表明现象间相互依存关系的密切程度。回归分析:根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量之间的平均变化关系。相关分析和回归分析联系:不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。相关关系与回归分析区别:前者研究变量之间的相关方向和相关程度,但不能指出变量之间相互关系的具体形式,从而无法从一个变量的变化来推测另一个变量的变化情况,同时不必确定哪个变量是自变量,哪个变量是应变量;后者则不然。相关
3、分析和回归分析的局限性,一、相关与回归分析的基本概念,相关表和相关图 相关表是反映变量之间相关关系的统计表。将某一变量按其值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。,年销售收入和广告费原始资料,销售收入与广告费相关图,一、相关与回归分析的基本概念,相关图(散点图):是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间的相关的图形。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,
4、。,。,。,。,X,Y,O,O,O,O,X,X,X,Y,Y,Y,a、正相关,b、负相关,c、曲线相关,d、不相关,二、一元线性回归分析,标准的一元线性回归模型 1.总体回归函数 一元线性回归模型的基本形式:Yi=+Xi+u i 该式被称为总体回归函数。式中的和是未知参数,又称回归系数;Yi和Xi分别是Y和X的第i次观测值;ui是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。由模型可知:Y是由X的线性函数(+Xi)和误差项 u i组成,其中(+Xi)是Y的数学期望,即:E(Yi)=+Xi,二、一元线性回归分析,E(Yi)=+Xi 上式表明:在X的值
5、给定的条件下,Y的期望值是X的严密的线性函数。这条直线被称为总体回归线,Y的实际观测值并不一定位于该直线上,只是散布在直线的周围。随机误差项u i是实际观测点和总体回归线垂直方向的距离,即 u i=Yi-E(Yi),。,。,。,。,。,。,。,。,。,。,u i,X,Y,Yi,Xi,o,E(Yi)=+Xi,二、一元线性回归分析,2.样本回归函数 样本回归直线:根据样本数据拟合的直线;样本回归曲线:根据样本数据拟合的曲线。一元线性回归模型的样本回归直线可表示为:式中,是样本回归线上与Xi相对应的Y值,可视为E(Yi)的估计;是样本回归函数的截距系数;是样本回归函数的斜率系数,它们都是对总体回归系
6、数 的估计。,二、一元线性回归分析,实际观测到的应变量Yi值,并不完全等于,如果用e i 表示两者之差(Yi-)则有:上式称为样本回归函数。式中ei 称为残差,在概念上,e i 与总体误差项ui相对应;n是样本容量。样本回归函数与总体回归函数的区别:总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可拟合一条样本回归线。总体回归函数中的,是未知的参数,表现为常数。而样本回归函数中的,是随机变量,其具体数值随抽取的样本观测值不同而变动。总体回归函数中的ui是Yi与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的e i是Yi与样本回归线之间
7、的纵向距离,当根据样本观测值拟合出样本回归线之后,便可计算出数值。,(i=1.2,n),二、一元线性回归分析,3.随机误差项的标准假定 假定1:E(u i)=0;假定2:V(u i)=E(u i2)=2 假定3:C o v(u i,u j)=E(u i,u j)=0 假定4:自变量是给定的变量,与随机误差项线性无关 假定5:随机误差项服从正态分布 满足上述标准假定的一元线性回归模型,称为标准的一元线性回归模型。,。,。,。,。,。,。,X,Y,O,。,。,。,。,。,。,。,。,。,。,。,。,。,X1,X2,X n,E(Y1),E(Y2),E(Y n),二、一元线性回归分析,4.未知参数,的
8、估计 回归分析的主要任务就是建立能够近似反映真实总体回归函数的样本回归函数。在根据样本资料确定样本回归方程时,一般总是希望Y的估计值从总体来看,尽可能接近其实际观测值,为此我们用残差平方和 作为衡量总偏差的尺度。Q=残差平方和Q的大小依赖于 的取值。根据微积分中求极小值的原理,可知Q存在极小值,同时欲使Q打到最小,Q对 的偏导数必须为零。即,二、一元线性回归分析,二、一元线性回归分析,5.未知参数 的估计 是随机误差u i的方差,其大小可以反映回归直线拟合程度的好坏,所以必须对 做出估计。由于 未知,从而无法求出u i。因此我们用e i作为u i的估计值,其中 并把作为未知参数 的估计。并把
9、的正平方根称为回归估计的标准误差,二、一元线性回归分析,例1 对下表给出的数据,试用最小二乘法求水稻产量Y对化肥用量X的回归直线,并求2的估计。,化肥用量与水稻产量,二、一元线性回归分析,解:回归系数的计算常常列成如表:,二、一元线性回归分析,所求回归直线方程:由此可计算出,二、一元线性回归分析,6.参数估计的性质,二、一元线性回归分析,二、一元线性回归分析,二、一元线性回归分析,二、一元线性回归分析,7.参数,的假设检验,二、一元线性回归分析,的假设检验:第一步:建立假设:H0:=0;H1:0 第二步:选择统计量:第三步:取显著水平,确定拒绝域 第四步:计算统计量T的观测值t 第五步:作决策
10、。,二、一元线性回归分析,最重要的场合是0=0,这时零假设H0:=0。若此时零假设成立,则线性模型化为:Yi=+u i i=1,2,n这表明:变量Y不依赖于X,也即X,Y间不存在线性关系。例2 试问例1中的水稻产量Y与化肥量X是否确实存在显著的线性关系?第一步:提出统计假设:H0:=0;H1:0 第二步:选择统计量:第三步:对显著水平.,确定拒绝域 第四步:计算统计量T的观测值:,第五步:t=6.532.571,拒绝原假设。,二、一元线性回归分析,的假设检验:同理,对检验假设H0:=0,可以用统计量:对于例1,现在检验假设:H0:=300。t=,现在t=2.1194t0.05/2(5)=2.5
11、7,因此接受原假设。,二、一元线性回归分析,拟合程度评价 拟合程度:指观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣,最常用的数量指标是可决系数(又称判决系数)。该指标是建立在对总离差平方和进行分解的基础上。,。,X,Y,Y,Yi,X i,O,二、一元线性回归分析,对 两边平方可得:,这里可用的条件:,从而有,即:SST=SSR+SSE,二、一元线性回归分析,SST=SSR+SSE 其中:SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是回归直线无法解释的离差平方和,称为残差平方和。两边同时除以SST,得 1=SSR/SST+SSE/
12、SST 其中SSR/SST被定义为可决系数,用R2表示,则有 R2=SSR/SST=1-SSE/SST 可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越大,可决系数越小,模型拟合程度也低,二、一元线性回归分析,例3 计算例1中的拟合的样本回归方程的可决系数 解:对检验假设H0:=0的F检验 第一步:提出假设:H0:=0;H0:0 第二步:选取统计量,=0,二、一元线性回归分析,第三步:在显著水平下,确定拒绝域为 第四步:计算统计量F=(n-2)SSR/SSE的观测值 第五步:作决策 例4 对例1中原假设H0:=0进行F检验(=0.05)。F=5*(SST-SSE)/SSE=
13、5*(22150-2327.38)/2327.38=42.59 F0.05(1,5)=6.61,拒绝域(6.61,+)42.596.61,所以拒绝原假设,即水稻产量与化肥用量显著地线性相关。,二、一元线性回归分析,一元线性回归方差分析表,R2=SSR/SST,二、一元线性回归分析,7.预测及预测区间 回归方程一经求得并通过检验,既能用来研究变量之间的联系,也能用来进行预测或控制。如例1中的回归方程:Y=245.36+5.3214X求得后,问化肥用量是27kg的话,水稻产量将是多少?注意:用 作为Y0的预测值,实际上它是Y0之均值的估计。实际中还需要知道所谓预测精度。正如我们并不满足于参数的点估
14、计而还要给出参数区间估计一样,常常希望给出一个类似于置信区间的预测区间,也即在给定的显著水平下,找到一个正数,使 为此,我们要求出 的分布,易知 也服从正态分布,且 Y0 与 Y0 相互独立。,二、一元线性回归分析,上式中2是未知的,通常用它的无偏估计代入,可得统计量,二、一元线性回归分析,二、一元线性回归分析,预测区间上下限,X,Y,Y,X,X0,X0,二、一元线性回归分析,例5 如例1中的回归方程:Y=245.36+5.3214X,问化肥用量是27kg的话,求水稻产量的预测值,以及预测区间(=0.05)?解:X0=27时的预测值是,二、一元线性回归分析,Eviews 软件在回归方程中的运用
15、 一元线性回归模型:利用1990年2005年中国GDP与外贸出口EX的数据,求GDP与EX回归方程。多元线性回归模型:利用1990年2005年中国GDP、外贸出口额EX和 固定资产投资额GZ,求GDP与EX、GZ的回归方程。,三、相关分析,相关系数的定义 单项关分析是对两个变量之间的相关程度进行分析,其所用的指标称为简单相关系数。通常以表示总体相关系数,以r表示样本的相关系数。,三、相关分析,相关系数r与可决系数R2 简单线性回归模型中只有一个自变量和应变量,其样本回归方程的拟合程度取决于X与Y的相关程度,因此,在这样的场合下,相关系数r的平方就等于可决系数R2。相关系数具有以下特点:1.r的
16、取值介于-1与1之间;2.当r=0时,说明X与Y的样本观测值之间没有线性关系;3.当r=1时,说明X与Y完全线性相关,而且是完全正相关;4.当r=-1时,说明X与Y完全线性相关,而且是完全负相关;5.r是对变量之间线性相关关系的度量。R=0只是表明两个变量之间不存在线性关系,并不意味着X与Y不存在其他类型的关系。,三、相关分析,样本相关系数与可决系数也有明显的区别:1.研究对象,前者针对两个变量,后者针对回归模型;2.前者可正可负,后者具有非负性。例8 计算例1中的X与Y的样本相关系数,三、相关分析,简单相关系数的检验 第一步:提出假设:H0:=0;H1:0;第二步:选取检验统计量:在原假设成
17、立下,统计量 第三步:在显著水平 下,确定拒绝域为:第四步:根据样本观察值,计算出统计量T的值t;第五步:作决策 例1中求得r=0.946,n=7,则t=t0.05/2(5)=2.571,所以拒绝零假设=0,说明X与Y间的线性相关程度是显著的。,课堂训练:,设销售收入X为自变量,销售成本Y为应变量。现已根据某百货公司12个月的有关数据计算出如下数据(单位:万元)要求:1.拟合简单线性回归方程,并对方程中回归系数的经济含义作出解释;2.计算可决系数和回归估计的标准误差;3.对进行显著水平为5%的显著检验;4.假定明年1月销售收入为800万元,利用拟合的回归方程预测相应的 销售成本,并给出置信度为95%的预测区间。,