《第3章多元线性回归.ppt》由会员分享,可在线阅读,更多相关《第3章多元线性回归.ppt(59页珍藏版)》请在课桌文档上搜索。
1、第三章 多元线性回归,3.1 多元线性回归模型3.2 回归参数的估计3.3 参数估计量的性质3.4 回归方程的显著性检验3.5 中心化和标准化3.6 相关阵与偏相关系数3.7 本章小结与评注,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,y=0+1x1+2x2+pxp+,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,对n组观测数据(xi1,xi2,xip;yi),i=1,2,n,线性回归模型表示为:,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,写成矩阵形式为:y=X+,其中,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,1.解释变量x1,x2,
2、xp是确定性变量,不是随机变量,且要求rk(X)=p+1n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,2.随机误差项具有0均值和等方差,即,这个假定称为Gauss-Markov条件,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,3.正态分布的假定条件为:,用矩阵形式(3.5)式表示为:,N(0,s2In),3.1 多元线性回归模型,二、多元线性回归模型的基本假定,在正态假定下:,yN(X,s2In),E(y)=Xvar(y)=s2In,3.1 多元线性回归模型,三、多元线性回归方程的解释,y表示空调机的销售量,
3、x1表示空调机的价格,x2表示消费者可用于支配的收入。,y=0+1x1+2x2+E(y)=0+1x1+2x2,在x2保持不变时,有,在x1保持不变时,有,3.1 多元线性回归模型,三、多元线性回归方程的解释,考虑国内生产总值GDP和三次产业增加值的关系,GDP=x1+x2+x3,现在做GDP对第二产业增加值x2的一元线性回归,得回归方程,3.1 多元线性回归模型,3.1 多元线性回归模型,三、多元线性回归方程的解释,建立GDP对x1和x2的回归,得二元回归方程,=2 914.6+0.607 x1+1.709 x2,你能够合理地解释两个回归系数吗?,3.2 回归参数的估计,一、回归参数的普通最小
4、二乘估计,最小二乘估计要寻找,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,经整理后得用矩阵形式表示的正规方程组,移项得,存在时,即得回归参数的最小二乘估计为:,3.2 回归参数的估计,二、回归值与残差,为回归值,称为帽子矩阵,其主对角线元素记为hii,则,3.2 回归参数的估计,二、回归值与残差,此式的证明只需根据迹的性质tr(AB)=tr(BA),因而,3.2 回归参数的估计,二、回归值与残差,cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)=2(I-H)In(I-H)=2(I-H
5、),得 D(ei)=(1-hii)2,i=1,2,n,3.2 回归参数的估计,二、回归值与残差,是2的无偏估计,3.2 回归参数的估计,三、回归参数的最大似然估计,yN(X,2In),似然函数为,等价于使(y-X)(y-X)达到最小,这又完全与OLSE一样,3.2 回归参数的估计,例3.1国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮
6、业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。,3.2 回归参数的估计,3.3 参数估计量的性质,性质1 是随机向量y的一个线性变换。,性质2,是的无偏估计。,3.3 参数估计量的性质,3.3 参数估计量的性质,当p=1时,3.3 参数估计量的性质,性质4 Gauss-Markov定理,预测函数,是 的线性函数
7、,Gauss-Markov定理 在假定E(y)=X,D(y)=2In时,的任一线性函数 的最小方差线性无偏估计(Best Lnear Unbiased Estimator简记为BLUE)为c,其中c是任一p+1维向量,是的最小二乘估计。,3.3 参数估计量的性质,第一,取常数向量c的第j(j=0,1,n)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是j的最小方差线性无偏估计。第二,可能存在y1,y2,yn的非线性函数,作为 的无偏估计,比最小二乘估计 的方差更小。第三,可能存在 的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计 更好。第四,在正态假定下,是 的最小方差无
8、偏估计。也就是说,既不可能存在y1,y2,yn的非线性函数,也不可能存在y1,y2,yn的其它线性函数,作为 的无偏估计,比最小二乘估计 方差更小。,3.3 参数估计量的性质,性质5 cov(,,e)=0,此性质说明 与e不相关,在正态假定下等价于与e独立,从而与 独立。,性质6 在正态假设,(1),(2),3.4 回归方程的显著性检验,一、F检验,H0:1=2=p=0,SST=SSR+SSE,当H0成立时服从,3.4 回归方程的显著性检验,一、F检验,3.4 回归方程的显著性检验,二、回归系数的显著性检验,H0j:j=0,j=1,2,p,(,(X)-1),记(X)-1=(cij)i,j=0,
9、1,2,p,构造t统计量,其中,3.4 回归方程的显著性检验,二、回归系数的显著性检验(剔除x1),3.4 回归方程的显著性检验,二、回归系数的显著性检验,3.4 回归方程的显著性检验,二、回归系数的显著性检验,从另外一个角度考虑自变量xj的显著性。y对自变量x1,x2,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则 自变量xj对回归的贡献为SSR(j)=SSR-SSR(j),称为xj的偏回归平方和。由此构造偏F统计量,3.4 回归方程的显著性检验,二、回归系数的显著性检验,
10、当原假设H0j:j=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj2,3.4 回归方程的显著性检验,三、回归系数的置信区间,可得j的置信度为1-的置信区间为:,3.4 回归方程的显著性检验,四、拟合优度,决定系数为:,y关于x1,x2,xp的样本复相关系数,3.5 中心化和标准化,一、中心化,经验回归方程,经过样本中心,将坐标原点移至样本中心,即做坐标变换:,回归方程转变为:,回归常数项为,3.5 中心化和标准化,二、标准化回归系数,当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一
11、回归方程为:,其中x1的单位是吨,x2的单位是公斤,3.5 中心化和标准化,二、标准化回归系数,样本数据的标准化公式为:,得标准化的回归方程,3.5 中心化和标准化,二、标准化回归系数,标准化回归系数,3.6 相关阵与偏相关系数,一、样本相关阵,自变量样本相关阵,增广的样本相关阵为:,3.6 相关阵与偏相关系数,一、样本相关阵,3.6 相关阵与偏相关系数,二、偏判定系数,当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。偏相关系数可以度量p+1个变量y,x1,x2,xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。,3.6 相关阵与偏
12、相关系数,二、偏判定系数,偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变差的相对减少量,它衡量y的变差减少的边际贡献。,3.6 相关阵与偏相关系数,二、偏判定系数,以x1表示某种商品的销售量,x2表示消费者人均可支配收入,x3表示商品价格。从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。,3.6 相关阵与偏相关系数,1两
13、个自变量的偏判定系数,二元线性回归模型为:yi=0+1xi1+2xi2+i,记SSE(x2)是模型中只含有自变量x2时y的残差平方和,SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:,此即模型中已含有x2时,y与x1的偏判定系数。,3.6 相关阵与偏相关系数,1两个自变量的偏判定系数,同样地,模型中已含有x1时,y与x2的偏判定系数为:,3.6 相关阵与偏相关系数,2.一般情况,在模型中已含有x2,xp时,y与x1的偏判定系数为:,3.6 相关阵与偏相关系数,三、偏相关系数,偏判定系数的平方根称为偏相关系数,其
14、符号与相应的回归系数的符号相同。,例3.2 研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量,x1为截至1998年底各开发区累计招商数目,x2为招商企业注册资本(百万元)。表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。,3.6 相关阵与偏相关系数,三、偏相关系数,北京开发区数据,3.6 相关阵与偏相关系数,三、偏相关系数,偏相关系数表,3.6 相关阵与偏相关系数,三、偏相关系数,用y与x1做一元线性回归时,x1能消除y的变差SST的比例为,再引入x2时,x2能消除剩余变差SSE(X1)的比例为,因而自变量
15、x1和x2消除y变差的总比例为,=1-(1-0.651)(1-0.546)=0.842=84.2%。,这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R2,3.6 相关阵与偏相关系数,三、偏相关系数,对任意p个变量x1,x2,xp定义它们之间的偏相关系数,其中符号ij表示相关阵第i行第j列元素的代数余子式,验证,3.7 本章小结与评注,例3.3 中国民航客运量的回归模型。y民航客运量(万人),x1国民收入(亿元),x2消费额(亿元),x3铁路客运量(万人),x4民航航线里程(万公里),x5来华旅游入境人数(万人)。根据1994年统计摘要获得1978-1993年统计数据,3.7 本章小结与评注,3.7 本章小结与评注,3.7 本章小结与评注,3.7 本章小结与评注,