《岭回归和lasso.docx》由会员分享,可在线阅读,更多相关《岭回归和lasso.docx(5页珍藏版)》请在课桌文档上搜索。
1、一、普通最小二乘估计带来的问题当自变量间存在多重共线性时,回归系数估计的方差就很大,估计值就很不稳定。此时模型或数据的微小变化有可能造成系数估计的较大变化,对预测值产生较大影响。下面进一步用一个模拟的例子来说明这一点。例1假设与,孙与y的关系服从线性回归模型y=10+2x1+3x2+给定与,M的10个值,如下表:序号12345678910Xl1.11.41.71.71.81.81.92.02.32.4X21.11.51.81.71.91.81.82.12.42.5Ei0.8-0.50.4-0.50.21.91.90.6-1.5-1.5小16.316.819.218.019.520.921.12
2、0.920.322.0现在我们假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计值得:y0=l1.292,31=11,307,=-6.591而原模型的参数JSo=I0,=2,=3看来相差太大。计算XI,X2的样本相关系数得口2二0.986,说明Xl与X2之间高度相关。二、岭回归提出的背景岭回归是1970年由Hoerl和Kennard提出的,它是一种有偏估计,是对最小二乘估计的改良。假定自变量数据矩阵X=回为ZIXP的,通常最小二乘回归(Ols)寻求那些使得残差平方和最小的系数即岭回归那么需要一个惩罚项来约束系数的大小,其惩罚项就是在上面的公式中增加一项1j2,即岭回归的系数既要使得
3、残差平方和小,又不能使得系数太膨胀:这等价于在约束条件器=Ss下,满足设有多重线性回归模型y=X。+,参数月的最小二乘估计为6=(W1zy那么以M-琲=2tr(W1当自变量出现多重共线性时,普通最小二乘估计明显变坏。当KrI。O时,J就会变得很大,这时,尽管6是4的无偏估计,但方很不稳定,在具体取值上与真值有较大的偏差,甚至会出现与实际意义不符的正负号。设想给加上一个正常数矩阵tk0),那么+a接近奇异的程度就会变小。先对数据作标准化,标准化后的设计阵仍用X表示。称%岭迎阳估6O通苗的A成为岭参数。当A=0时的岭回归估计就是普通的最小二乘估计。因为岭参数女不是唯一确定的,所以我们得到的岭回归估
4、计6(八)实际是回归参数夕的一个估计族,取不同的女值时方(八)的取值不同。以女为横坐标,/(八)为纵坐标的直角坐标系,可分析月估计族的稳定性。优点:比最小二乘估计更稳定三、岭迹分析当岭参数2在0,co)内变化时,瓦(k)是k的函数,在平面坐标系上把函数瓦(k)描画出来。画出的曲线称为岭迹。在实际应用中,可以根据岭迹曲线的变化形状来确定适当的k值和进行自变量的选择。在岭回归中,岭迹分析可用来了解各自变量的作用及自变量之间的相互关系。下列图所反映的几种有代表性的情况来说明岭迹分析的作用。图L岭迹图四、岭参数的选择(一)方法1 .岭迹法岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计值以
5、及正负号不符合经济意义,那么希望能通过采用适当的6(乃来加以一定程度的改善,值得选择就显得尤为重要。选择A值得一般原那么是:(1)各回归系数的岭估计根本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不符合经济意义的绝对值;(4)残差平方和增大不太多。如上图,当A取。时,各回归系数的估计值根本上都能到达相对稳定。缺点:用岭迹法来确定A值缺少严格的令人信服的理论依据,存在一定的主观人为性.优点:恰好发挥定性分析与定量分析有机结合。2 .GCV方法由岭回归的系数估计:那么相应的对Y的估计为:;(八)=X(才+kIYXtA记矩阵步()=+kiyX,将岭回归
6、写成y(八)=般(八)y的形式,那么由GCV方法的定义,有展开得到:使得该式得到最小值的K的值即可被认为是最正确岭回归参数。优点:岭回归的最优参数由于依赖于被估计问题的系数,不能作出显示的表达,这造成了参数确定的困难。而广义交叉验证方法作模型评估依靠的主要是的数据,而不必对模型的结构和未知参数作过多的假设。(二)岭回归选择变量的原那么:(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比拟标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比拟稳定且绝对值很小的自变量。(2)随着A的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。(3)如果依照上述去掉变量的原那么,有假设干个回归系
7、数不稳定,究竟去掉几个,去掉哪几个,这并无一般原那么可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。五、IaSSO提出的背景在建模过程中,影响模型中因变量的因素往往有很多种,而在建模之初,在掌握的资料不够全面的情况下,并不知道哪些因素对结果的实际影响大小,建模者往往会从全面考虑各种影响因子的角度出发,全面地搜集可能有用的数据。在这种情况下,如何从许多个因素中选择最适合的,能保存在模型中的解释变量就显得十分重要,自变量太多,可能会削弱估计以及预测的稳定性,相反,自变量太少,那么所拟合的模型与实际情况又会有太大的偏差。在回归方程中,面对较多备选择变量时,传统的变量选择方法一般都是利用逐
8、步回归,再结合AIC,BIC准那么等来选择最优的模型,许多实践也证明以上方法具有一定的实用性,但同时也有一些缺乏之处。六、IaSSO的根本原理:1.asso算法是一种带有惩罚因子的线性模型估计方法,该方法的本质是约束各个回归系数的绝对值之和小于某个常数的条件下,最小化回归方程的残差平方和,同时阈值的设定又可以收缩每个估计的参数值。LaSSo方法可以有效地估计回归模型中的各个参数,同时也可以较好地解决变量间的多重共线性问题。1.asso回归在原理上和岭回归的想法有些类似,但惩罚项中不是系数的平方而是其绝对值,即在约束条件EjISjls下,系数需要满足下面的条件:出于绝对值的特点,Iasso回归不
9、像岭回归那样把系数缩小,而是筛选掉一些系数。R软件对于系数的选择有k折交叉验证IkfoklCV)及CP两种方法。k折交叉验证是评价模型的一种常用方法,它把所有的数据观测大致分成k等份(可以随机分),然后轮流以其中的所有可能的k-1份为训练集,用来拟合数据,剩下一份为测试集,一共计算k次,得到拟合测试集时的均方误差(或其他指标,如标准化均方误差)那样的k个指标,再做平均。对于每个模型都做一遍,然后选择平均均方误差最小的模型。MallowsCP统计量也是用来评价回归的一个准那么。如果从k个自变量中选取P个(kp)参与回归,那么CP统计量的定义为:nCP=罢n+2p;SSEP=W(匕-L)2i=l据此,选择CP最小的模型。案例分析:某种水泥在凝固时放出的热量H卡/克)与水泥中四种化学成分Xi,X2,X3,X4有关,现测得13组数据,如下表所示,希望从中选出主要的变量,建立Y关于它们的线性回归方程。序号XlX2X3X4Y172666078.52129155274.331156820104,34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4讲稿岭迹图解说Y有显著影响