数学建模回归分析.ppt_课桌文档desk33.com

资源描述

《数学建模回归分析.ppt》由会员分享，可在线阅读，更多相关《数学建模回归分析.ppt（32页珍藏版）》请在课桌文档上搜索。

1、回归分析,引言,回归分析是处理很难用一种精确方法表示出来的变量之间关系的一种数学方法，它是最常用的数理统计方法，能解决预测、控制、生产工艺优化等问题。它在工农业生产和科学研究各个领域中均有广泛的应用。回归分析一般分为线性回归分析和非线性回归分析。本节着重介绍线性回归分析的基本结论及其在Matlab中的相应命令。线性回归分析是两类回归分析中较简单的一类，也是应用较多的一类。,一一元线性回归分析,针对一组（二维）数据（其中互不相同），其最简单的数据拟合形式为寻求直线，使在最小二乘准则下与所有数据点最为接近。但由于随机观测误差的存在，满足上述数据点的直线应该是(1.1)其中x,y是准确的,是两

2、个未知参数，是均值为零的随机观测误差，具有不可观测性，可以合理地假设这种观测误差服从正态分布。,于是我们得到一元线性回归模型为(1.2)其中未知，固定的未知参数称为回归系数，自变量x称为回归变量。(1.1)式两边同时取期望得：称为y 对x的回归直线方程。在该模型下，第i个观测值可以看作样本（这些样本相互独立但不同分布,i=1,2,n）的实际抽样值，即样本值。,一元线性回归分析的主要任务是：a.用实验值（样本值）对作点估计；b.对回归系数作假设检验；c.在处对y 作预测，并对y作区间估计。1、回归参数估计假设有n组独立观测值：则由(1.2)有（1.3）,其中相互独立。记称为偏离

3、真实直线的偏差平方和。由最小二乘法得到的估计称为的最小二乘估计，其中（经验）回归方程为（1.4）,这样我们得到的无偏估计，其中服从正态分布,2 模型的假设、预测、控制,1、回归方程的显著性检验在实际问题中，因变量y 与自变量x之间是否有线性关系(1.1)只是一种假设，在求出回归方程之后，还必须对这种回归方程同实际观测数据拟合的效果进行检验。由(1.1)可知，越大，y 随x变化的趋势就越明显；反之，越小，y 随x变化的趋势就越不明显。特别当=0时，则认为y 与x之间不存在线性关系，当时，则认为y与x之间有线性关系。因此，问题归结为对假设进行检验。,假设:被拒绝，则回归显著，认为y

4、与x之间存在线性关系，所求的线性回归方程有意义；否则回归不显著，y与x的关系不能用一元线性回归模型来描述，所得的回归方程也无意义。此时，可能有如下几种情况：（1）x对y没有显著影响，此时应丢掉变量x；（2）x对y 有显著影响，但这种影响不能用线性关系来表示，应该用非线性回归；（3）除x之外，还有其他不可忽略的变量对y 有显著影响，从而削弱了x对y 的影响。此时应用多元线性回归模型。因此，在接受H0 的同时，需要进一步查明原因以便分别处理。,检验方法：（a）F检验法对样本方差进行分解，有上式中的是由实际观测值没有落在回归直线上引起的（否则为零），U 是由回归直线引起的。因此，U

5、越大，就越小，表示y 与x的线性关系就越显著；否则，U 越小，就越大，表示y 与x的线性关系就越不显著。这样我们就找到了一种判别回归直线拟合程度好坏的方法：如果U/s接近于1，即U/较大时，则对拟合效果感到满意。,由F分布有其中r称为相关系数。对给定的显著水平a，有置信水平为1-a 的临界值，从而F检验法的检验准则为：当时，拒绝；否则就接受,（b）t检验法当成立时，由T分布的定义有因此，对于给定的显著水平a，用T统计量检验，有置信水平为1-a 的临界值,从而t检验法的检验准则为：当时，拒绝；否则就接受,2、预测与控制当检验结果拒绝了:，接下来的问题是如何利用回归方程进行预测和控制。预测

6、就是对固定的x值预测相应的y 值，控制就是通过控制x的值，以便把y 的值控制在制定的范围内。(a)预测设y 与x满足模型(1.2)。令表示x的某个固定值，且假设相互独立，则的预测值和预测区间如下。,y 的预测值为的回归值。它是的无偏估计，即给定显著水平，的置信水平为1-的预测区间为，其中由上式可知，剩余标准差越小，预测区间越小，预测值越精确；对于给定的样本观测值和置信水平而言，越靠近时，预测精度就越高。,(b)控制若要的值以1-的概率落在指定区间(c,d)之内，变量x应控制在什么范围内的问题就是所谓的控制问题。它是预测问题的反问题。只要控制x满足以下两不等式

7、这要求若方程分别有解a,b，则(a,b)就是所求的x的控制区间。,二可线性化的一元非线性回归（曲线回归）,在工程技术中，自变量x与因变量y 之间有时呈现出非线性（或曲线）关系，这是通常出现两种情况：一种是呈现多项式的关系，这种情况通过变量替换可化为多元线性回归问题给予解决；另一种是呈现出其它非线性关系，通过变量替换可化为一元线性回归问题给予解决。若匹配曲线（经验公式）为含参量a,b的非线性曲线，采用的办法是通过变量替换把非线性回归化为线性回归。通常匹配的含参量a,b的非线性曲线有以下六类，具体的替换方法如下：,1 双曲线作变量替换得 2 幂函数曲线两边取常用对数：，再作代换则幂

8、函数曲线方程就变成直线方程注：对于非线性回归问题的Matlab实现问题，一种方法是化为相应的线性模型实现，另种方法是直接应用Matlab中相应的命令，其结果是一致的。,三多元线性回归分析,一般地，在实际问题中影响应变量y 的自变量往往不止一个，不妨设有k 个为。通过观测得到一组（k+1维）相互独立的试验观测数据，其中n k+1。假设变量y 与变量之间有线性关系：(1.5)其中是随机变量，一般假设则观测数据满足(1.6),其中互不相关且均是与同分布的随机变量。令则(1.6)可简写为其中X 为已知的n*(k+1)矩阵，称为回归设计矩阵或资料矩阵，Y 是n维观察值列向量，为k+

9、1维未知的列向量，是满足的n维随机列向量.,一般称(1.7)为k 线性回归模型（高斯马尔科夫线性模型）对(1.7)取数学期望得到称为线性回归方程。,对线性模型所要考虑的主要问题是：（i）用实验观测数据对未知参数做点估计和假设检验，从而建立因变量y 和自变量之间的线性关系；（ii）在处对y 的值作预测和控制，并对y 作区间估计。本部分总是假设 n k+1。（具体方法略）,四、逐步线性回归分析,逐步线性回归分析方法就是一种自动从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法，它是在多元线性回归基础上派生的一种算法技巧，详可参阅相应的文献。其基本思路为：从一个自变量开始

10、，视自变量对y 作用的显著程度，从大到小依次逐个引入回归方程。当引入的自变量由于后面自变量的引入而变得不显著时，要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量，为逐步回归的一步。对于每一步，都要进行y 值检验，以确保每次引入新的显著性变量前回归方程中只包含对y 作用显著的变量。这个过程反复进行，直至即无不显著的变量从回归方程中剔除，又无显著变量可引入回归方程止。,五回归分析的Matlab实现,Matlab统计工具箱中提供了一些回归分析的命令，现介绍如下。1、多元线性回归多元线性回归的命令是regress，此命令也可用于一元线性回归。其格式为：（1）确定回归系数的点估计，用命令：b

11、=regress(Y，X)。（2）求回归系数的点估计和区间估计，并检验回归模型，用命令：b，bint，r，rint，stats=regress(Y，X，alpha)。（3）画出残差及其置信区间，用命令：rcoplot（r，rint）。,在上述命令中，各符号的含义为：（i），Y，X的定义同本部分前面所述。对一元线性回归，在，Y，X中取k=1即可；（ii）alpha为显著性水平（缺省时为0.05）；（iii）bint为回归系数的区间估计；（iv）r与rint分别为残差及其置信区间；（v）stats是用于检验回归模型的统计量，有三个数值，第一个是，第二个是F值，第三个是与F对应的概率P。其中与F

12、定义同前，值越大，说明回归方程越显著，P a(0.01或0.05)时拒绝，回归模型成立。,例1 合金的强度y 与其中的碳含量x有比较密切的关系，今从生产中收集了一批数据如下表。试先拟合一个函数y(x)，再用回归分析对它进行检验。x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18y 42.0 41.5 45.0 45.5 45.0 47.5 49.0 55.0 50.0解先画出散点图：x=0.10:0.01:0.18;y=42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0;plot(x,y,+)可知y与x大致为线性

13、关系。设回归模型为，用regress和rcoplot编程如下：clc,clearx1=0.10:0.01:0.18;y=42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0;x=ones(9,1),x1;b,bint,r,rint,stats=regress(y,x);b,bint,stats,rcoplot(r,rint),得到b=27.4722 137.5000 bint=18.6851 36.2594 75.7755 199.2245stats=0.7985 27.7469 0.0012即=27.4722，=137.5000，的置信区18.6851，3

14、6.2594，的置信区间是75.7755，199.2245；R2=0.7985，F=27.7469，p=0.0012。可知所设回归模型成立。观察命令rcoplot(r,rint)所画的残差分布，除第8个数据外其余残差的置信区间均包含零点，第8个点应视为异常点，将其剔除后重新计算，可得b=30.7280 109.3985bint=26.2805 35.2834 76.9014 141.8955stats=0.9188 67.8534 0.0002应该用修改后的这个结果。,2、多元二项式回归多元二项式回归可用命令：rstool(x,y,model,alpha)。其中，输入数据x、y分别为n m矩阵

15、和n维列向量；alpha为显著性水平（缺省时为0.05）；model由下列4个模型中选择1个（用字符串输入，缺省时为线性模型）：linear（线性）：purequadratic（纯二次）：interaction（交叉）：quadratic（完全二次）：,3、非线性回归非线性回归可用命令nlinfit,nlintool,nlparci,nlpredci来实现。命令格式如下：回归：回归可用命令 beta,r,J=nlinfit(x,y,model,beta0)或者 nlintool(x,y,model,beta0,alpha)来实现。其中命令beta,r,J=nlinfit(x,y,model,b

16、eta0)的作用为确定回归系数；而命令nlintool(x,y,model,beta0,alpha)产生一个交互式的画面，画面中有拟合曲线和y的置信区间。通过左下方的Export下拉式菜单，可以输出回归系数等。,这里的输入数据x、y分别为nm矩阵和n维列向量，对一元非线性回归，x为n维列向量；model是事先用m-文件定义的非线性函数；beta0是回归系数的初值。Beta是估计出的回归系数，r（残差）、J（Jacobian矩阵）是估计预测误差需要的数据。alpha为显著性水平，缺省时为0.05。预测和预测误差估计：预测和预测误差估计的命令格式为betaci=nlparci(beta,r,J)其

17、用途为记算回归系数的置信区间；Y,DELTA=nlpredci(model,x,beta,r,J)其用途为求nlinfit或nlintool所得的回归函数在x处的预测值Y及预测值的显著性为1-alpha的置信区间 Y DELTA；alpha缺省时为0.05。某些非线性回归也可化为多元线性回归来解。,4、逐步回归逐步回归的命令是stepwise，它提供了一个交互式画面，通过此工具可以自由地选择变量，进行统计分析。通常用法是：stepwise(x，y，inmodel，alpha)，其中x是自变量数据，y 是因变量数据，分别为 n m和n 1矩阵，inmodel是矩阵的列数指标，给出初始模型中包括的子集（缺省时设定为全部自变量），alpha为显著水平（缺省时为0.05）。运行stepwise命令时产生三个图形窗口：Stepwise Plot，Stepwise Table，Stepwise History。所有这些图形界面都由热区，即当鼠标移到图形的某个区域时，鼠标的指针会变成一个小圆，点击后会产生交互作用。,

展开阅读全文