多元统计分析及R语言建模考试试卷.docx

资源描述

《多元统计分析及R语言建模考试试卷.docx》由会员分享，可在线阅读，更多相关《多元统计分析及R语言建模考试试卷.docx（19页珍藏版）》请在课桌文档上搜索。

1、多元统计分析及R语言建模考试试卷一、简答题（共5小题，每小题6分，共30分）教师填写课程名称：多元统计稣授课教师姓名：王域会课程类别必修选修考试时间：年月日考试方式开卷闭卷试卷类别（A、B）A共8页学院（校）专业班（级）姓名学号.号以得分1.常用的多元统计分析方法有哪些(2)多元方差-协方差分析(3)聚类分析(4)判别分析(5)主成分分析(6)因子分析(7)对应分析(8)典型相关性分析(9)定性数据建横分析(10)路径分析(又称多回归、联立方程)(11)结构方程模型(12)联合分析(13)多变量图表示法(14)多维标度法2.简单相关分析、复相关分析和典型相关分析有何不同并举例说明之。简单相关分

2、析：简单相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变之间的相关关系的一种统计方法。例如，以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何，而不在于由X去预测Yo复相关分析；研究一个变量XO与另一组变(x1,2,.,Xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力)的影响，那么这一系列因素的总和与职业声望之间的关系，就是复相关。量相关系数n的测定，可先求出x对一组变x1,x2,.,xn的回归直线，再计算x与用回归直线估计值悯之间的简单直线回归。复相关系数为n的取值范围为0n1o复相关系数值愈大，

3、变间的关系愈密切。典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的墓本原理是：为了从总体上把握两组指标之间的相关关系，分别在两组变中提取有代表性的两个综合变U1和V1(分别为两个变量组中各变的线性组合)，利用这两个综合变之间的相关关系来反映两组指标之间的整体相关性。3.试说明主成分分析和因子分析不同点和相同之处。主成分分析和因子分析的相同之处1 .都可以降维、分析多个变的基本结构2 .因子分析是主成分分析的进一步推广。主成分分析可被视为一种固定效应的因子分析，是因子分析的特列3 .都是利用变之间的相关性将它们进行分类4 .主成分分析中，各个主成

4、分之间互不相关；因子分析中，公因子之间不相关、特殊因子之间不相关、公因子与特殊因子之间不相关主成分分析和因子分析的区别1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变的线性组合。2、主成分分析的点在于解释个变的总方差，而因子分析则把重点放在解释各变之间的协方差。3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子(SPeCifiCfaCtor)之间也不相关，共同因子和特殊因子之间也不相关。4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，的主成分一般是独特的；而

5、因子分析中因子不是独特的，可以旋转得到不同的因子。1、因子分析中是把变表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变的线性组合。4.判别分析以及Fisher判别和Bayes判别的It本思想是什么判别分析：根据判别中的组数，可以分为两组判别分析和多级判别分析；根据判别函数的形式，可以分为线性判别和非线性判别；根据判别式处理变的方法不同，可以分为逐步判别、序贯判别等；根据判别标准不同，可以分为距离判别、FiSher判别、BayeS判别法等Fisher判别法；通过将多维数据投影到某一方向上，使得投影之后类与类之间尽可能分开，然后再寻找合堂的判别准则。BayeS判别法：假设已知对象的先验

6、概率和“先轴条件概率，而后得到后验概率，由后览概率作出判别。5.指出综合评价中指标的标准化方法及其优缺点和有哪些综合评价方法。标准化方法(1)主成分分析法。主成分分析是多元统计分析的一个分支。是将其分相关的原1机向,借助于一个正交变换，转化成其分不相关的新1机向,并以方差作为信息的测度，对新B机向量进行降维处理。再通过构造痘当的价值函数，进一步做系统转化。(2)数据包络分析法。它是创建人以其名字命名的DEA模型一CR模型。DEA法不仅可对同一类型各决策单元的相对有效性做出评价与排序，而且还可进一步分析各决策单元非DE有效的原因及其改进方向，从而为决策者提供要的管理决策信息。(3)模糊评价法。模

7、糊评价法真益于模期数学。它不仅可对评价对象按综合分值的大小进行评价和排序，而且还可根据模糊评价集上的值按最大隶属度原则去评定对象的等级。综合评价方法1、计分法2、综合指数法3、TOPSiS法4、秩和比(RSR)法5、层次分析(AHP)法6、模糊评价方法7、多元统计分析方法8、灰色系统评价方法得分评阅人二、证明题(共1小题，共20分)设y=ax+攵检+即冷a*,其中a=(a,灸，切)，x=(%,及，粉,求主成分就是寻找X的线性函数aX使相应的方差达到最大，即U(aB=ae达到最大，且aa=1,此处为X的协方差阵。设f的特征根为A2.Oo试证明下面性质：(1)*x,U=/,这里为X的协方差阵的特征

8、向(单位化的)组成的正交阵。(2)/的各分之间是互不相关的。(3)y的0个分是按方差大小、由大到小排列的。(4)y的协方差阵为对角阵。(5)=X这里=(P/=I/=I(6)。(%,叼)=Xiuijxjji,j=1.2,证明(1)(2)(3):设厂的特征向为U=(U,3,，%),则UU=/,即为一正交阵，且=UN1.J=Udiag(A，%，,，%)U=AUMJ=IPPP因此e5=aUM企Z4(eu)(au1.)=A(aUyr=1.r=1.r=1.P于是aa(au)2=(aU)(aU)=aUUaa=1.a=4应取。=%时，”7U产U14产4故必=X就是第一主成分，其方差最大，Var(yi=Var(

9、u1月=4同理，U(j=VaruB=4另外，CoM=CV(UXtUjB=U1.UJ=U1jU尸Uf叩4,因此，有上述可簿变量X的主成分是以的特征向量为系数的线性组合，且主成分y之间互不相关/的P个分是按方差大小、由大到小排列的。性质(1)(2)(3)得证。性质(4)可有(1)(2)(3)得到。证明性质(5):由(%,%,%)，则有=UNU于是?=网)-tUXU)=t(KUUi-K)=Ar=1./=I证明性质(6):(6)a(yi,Xj)=Aj=1.2,.,p由前面的证明得知JVar(Y)=口,Jvar(Xj)=历令叭0,0,1,0,为单位向，则xpejxtypu1.所以，益心切二84的X,58

10、=jD(BUi=Sj4ei4UVCov(yi,xj)故”标而而T不性质(6)得证得分评阅人三、运算题(共3小题，共20分)下面左表为五个观察值，两个变的数据，右表为用欧氏距离计算的距离矩阵，x12.1 572 713 324 655 661.(10分)写出用R语首分析的命令(1)请将数据X1.和X2写入R向中：x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2(2)写出绘制上面散点图的R命令：x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2Pot(x1,x2)(3)写出绘制系统聚类图的R命令：X=(x1,x2);XD=dist(X,diag=TRU

11、E,upper=TRUE);Dhc=hc1.ust(D,comp1.et,)hcp1.ot(hc)2.(5分)(1)写出计算下面绝对距离阵的R命令:x1=c(5,7,3,6,6)x2=c(7,1,2,5,6)X=(x1,x2);XD=dist(X,diag=TRUE,upper=TRE,p=1);D(2)试在图中标出这些距离3.(5分)试用最长距离法对其进行聚类分析，画出聚类图，并按二类、三类进行分类第一步：计算距离阵X=(x1,x2);XD=dist(X,diag=TRUE,upp6r=TRUE);D第二步：进行系统聚类(最长距离法)hc=hc1.ust(D,comp1.ete);hc第三步

12、：画出聚类图(1)按二类进行分类p1.ot(hc);(he,2)C1.usterDendrogramDhc1.ust(*,comp1.ete)(2)按三类进行分类p1.ot(hc);(he,3)C1.usterDendrogramDhc1.ust(*,comp1.ete)得分评阅人四、案例分析题（共2小题，共30分）我们知道，财政收入与国民生产总值和税收等经济指标有密切的依存关系。今收集了我国改革开放以来财政收入（y:百亿元），国民生产总值（x1:百亿元），税收（x2:百亿元），进出口贸易总额（x3:百亿元），经济活动人口（x4:百万人）的部分数据，见下表所示，分析财政收入和国民生产息值、税收

13、、进出口贸易总额、经济活动人口之间的关系。1财政收入多因素分析数据yx1x2x3x41991199219931994199519961997199819992021200223200425200627281 .氨本统计分析和R语曹命令(15分)(1)如果将该数据存入到一个文本文件中，写出将该文本数据读入数据据dat中的R命令：dat=,header=T)(1分)(2)如果将该数据拷贝到剪切板中，写出将该数据读入数据框dat中的R命令：dat=(cboard,header=T)(1分)(3)写出提取2000年数据的R命令：dat10J(1分)写出提取税收(x2)数据的R命令：dat,5(1分)写

14、出提取2001年至2008年经济活动人口(x4)数据的R命令：dat11:18,5(1分)(4)写出计算财政收入统计的R命令：summary)(2分)Min.1stQu.MedianMean3rdQu.Max.(5)写出计算下面相关阵R命令：8r(dat)(2分)yx1x2x3x4yx1x2x3x4(6)写出计算下面回归系数的R命令：frn=1.m(尸x1+x2+x3+x4,data=dat);frn(2分)Coefficients:(Intercept)x1x2x3x4写出计算下面检验的R命令：summary(fm)(2分)Coefficients:EstimateStd.Errortva1

15、.uePr(t)(Intercept)*x122e-16*x3x4*Signif.codes:0,*w,Ew,1Residua1.standarderroron13degreesoffreedomMu1.tip1.eR-squared:,AdjustedR-squared:F-StatiStic:+04on4and13DF,p-va1.ue:t)(Intercept)*x22-16*x4*Signif.codes:O*+,1Residua1.standarderroron15degreesoffreedomMu1.tip1.eR-squared:1,AdjustedR-squared:1F-s

16、tatistic:+05on2and15DF1p-va1.u:2 .在上面计算的基础上进行进一步分析(15分)(1)试问该回归方程有无统计学意义，为什么(2分)由F检验结果可知，P值小于，于是在的显著性水平上拒绝原假设，所以认为整个回归方程有统计学意义。(2)该模型的复相关系数、决定系数、调整量相关系数平方和剩余标准差（3分）复相关系数：决定系数：调整短相关系数平方：剩余标准差：（3）由于方程的P,能否说明每个自变都有显著作用，为什么（3分）整个方程的统计学意义判定可以由F检验得知，每一个自变的显著性应由t检验得到。故由t检验结果可知，IB回归系数b2利M的P值小于O,可认为解释变税收x2、经济活动人口x4,显著；b1和b3的P值大于，不能否定解释变系数为O的假设，可以认为国内生产总值x1、进出口贸易总额x3对财政收入没有影响。（4）本例是用何种方法做的回归分析，你认为应该用什么方法为好（3分）本例是采用全部子集法，应该采用逐步回归法（5）预测：试用该方程对来年的财政收入进行预测，已知：x1=3100（百亿元）,2=560（百亿元）,x3=1900（百亿元）,x4=800（万人）,试写出预测其结果的R语句并用建立的模型计算预测结果。(4分)R语句：predict(fm,(x1=3100,x2=560,x3=1900,x4=800)预测结果：

展开阅读全文