《第10章数据分析二.ppt》由会员分享,可在线阅读,更多相关《第10章数据分析二.ppt(118页珍藏版)》请在课桌文档上搜索。
1、1,第十讲 数据分析(二),2,3、方差分析法,单因素方差分析双因素方差分析,3,前面,我们已经介绍了两个样本所属总体平均值的假设检验可用 t-test 或 u-test 来检验其差异性。但在大多数情况下,我们的试验有 3 个或 3 个以上的样本需要进行比较。如果这许多样本都只和对照组相比,我们仍然可以使用 t-test 或 u-test 进行,但如果需要样本之间两两相比较的话,就不能使用 t-test 或 u-test 进行了其理由有以下几个。,方差分析的基本概念,4,1、当有 k个样本所属总体的平均值相互两两比较,就需作 次比较,即作 假设检验。例如有 10 个样本平均值相比较,即需作 次
2、比较,其工作量相当繁琐2、假定每一样本的容量均为 n,那么如果我们用t-test 来作两两比较时,每一差数的标准误就都只能由 2(n-1)来估计,而不能用总自由度 k(n-1)来估计总的标准误,这就使得误差估计的精确度受到一定的损失,即我们不能充分使用试验中所有的信息量,这是十分可惜的。,5,3、这种两两比较会随着样本组数的增加而加大犯型错误的概率假定我们要比较 5 个样本平均数,两两比较就会有 个差数,对这10个差数如果我们都以。进行假设检验,单独对每一差数进行检验时,每一差数获得正确结论的概率就是。但这 10 个差数在一起进行比较、且都获得正确结论的概率就只有。因此在 10 次比较中至少出
3、现一个错误结论的概率就不再是,,6,而是这么大的犯错率无论如何是不能容忍的这说明,当有多个样本相比较时,如果仍然采用 t-test 法,就大大地增加了犯型错误的概率因此此时再用 t-test 法进行检验就不恰当了如何对 个样本进行假设检验?这就是本章所要讨论的方差分析。,7,什么叫方差?方差是对数据(或称资料)变异的度量方差的公式:总体:样本:一般总体方差称方差,样本方差称均方能使变量发生变异的原因很多,这些原因我们都将其称为变异因素或变异来源。,8,方差分析就是发现各类变异因素相对重要性的一种方法。方差分析的思路就是:把整个试验(设有 k 个总体)的样本资料作为一个整体来考虑。把整个试验的总
4、变异按照变异的来源分解成不同因素的变异。由于方差等于平方和除以自由度,因此总方差分解成各因素的方差,就是将形成总方差的平方和和自由度分解为各因素的平方和和自由度然后对各个因素的方差作出数量上的估计,从而发现各个因素的方差的相对重要程度。,9,从总方差中除去各可控因素所引起的方差后,剩余方差又可以准确地估计试验误差,作为统计假设检验的依据因此,方差分析可以帮助我们抓住试验的主要矛盾和技术关键,发现主要的变异来源,从而抓住主要的、实质性的东西因此,方差分析是一种十分重要的统计工具此外,方差分析还有其他十分重要的用途,例如用于遗传分析,估计参数等方差分析中F分布的复习:,10,在一个总体中每次抽取两
5、个样本,这两个样本的容量分别为 和,每个样本计算其均方,不断地抽样,就可以得到一系列的,这些 F值就形成了一个分布。F 分布是一簇曲线,每条曲线仅决定于 和 F 分布的平均数为,其分布范围为查看附表 6 是不同自由度、下的右尾概率0.05、0.01 的概率值下面我们按不同的数据结构来介绍方差分析方法,11,单因素方差分析(1),单因素方差分析研究一个因素在不同水平下对研究对象影响的显著性。单因素方差分析的数据表如下:,12,单因素方差分析(2),单因素方差分析的一般形式,13,单因素方差分析(3),单因素方差分析的数学计算表达式,14,单因素方差分析(4),例,15,单因素方差分析(5),16
6、,单因素方差分析(6),查表求得 的值。比较 与 的大小。若有,则认为因素无显著性影响。反之则认为影响较显著。本例中n=3,m=5。,17,双因素方差分析(1),双因素方差分析分析两个同时存在的因素在不同水平状态下独立作用对分析对象的影响的显著性。双因素分析的常用数据表,18,双因素方差分析(2),双因素方差分析表,19,双因素方差分析(3),双因素方差分析的数学表达式,20,双因素方差分析(4),例,21,双因素方差分析(5),22,双因素方差分析(6),23,双因素方差分析(7),查表求得 的值。比较 与、的大小。若有,则认为因素A无显著性影响;反之则认为影响较显著。若有,则认为因素B无显
7、著性影响;反之则认为影响较显著。,24,4、因子分析法,因子分析的意义在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。但是效果如何呢?如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。,25,1、因子个数远远少于原有变量的个数;2、因子
8、能够反应原有变量的绝大部分信息;3、因子之间不存在线性关系;4、因子具有命名解释性。,因子分析的特点,26,因子分析的数学模型和相关概念数学模型 假设原有变量有p个,分别用 表示,且每个变量的均值是0,标准差是1,现将每个原有变量用k(kp)个因子 的线性组合来表示,即:,27,在这个数学模型中,F称为公共因子,因为它出现在每个变量的线性表达式中,简称因子。因子可理解为高维空间中互相垂直的k个坐标轴;A称为因子载荷矩阵,称为因子载荷,是第i个原始变量在第j个因子上的负荷;称为特殊因子,表示原始变量不能被因子解释的部分。其均值为0,相当于多元线性回归模型中的残差。因子分析的几个相关概念 1、因子
9、载荷 在因子不相关的前提下,因子载荷是第i个变量与第j个因子的相关系数。因子载荷越大说明因子与变量的相关性越强,所以因子载荷说明了因子对变量的重要作用和程度。,28,2、变量共同度 变量共同度也称为公共方差。第i个变量的共同度定义为因子载荷矩阵中第i行元素的平方和,即:3、因子的方差贡献 因子方差贡献是因子载荷矩阵中第j列元素的平方和,反映了第j个因子对原有变量总方差的解释能力。该数值越高,说明相应因子的重要性越高。,29,因子分析的基本内容,因子分析的基本步骤 1、因子分析的前提条件;因子分析的前提条件是原始变量之间应存在较强的相关关系。2、因子提取;3、使因子更具有命名可解释性;4、计算各
10、样本的因子得分。,30,因子分析的前提条件 1、计算相关系数并进行统计检验 如果相关系数矩阵中的大部分相关系数小于0.3,那么这些变量不适合进行因子分析。2、计算反映象相关矩阵,31,3、Bartletts球度检验 以原有变量的相关系数矩阵为出发点,假设相关系数为单位矩阵,如果该检验对应的P值小于给定的显著性水平a,则应拒绝原假设,认为原有变量适合进行因子分析。4、KMO检验 该统计量取值在0-1之间,越接近于1说明变量间的相关性越强,原有变量适合做因子分析。0.9以上表示非常合适;0.8-0.9表示合适;0.7-0.8表示一般;0.6-0.7表示尚可;0.5-0.6表示不太合适;0.5以下表
11、示极不合适。,32,因子提取和因子载荷矩阵的求解 因子载荷矩阵的求解一般采用主成分法。主成份分析法通过坐标变换的手段,将原有的p个变量标准化后进行线性组合,转换成另一组不相关的变量y,即:,33,式中的系数按以下原则进行求解:(1)(2)根据以上原则确定的变量依次为原始变量的第1、第2第p个主成分。其中第一个主成分在总方差中所占比例最大,其余主成分在总方差中所占比例依次递减,即主成分综合原始变量的能力依次减弱。在主成份的实际应用中,一般只选取前面几个主成分即可,这样既减少了变量的数目,又能够用较少的主成分反映原始变量的绝大部分信息。,34,可见,主成分分析关键的步骤是如何求出上述方程中的系数。
12、通过方程的推导可以发现,每个方程中的系数向量是原始变量相关系数矩阵的特征值对应的特征向量。具体求解步骤如下:(1)将原有变量进行标准化处理;(2)计算变量的相关系数矩阵;(3)求相关系数矩阵的的特征根 及对应的特征向量,35,因子分析利用主成分分析得到的p个特征根和对应的特征向量,在此基础上计算因子载荷矩阵:由于因子分析的目的是减少变量个数,因此在计算因子载荷矩阵时,一般不选取所有特征值,而只选取前k个特征值和特征向量,得到下面包含k个因子的因子载荷矩阵:,36,因子个数的确定方法:(1)根据特征根确定因子数:一般选取大于1的特征根,还可规定特征根数与特征根值的碎石图并通过观察碎石图确定因子数
13、;(2)根据因子的累计方差贡献率确定因子数:通常选取累计方差贡献率大于85%的特征根个数为因子个数。,37,38,例:成绩数据(student.sav),100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,39,从本例可能提出的问题,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。,40,例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。先假定只有二维,即只有两个
14、变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵,那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。,41,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去
15、次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有效果。,42,43,对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,即主成分(principal component)。正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。,44,原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意
16、义。多数情况下提取出前 23个主成分已包含了85%以上的信息,其他的可以忽略不计。提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。,45,因子的命名 观察因子载荷矩阵,如果因子载荷的绝对值在第j列的多个行上都有较大的取值,则表明因子fj能够同时解释许多变量的信息,且对每个变量只能揭示较少部分信息,但不能代表任何一个原有变量。这种情况下,因子fj的含义是模糊不清的,为解决这个问题,可通过因子旋转的方式是一个变量值在尽可能少的因子上有比较高的载荷。因子旋转一般采用正交旋转使新生成的变量仍可保持不相关,正交旋转一般采用方差最大法(varimax)。然后再根据各因子对各原始变量的解释程度
17、进行命名。,46,计算因子得分在因子分析实际应用中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分,形成的变量称为因子变量。计算因子得分的途径是用原有变量描述因子,第j个因子在第i个样本上的值可表示为:估计因子得分系数的方法有很多,通常采用最小二乘意义下的回归法进行估计。,47,因子分析的基本操作,1、选择菜单AnalyzeData ReductionFactor,出现主窗口:,48,2、把参与因子分析的变量选到Variables框中。3、选择参与因子分析的样本。把作为条件变量的变量指定到Selection Variable框中并单击Value按钮输入变量值,只有满
18、足条件的样本数据才参与因子分析。4、在主窗口中单击Descriptives按钮指定输出结果。Statistics框中指定输出哪些基本统计量,其中Univariate descriptives表示输出各个变量的基本描述统计量;Initial solution表示输出因子分析的初始解。Correlation Matrix框中指定考察因子分析条件的方法及输出结果,其中Coefficients表示输出相关系数矩阵;Significance levels表示输出相关系数检验的概率p值;Determinant表示输出变量相关系数矩阵的行列式值;Inverse表示输出相关系数矩阵的逆矩阵;Anti-imag
19、e表示输出反映象相关矩阵;KMO and Bartletts test of sphericity表示进行巴特利特球度检验和KMO检验。,49,50,5、在主窗口中单击Extraction按钮指定提取因子的方法。在Method框中提供了多种提取因子的方法,其中Principal components是主成分分析法,是SPSS默认的方法;在Analyze框中指定提取因子的依据,其中Correlation matrix为相关系数矩阵,当原有变量存在数量级的差异时,通常选择该选项;Covariance matrix为协方差阵。在Extract框中选择如何确定因子数目:在Eigenvaluse ove
20、r后输入一个特征根值(默认值为1),SPSS将提取大于该值的特征根;也可在Number of factors框后输入提取因子的个数。在Display框中选择输出哪些与因子提取有关的信息,其中Unrotated factor solution表示输出未旋转的因子载荷矩阵;Scree plot表示输出因子的碎石图。,51,52,6、在主窗口中单击Rotation按钮选择因子旋转方法。在Method框中选择因子旋转方法,其中None表示不旋转(默认选项);Varimax为方差最大法;Quartimax为四次方最大法;Equamax为等量最大法;其他为斜交旋转法。在Display框指定输出与因子旋转相
21、关的信息,其中Rotated Solution表示输出旋转后的因子载荷矩阵B;Loading plots表示输出旋转后的因子载荷散点图。,53,54,7、在主窗口中单击Scores按钮选择计算因子得分的方法。选中Save as variables项表示将因子得分保存到SPSS变量中,生成几个因子便产生几个SPSS变量。变量名的形式为FACn_m,其中n为因子编号,以数字序号的形式表示;m表示是第几次分析的结果。选中Display factor score coefficient matrix项表示输出因子得分函数中的各因子得分系数。在Method框中指定计算因子得分的方法,其中Regressi
22、on为回归法。,55,56,8、在主窗口中单击Options按钮指定缺失值的处理方法和因子载荷矩阵的输出方法。在Missing Values框中指定如何处理缺失值。在Coefficient Display Format框中指定因子载荷矩阵的输出方式,其中Sorted by size表示以第一因子得分的降序输出因子载荷矩阵;在Suppress absolute values less than框后输入一数值,表示输出大于该值的因子载荷。,57,58,5、聚类分析法,距离聚类法 最短距离法 最长距离法相关系数聚类法,59,最短距离聚类法(1),计算样本间距离,并列出初始距离矩阵。选取初始距离矩阵中
23、的最小值,并对该值对应的样本进行类合并。根据最小值原则计算新合并样本与其他样本之间的距离,列出新的距离矩阵。重复上述步骤,直至所有样本被全部合并为一类。,60,最短距离聚类法(2),例 假设有样本数据如下,请对样本进行分类。,61,最短距离聚类法(3),初始距离矩阵,62,最短距离聚类法(4),63,最长距离聚类法(1),计算样本间距离,并列出初始距离矩阵。选取初始距离矩阵中的最小值,并对该值对应的样本进行类合并。根据最大值原则计算新合并样本与其他样本之间的距离,列出新的距离矩阵。重复上述步骤,直至所有样本被全部合并为一类。,64,最长距离聚类法(2),同上例初始距离矩阵,65,最长距离聚类法
24、(3),66,相关系数聚类法(1),被聚类的对象、的相关系数可以由下式计算获得,67,相关系数聚类法(2),样本相关系数表,68,相关系数聚类法(3),找出每列中最大的相关系数,69,相关系数聚类法(4),找出各列最大相关系数中的最大值,70,相关系数聚类法(5),合并X2、X3、X4、X6。重复上述步骤,合并X1、X5、X7。,71,6、判别分析法,判别分析法的目的是判别给定样本是否属于假定的类型。判别分析法的核心是建立判别函数。常用的判别函数为多元线性判别函数。其形式如下,72,判别函数的建立(1),例假设有下列原始数据,请建立判别函数,判别假定的分组是否正确。,73,判别函数的建立(2)
25、,第一步:计算A、B两组相应指标数据平均值,74,判别函数的建立(3),第二步:计算组间平均值的差。即有,75,判别函数的建立(4),第三步:计算A、B两组资料的离差矩阵。,76,判别函数的建立(5),第四步:计算离差矩阵CA、CB的共变异矩阵。,77,判别函数的建立(6),第五步:计算A、B两组资料的联合共变异矩阵。,78,判别函数的建立(7),第六步:求联合共变异矩阵U的逆矩阵U-1。,79,判别函数的建立(8),第七步:求判别方程的系数b。,80,判别函数的建立(9),第八步:根据上述系数矩阵建立判别函数。根据判别表达式可知:产品款式对分组判别的影响最为显著,产品包装其次,而产品的性能对
26、判别的影响不显著。,81,判别函数的建立(10),第九步:求判别函数Yc临界值。,82,判别函数的建立(11),第十步:判别分组的正确性。,83,判别函数的建立(12),第十一步:判别检验。故接受原假设。,84,7、相关分析法,相关分析是研究变量间密切程度的一种常用统计方法。线性相关分析研究两个变量间线性关系的程度。相关系数是描述这种线性关系程度和方向的统计量,通常用r表示。相关系数r没有单位;其值在-l+1之间。当数值愈接近-l或+1之间时,关系愈紧密,接近于0时,关系愈不紧密。对其数值可以从小到大排列的数据才能计算其相关系数。例如不能计算宗教信仰与颜色喜好之间的关系。,85,相关系数,积矩
27、相关系数(Pearson相关系数)Spearman和Kendall秩相关系数 偏相关系数,86,积矩相关系数(Pearson相关系数)(1),积矩相关系数(又称积差相关系数)适用于等间隔测度,相关系数采用Pearson积矩相关。,87,Spearman和Kendall秩相关系数(2),Spearman和Kendall秩相关系数是一种非参测度,是根据秩而不是根据实际值计算的秩相关适用于下列资料不服从双变量正态分布;总体分布型未知;用等级表示的资料。,88,Spearman相关系数是Pearson相关系数的非参形式。是根据数据的秩而不是根据实际值计算的。也就是说,先对原始变量的数据排秩,根据各秩使
28、用相关系数公式进行计算。它适合有序数据或不满足正态分布假设的等间隔数据。相关系数的值范围也是在-l+1之间。绝对值越大表明相关越强。相关系数的符号也表示相关的方向。这两种相关系数的计算必须对连续变量值排秩,对离散变量排序。,89,例如,我们可以将一组学生按入学考试成绩和第一学年结业成绩的顺序排队。如果将入学考试成绩的评秩记为X1,X2,Xn,而学年结业成绩的评秩记为Y1,Y2,Yn,我们就可以用秩相关度量来决定X和Y之间的相关性。,Ri为第i个X值的秩,Si为第i个Y值的秩。,90,Kendalls tau-b也是一种对两个有序变量或两个秩变量间的关系程度的测度,因此也属于一种非参测度。以一个
29、例子来进行Kendall秩相关系数的计算。如果两位鉴定家各自以吸引力的大小将7幅抽象派画评定了秩,那么可能知道这些秩评定之间的相符的程度。,91,依次取观测2(鉴别家2)给出的秩,数出每一个右面在秩次上比自己小的个数,并将这些个数加起来。例如抽象画2的秩为2,其个数是1,因为其右边的只有抽象画5的秩比它小。6个数依次为1,1,0,0,1和0,所以总和为Q3,Kendall秩相关系数则为:R=1-4Q/n(n-1)=1-12/42=0.714,92,偏相关系数(3),偏相关系数描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性。例如:可以控制年龄和工作经验两个变量的影响,估计工资
30、收入与受教育程度之间的相关关系。控制了变量Z,变量X与 Y之间的偏相关,和控制了两个变量 Z1、Z2,变量 X与Y之间的偏相关系数计算公式不同。,93,两个或若干变量之间或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大数值表示很相似,较小的数值表明相似性小。不相似性使用距离或不相似性来描述。大值表示相差甚远。,94,相关系数统计意义的检验,由于我们通常是通过抽样方法;利用样本研究总体的特性。由于抽样误差的存在,样本中两个变量间相关系数不为0,不能说明总体中这两个变量间的相关系数不是0,因此必须经过检验。检验的零假设是:总体中两个变量间的相关系数为0。SPSS的相关分析过
31、程给出这假设成立的概率。,95,相关分析的 SPSS过程,Bivarate(相关分析)命令项调用Correlations过程和 Nonpar Corr 过程,按指定项显示变量的描述统计量。计算指定的两个变量间的相关系数,可以选择Pearson相关、Spearman和Kendalls tau-b 相关;同时对相关系数进行检验。检验的零假设是:相关系数为0。可以对检验进行单尾或双尾的选择。给出相关系数为0的概率。,96,97,Partial(偏相关分析)命令项调用Partial Corr过程,计算两个变量间在控制了其他变量的影响下的相关系数。可以选择单尾或双尾显著性检验。检验的零假设是:偏相关系数
32、为零。还可以要求计算其他描述统计量。,98,99,Distance(距离分析)命令项调用Proximities 过程,对变量或观测量进行相似性或不相似性测度。因此分析的变量可以是连续变量、表示频数分布的变量,某些测度还可以适用于二值变量。可以对原始数据和计算出的距离数据进行标准化。,100,101,如果需要确定两个变量或若干自变量与因变量具体的函数关系,使用相关分析不能达到目的,必须使用回归分析。如果要将观测量或变量归到确定的类中,必须使用聚类分析中的观测量聚类或变量聚类的相应过程。,102,两个变量间的相关分析,本节介绍两变量间的相关。包括两个连续变量间的相关和两个等级变量间的秩相关。这两种
33、相关使用同一个命令项Bivarate调用,通过选择不同的分析方法调用不同的分析过程。选择哪一种分析方法要看具体的数据类型。对于连续变量和等级变量选择不同的分析方法。,103,Pearson调用correlation过程计算连续变量或等间隔测量的变量间的相关系数。Kendalls tau-b调用Nonpar corr过程计算分类变量间的秩相关。Spearman调用Nonpar corr过程计算斯皮尔曼秩相关。如果参与分析的变量是连续变量,选择Kendalls tau-b或Spearman相关,则系统自动对连续变量的值先求秩,再计算其秩分数间的相关系数。,104,偏相关分析,相关分析计算两个变量间
34、的相关系数,分析两个变量间线形关系的程度。往往因为第三个变量的作用,使相关系数不能真正反映两个变量间线形程度。例如身高、体重与肺活量之间的关系。使用Pearson相关计算其相关系数,可以得出肺活量与身高和体重均存在较强的线形关系。,105,但实际上,如果对体重相同的人,分析身高和肺活量。是否身高值越大,肺活量越大呢?结论是否定的。正是因为身高与体重有着线形关系,体重与肺活量才存在线形关系,因此,得出身高与肺活量之间存在较强的线形关系的错误结论。偏相关分析的任务就是在研究两个变量之间的线形相关关系时控制可能对其产生影响的变量。,106,例,分析身高、体重、肺活量间的关系数据编号data1004分
35、别调用bivariate和partial过程,比较其结,107,108,距离分析,距离分析是对观测量之间或变量之间相似性或不相似程度的一种测度。是计算一对变量之间或一对观测量之间的广义距离。这些相似性或距离测度可用于因子分析和聚类分析等。,109,有关统计量,不相似性测度等间隔数据的不相似性(距离)测度可以使用的统计量:欧几米德(欧氏)距离、欧氏距离平方等。计数数据,使用卡方。二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方等。相似性测度等间隔数据使用统计量皮尔逊相关或余弦。测度二元数据的相似性使用的统计量有二十余种。,110,8、回归分析法,回归分析的目的 设法找出变量间的依存(数量)关
36、系,用函数关系式表达出来。,111,基本概念,1、应变量(dependent variable)2、自变量(independent variable)3、一元线性回归直线回归方程的模型是:yi=a+bxi+ei其中()a是截距()b是回归系数(回归直线的斜率)(regression coefficient)回归系数的统计学意义是:自变量每变化一个单位,应变量平均变化的单位数()ei是残差,112,4、多元线性回归 多元线性回归方程模型为:yi=b0+b1x1i+b2x2i+bnxni+ei其中(1)b0是常数项,是各自变量都等于0时,应变量的估计值。有时,人们称它为本底值。(2)b1,b2,b
37、n是偏回归系数(pertial regression coefficient),其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。如果所有参加分析的变量都是标准化的变量,这时b0就等于0,b1,b2,bn 就变成了标准化偏回归系数,用符号b1,b2,bn表示。bi=bi*sxi/sy由于bi没有量纲,因此可以相互比较大小,反映自变量的相对作用大小。(3)ei是残差,113,散点图,114,115,116,117,118,自变量的选择,强迫引入法(Enter)强迫剔除法(Remove)前进法(Forward)后退法(Backward)逐步向前法(Forward stepwise)逐步向后法(Backward stepwise),