《对主成分分析中综合得分方法的质疑(王学民).docx》由会员分享,可在线阅读,更多相关《对主成分分析中综合得分方法的质疑(王学民).docx(7页珍藏版)》请在课桌文档上搜索。
1、对主成分分析中综合得分方法的质疑王学民原载于统计与决策,2007年第8期摘要:在作主成分分析时,国内近年来流行一种通过建立综合评价函数来对各样品进行综合排名的方法。本文对这一方法的不科学性作了阐述,并指出在综合评价函数中对各主成分使用贡献率加权是错中加错。关键词:主成分;信息量;综合评价函数;综合得分一、问题的提出在多元数据分析中,近年来国内流行一种通过建立综合评价函数来对所有样品进行综合排名的方法。该方法是这样的:对P个原始变量*Zr,通过主成分分析,取前例个主成分必,歹2,歹叫其方差分别为44,乙,以每个主成分必的贡献率/i=作为权数,构造综合评价函数F=aly,+a2y2-+amym计算
2、出每个样品的(小、)综合得分,然后依这个得分的大小对所有样品进行综合排名。对这种用线性组合的方式来综合各主成分的方法,笔者从未在国外的有关多元统计分析的文献中见过。该方法粗看起来似乎有一定道理且很有吸引力(似乎可以综合排名7),但仔细推敲之后就会发现这一方法是对主成分思想和方法的误解,是不科学的,没有什么理论和应用上的价值。该综合排名方法在我国的多元数据分析应用中已得到了比较普遍的误用,笔者曾在参考文献中的253页上简略地谈到过这一问题,现觉得很有必要针对这一问题作一具体阐述,谈谈自己的观点,供大家参考和讨论。二、主成分的基本思想除了将主成分法用于聚类或回归分析或寻找变量之间的共线性关系等目的
3、之外,主成分分析的一般目的由两点组成:(1)将多个有相关关系的变量压缩成少数几个不相关的主成分(综合变量),并保留绝大部分信息;(2)给出各主成分的具有实际背景和意义的解释。这里我们只讨论主成分分析的这种一般目的。主成分的价值就在于它的信息量(可用方差来度量)达到最大化,即使前少数几个主成分能使累计贡献率达到一个较大的百分数,这几个主成分能不能用还得看它们是否都能得到符合实际意义的解释C例1在1984年洛杉矶奥运会IAAF/ATFS田径统计手册中,有55个国家和地区的如下八项男子径赛运动记录:xI:IOO米(单位:秒)W:1500米(单位:分)x2:200米(单位:秒)%5000米(单位:分)
4、*3:400米(单位:秒):10000米(单位:分):800米(单位:秒):马拉松(单位:分)经计算“1,”2,/的样本相关矩阵入列于表1。火的前两个特征值、特征向量*丰及贡献率列于表2,其中Xi是不经标准化得到的,即Xi的均值和标准差分别为0和Io表1玉X2%X7玉1.000x20.9231.000x30.8410.8511.000工40.7560.8070.8701.000X50.7000.7750.8350.9181.000A0.6190.6950.7790.8640.9281.000X70.6330.6970.7870.8690.9350.9751.0000.5200.5960.705
5、0.8060.8660.9320.9431.000特征向量h,2*x:100米0.3180.567*2:200米0.3370.462“3:400米0.3560.248季*4;800米0.3690.012*5:1500米0.373-0.140*天:5000米0.364-0.312*“7;IOOOO米0.367-0.307*演:马拉松0.342-0.439特征值6.6220.878贡献率0.8280.110累计贡献率0.8280.937由表2知,前两个主成分的累计贡献率已高达93.7%,第一主成分必在所有变量上有几乎相等的正载荷,可称为在径赛项目上的强弱成分。第二主成分乃在%,”2,”8上的载荷基
6、本上逐个递减,反映了速度与耐力成绩的对比。前两个主成分必和虽然得到了很好的符合实际意义的解释,但这种解释毕竟带有一定程度的模糊性,这是主成分分析的一个特点,这种解释的模糊性也是变量降维需要付出的代价。体育径赛项目方面的专家也许能制定出实际意义更清楚、更能反映各国在径赛项目上强弱的指标ZI(例如,在系数平方和为1的前提下,取1*1 * 1 Z = 产 X1 H产 X)+ H产 Xr2222220.354x*0.354x,+0.354x* IZO)和反映速度与耐力成绩对比的指标,2,但4、22这两个指标合起来所包含的信息量不如或明显不如歹1、%所包含的信息量大。这两个主成分的优势就在于它们合在一起
7、能拥有最大的信息量,而不是它们各自能多么准确地反映各国在径赛项目上的强弱和速度与耐力成绩的对比。三、综合评价函数存在的问题在许多实际问题中,我们确实非常需要一个综合指标来对所有样品进行排序,但这个综合指标不应想当然地从前几个主成分的线性组合来产生。设作主成分分析时取前例个主成分丁|2,歹刖是合适的,则综合评价函数为+叫它存在以下一些问题:*到底包含有原始变量*2,的多少信息应用此方法者都未作说明C当然,户所含的信息量不会超过第一主成分必O(2)产到底具有什么样的实际含义,应用者都没有解释或作不出解释,只是笼统地理解为所谓的“综合”指标,用这种不知其具体含义的指标来对所有样品进行排序又有何实际意
8、义呢?这样的排序说明不了什么问题。(3)y2,的首要价值就在于它们合在一起拥有最大量的信息,这种信息对原始的个变量绝对不是包罗万象的(如并不含有关于原始变量均值等的信息),而仅是体现在数据的变异性上。把反映数据变异性信息的前例个主成分线性组合起来将会瓦解主成分在变异性信息上的优势,主成分分析一旦离开了反映变异性的信息量,也就没有价值和意义了。Var(F)=a;Va()+a;Var(%)+a:Var仇)=+L+.+(P2(P2(P2444(4)由于9/O 右丫+右(2)3在主成分分析中4一般会远大于其他的40=2,.,加)以致必对F的方差贡献所占的比例通常是很大的,而其他必对户的方差贡献所占的比
9、例通常都很小,因此*未能对必=2,,”)起到什么“综合”作用C在许多实际问题中,作主成分分析时常常会出现42否若取前两个主成分必和外,则必对户的方差贡献所占的比例为Q=一=88.89%9而对A的方差贡献所占的比例为3(24)3+石在例1中0.8283O.8283+O.1IO3=99.77%=0.23%_OJlO3升+一。828,+0.1U因此,通常影响/的主要是第一主成分,而其他主成分对户的影响一般都很小。在例1中,综合评价函数为F=alyl+a2y2=0.828%+0.110%=0.326x+0.33OE0.322x;+0.307x*+0.293x*+0.267x;+0.270x;+0.23
10、5x*将各系数均除以这些系数的平方和的平方根(以使调整后的系数平方和为1,便于与主成分的载荷进行比较),得F=0.390x:+0.395x;+0.385x;+0.367x:+0.35IE+0.320x*+0.323x;0.28lx;将变量前的各系数与表2的主成分载荷比较,可以发现户与必较接近,而与无相差很远。“既没有必的信息量大,又不如必易解释,看不出构造厂有什么实际价值。(5)在综合评价函数中,对各主成分必2,M分别使用权数,2,0m是错中加错,实际上各主成分的方差不同,具有自动加权的功能。42日、乂住mP-13z+CCVfn“住m也就是说,使用iz,2/2mJm比使用F+Vm更糟糕。M对b*的方差贡献所占的比例为A.方J(i=l,2,与匕的贡献率成正比。4/-1在因子分析中,对因子得分建立类似综合评价函数的方法同样也是错误的。参考文献1王学民.应用多元分析(第二版)M.上海:上海财经大学出版社,2004.