《A中北大学25 郝伟娜 辛志贤 刘欢.docx》由会员分享,可在线阅读,更多相关《A中北大学25 郝伟娜 辛志贤 刘欢.docx(41页珍藏版)》请在课桌文档上搜索。
1、承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等
2、)。我们参赛选择的题号是(从A/B/C/D中选择一项填写):A我们的参赛报名号为(如果赛区设置报名号的话):25所属学校(请填写完整的全名):中北大学参赛队员(打印并签名):1.郝伟娜2. 辛志贤3. 刘欢指导教师或指导教师组负责人(打印并签名):薛亚奎日期:2012年9月10日编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):葡萄酒的评价摘要葡萄酒日益受到人们的欢迎,其质量的好坏直接影响到人们的认知程度,但仅靠评酒员的感性认识不能真正反映出葡萄酒质量的好坏,因此合理评价葡萄酒的质量有着重要的理论
3、和现实意义。本文针对题目中给出的四个问题进行了详细的分析和研究。针对问题一,首先,我们对两组评酒员的评价结果进行统计分析和假设检验,采用配对样本,检验法,建立相应的统计模型,并利用SPSS软件对两组评价结果有无显著性差异进行了分析,得到在5%的显著性水平下,两组评酒员的评价结果无显著性差异。然后,分别对红葡萄酒和白葡萄酒样本进行方差分析,建立了相应的统计模型,利用EXCE1.求解,得到第二组评酒员的结果更可信。针对问题二,首先,考虑到酿酒葡萄的理化指标过多,我们采用主成分分析法对其进行降维,建立了相应统计模型,利用SPSS软件求解,确定出酿酒葡萄的理化指标和葡萄酒的质量得分的权重比为3:1,再
4、结合EXCE1.统计分析工具,把酿酒葡萄划分为五个等级:红葡萄一级(1,2,3,8,9,23)、二级(14,21)、三级(5,13,16,19,22)、四级(4,6,7,10,12,15,17,24)、五级(I1.18,20,25,26,27);白葡萄一级(5,24,26,27,28)、二级(3,4,9,10,20,21,23,25)、三级(2,6,7,12,14,22)、四级(11,15,17,18,19)、五级(1,8,13,16)。针对问题三,为了分析酿酒葡萄与葡萄酒理化指标之间的联系,我们将问题转化为求解酿酒葡萄的多个理化指标与葡萄酒的理化指标之间的对应关系,运用多元回归分析的思想,采
5、用逐步引入剔除法,建立相应的回归方程模型,利用SPSS软件中的回归分析功能,得到了表征酿酒葡萄的理化指标与葡萄酒的理化指标之间联系的函数关系式。针对问题四,延用第三问中多元回归分析的思想,采用逐步引入剔除法,建立相应的回归方程模型,利用SPSS软件中的回归分析功能,得出可以用红色酿酒葡萄和红色葡萄酒的理化指标评价红色葡萄酒的质量,而白色酿酒葡萄和白色葡萄酒的理化指标不能评价白色葡萄酒的质量。最后,我们对模型进行了相应的统计检验和误差分析,并提出了改进方案。关键词:假设检验,主成分分析,多元回归分析,SPSS,EXCE1.一、问题重述随着人民生活水平的提高,葡萄酒由于其独特的口感和功效,日益为人
6、们所熟知并喜爱,故对葡萄酒的品评也越来越重要。通常人们在确定葡萄酒质量时倾向于聘请一批有资质的评酒员进行品评。然后每个评酒员对葡萄酒进行品尝后对其分类指标打分并求和得到其总分,从而确定葡萄酒的质量。又根据题目已知条件,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系以及葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。现需解决以下几个问题:1 .分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信;2 .根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级;3 .分析酿酒葡萄与葡萄酒的理化指标之间的联系;4 .分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并
7、论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。二、问题分析本题要解决的是葡萄酒的质量评价的分析问题,下面分别对四个问题进行分析:2.1问题一通过研究,我们发现该问题属于统计学中的假设检验问题。为了对评酒员的评价结果进行显著性差异分析,并比较哪组结果更可靠。分析附件1中的两组不同的评酒员对相同葡萄酒样品的评价数据。又因为在葡萄酒样品相同的情况下,评分主要是由评酒员给出,故应考虑人为因素对评分的影响。问题难点在于怎样对数据进行处理。问题的实质是根据评分结果查看哪一组评酒员的品评总均值稳定性好。同时,在分析附件1数据的过程中我们发现两个错误数据,第一组红葡萄酒品尝评分表中第76行少一个数据;第
8、一组白葡萄酒品尝评分表中第233行给出的数据值为77有误。海量的数据中个别数据的错误可以直接剔除并忽略。2.2问题二为了根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级,利用问题一的结果,以更可信的评酒员的评分结果对判断酒的质量为建模依据。因为酿酒葡萄的理化指标对葡萄酒质量的影响没有具体的值衡量,所以只能根据可信度高的评酒员对葡萄酒的评分划分葡萄的级别,又因为题中指出葡萄酒的好坏与所酿葡萄酒的质量有直接关系,现假设葡萄酒的质量不受加工工艺和过程的影响,故酿酒葡萄的理化指标是影响葡萄酒质量的关键,于是可以根据葡萄酒的质量划分酿酒葡萄的级别。2.3问题三为了分析酿酒葡萄与葡萄酒的理化指标之间
9、的联系,在问题一和问题二的分析结果的基础上,对附件二、三中的大量且分类复杂的数据进行分析,得到酿酒葡萄与葡萄酒的理化指标之间的联系。2.4问题四分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标评价葡萄酒的质量。题目指出葡萄酒和酿酒葡萄的理化指标会在一定程度上反映葡萄酒和葡萄的质量。先衡量酿酒葡萄的理化指标和葡萄酒的理化指标对葡萄酒的影响,再考虑芳香物质对葡萄酒评价的影响。三、模型假设1 .数据来源真实可靠;2 .品酒的先后次序对葡萄酒的评分没有影响;3 .不同的样品酒之间相互独立;4 .忽略葡萄酒的制作工艺和制作过程对葡萄酒质量的影响。四、符号说明Xij一一
10、第i组评酒员对于第/个葡萄酒样品的打分的均值,i=l,2;J=l,2一一葡萄酒样品的总数i一一第i组评酒员对个葡萄酒样品打分的总均值,i=l,2=-一一第一组评酒员与第二组评酒员对第i样品打分的差值,i=l,2./Yi一一方对应的样本值Sy匕对应的样本方差X1一一主成分分析法中第i个研究对象p主成分分析法变量的个数X=(XpX2.Xp)tP维随机向量随机向量X的均值ZjX,X2Xp中的第i主成分Rij(i,j=l,2.p)原始变量Xi与Xi的相关系数R标准化数据协方差矩阵2l(i=l,2.p)特征值k一一回归系数的个数Y一一红白葡萄酒的理化指标斤一一第i个回归系数的尸检验值Foia一一回归系数
11、被剔除时的临界尸检验值五、模型的建立与求解5.1 问题一5.1.1 模型建立问题一的数据来源于一批有资质的评酒员对葡萄酒的各项分类指标的评价,酒的评分采取百分制。将葡萄酒分为红葡萄酒和白葡萄酒,其中,红葡萄酒有27组样品,白葡萄酒有28组样品。评酒员有两组,每组10人。两组人员分别对红葡萄酒和白葡萄酒的每组样品进行品尝,然后对葡萄酒的各项分类指标评分得到附件1中的表格。同时,结合资料和附件二、三中的数据,对问题一进行分析。通过对问题一的研究,我们发现这是一个统计学中的假设检验问题。根据题目所给的附件1中的两组评酒员对葡萄酒样品的评价数据,为了分析两组评价结果有无显著性差异,在对比分析显著性差异
12、常用到的算法后,我们结合题目的特点和自身对题目的理解,决定采用简单可行的配对样本?检验法,以此建立相应的数学模型,并利用SPSS软件得到两组评价结果有无显著性差异。为比较哪一组结果更可信,我们分别对红葡萄酒样本和白葡萄酒样本的方差的和进行分析,建立相应的数学模型,运用EXCE1.进行求解。对于问题一中显著性检验,因为配对样本是指对同一样本进行两次测试所获得的两组数据,或对两个完全相同的样本在不同条件下进行测试所得的两组数据。而且附件1中所给数据实质上是两组不同评酒员对相同的红葡萄酒和白葡萄酒样本检验。又因为红葡萄酒和白葡萄酒之间有差异。故我们分别将两组评酒员的红葡萄酒样品的品评总分的均值配对和
13、两组的白葡萄酒样品的品评总分均值配对,进行配对样本,检验。下面以葡萄酒为例进行说明:通过EXCE1.中的函数调用功能我们得到两组葡萄酒的个样品品评总分的均值为(X,%2,1)和(,X22,r2)。将两样本相互配对,进行配对,检验。要求检验Ml和2是否有显著性差异。我们引入一个新的随机变量y=冲-芍(i=l,2M,对应样本的值为(K2工),样本方差为s,。这样,配对r检验的问题就转化为单样本,检验问题即转化为检验丫的均值是否与0有显著差异。首先我们建立原假设为%:4=()然后构造,统计量为:t=sy4nzi接下来我们对两组评酒员的可信度进行分析:现题目要求评价哪一组结果更可信,因两组葡萄酒样品相
14、同,所以,问题的实质就是根据两组评酒员对同一葡萄酒样品的评分结果比较哪一组的评酒员的评分稳定性比较高。我们先分别对红、白葡萄酒样品的各项分类指标,如澄清度,色调等,求出品评得分方差,然后再比较红葡萄酒与红葡萄酒的各项指标的方差的值,以及白葡萄酒与白葡萄酒的各项指标的方差的值。5.1.2 模型求解针对问题一中的两组评酒员的评价结果有无显著性差异的问题,我们首先分别求出红葡萄酒样本和白葡萄酒样本的总分的平均值。其次,把第一组红葡萄酒和第二组红葡萄酒的各样品总得分均值表列出,再把第一组白葡萄酒和第二组白葡萄酒的各样品总得分均值表列出。两组红葡萄酒的各样品总得分均值表中第一组红葡萄酒的各样品得分均值定
15、义为加el,第二组红葡萄酒的各样品的得分均值定义为/2。两组白葡萄酒的各样品总得分均值表中第一组白葡萄酒的各样品得分均值定义为。第二组白葡萄酒的各样品的得分均值定义为。由于SPSS在统计假设检验方面具有广泛的应用,因此我们决定采用SPSS对上述数据做成对t检验,得到结果如下:对两组红葡萄酒统计量分析:成对样本统计量均值N标准差均值的标准误对1avel73.0823277.354781.41543ave270.5148273.97799.76556表5.1第一组红葡萄酒的各样品得分均值的基本描述统计量成对样本相关系数N相关系数Sig.对1avel&ave227.702.000表5.2第一组红葡萄
16、酒的各样品得分均值的相关系数及检验成对样本检验成对差分tdfSig.(双侧)均值标准差均值的标准误差分的95%置信区间下限上限对1avel-ave22.567495.368631.03319.443734.691252.48526.020表5.3配对样本t检验的结果对两组白葡萄酒统计量分析:成对样本统计量均值N标准差均值的标准误对1avel,74.2607285.20123.98294ave2,76.5321283.17094.59925表5.4第一组白葡萄酒的各样品得分均值的基本描述统计量成对样本相关系数N相关系数Sig.对1avel&ave228.207.291表5.5第一组白葡萄酒的各样
17、品得分均值的相关系数及检验成对样本检验成对差分IdfSig.(双侧)均值标准差均值的标准3昧差分的95%置信区同下限上限对1avel,-ave2-2.271435.503861.04013-4.4056013725-2.18427.038表5.6配对样本t检验的结果假设检验水平为0.05,根据Sig的统计学意义结合对题目的具体分析,若Sig小于0.05,则认为两组样本ave和ave2与和ve2,之间没有显著性差异,若Sig大于0.05,则认为两组样本uel和We2与和Qye2,之间有显著性差异。由表5.13可知,Sig的值为0.02c.预测变量:(常量),Zscore(x41),Zscore(
18、x20),Zscore(x23)0d.预测变量:(常量),Zscore(x41),Zscore(x20),Zscore(x23),Zscore(x34)。表5.15白葡萄和白葡萄酒的理化指标以及其芳香物质来评价葡萄酒的质量影响的模型汇总白葡萄和白葡萄酒的理化指标以及其芳香物质来评价葡萄酒的质量影响的系数:系数,模型非标准化系数标准系数ISig.B标准误差试用版1(常量)4.543E-15.163.0001.000Zscore(x41).531.166.5313.194.0042(常量)4.589E-15.143.0001.000Zscore(x41).604.147.6044.099.000Z
19、score(x20).442.147.4423.OOO.0063(常量)4.628E-15.117.0001.000Zscore(x41).515.124.5154.161.000Zscore(x20).522.123.5224.229.000Zscore(x23)448.125448-3.589.0014(常量)4.614E-15.IlO.0001.000Zscore(x41).524.116.5244.528.000Zscore(x20).539.116.5394.663.000Zscore(x23)462.117462-3.953.001Zscore(x34)238.112238-2.117.045a.因变量:Zscore(yl)表5.16白葡萄和白葡萄酒的理化指标以及其芳香物质来评价葡萄酒的质量影响的系数根据上表可知,红色酿酒葡萄和红色葡萄酒的理化指标对红色葡萄酒质量有显著影响,白色酿酒葡萄和白色葡萄酒的理化指标对白色葡萄酒的质量没有显著影响;在加入芳香物质后,芳香物质对红色葡萄酒