《试验设计和数据处理.ppt》由会员分享,可在线阅读,更多相关《试验设计和数据处理.ppt(345页珍藏版)》请在课桌文档上搜索。
1、试验设计与数据处理,试验设计与数据处理的发展概况,20世纪20年代,英国生物统计学家及数学家费歇(RAFisher)提出了方差分析 20世纪50年代,日本统计学家田口玄一将试验设计中应用最广的正交设计表格化 数学家华罗庚教授也在国内积极倡导和普及的“优选法”我国数学家王元和方开泰于1978年首先提出了均匀设计,绪论,本课程研究内容:研究如何合理地安排实验,有效地获得实验数据,然后对实验数据进行综合的科学分析,以求尽快达到优化实验的目的。本课程开设的目的:将数学的纯理论转向实际应用,利用数学工具解决实际的化学、化工及环境专业问题,无论是对于目前大家即将面临的专业课学习、毕业论文实验,还是将来的生
2、产实践,都是很有必要的。,试验设计与数据处理所要解决的问题,在自然界中,有很多的现象是没有一个特定的规律即没有一个数学模型,是不能用我们以前所学的知识所能解决的,在我们化学研究领域更是如此。比如我们在材料研究中,要研制一种新型纳米材料,它是由许多种原材料配合,再通过一定的反应过程而成。可以用多少种材料来配料,需要什么样的反应条件,这都是未知数。而且没有一定的规律可言。那就需要我们进行大量的试验来寻找它的配方及反应条件。试验设计所要作的工作就是用最少的试验次数,尽快找出这些参数的最佳范围。数据处理是对试验数据进行分析后,去掉那些对试验影响不大的因素,来确定最佳的试验方案。,二、关于实验设计与数据
3、处理本课程中主要应用的是数理统计中的统计方法理论,主要考虑的是与实验设计有关的分析并解释实验结果的统计方法。如误差检验、方差分析、回归分析等。凡是涉及到数据的问题,只要数据中包含有相当大的实验误差,则获得满意结果的唯一稳妥的处理方法就是统计方法,除此之外别无他择。统计方法应当作为从事工业生产的科技人员所必须掌握的一门技术,用来有效地处理工业生产中的各种问题。鉴于此,本课程重点讲授应用统计学理论来解决化学、化工及环境科学与工程中的遇到的实验问题。,举例说明统计学在环境科学中的应用:“化工厂经常把有毒废弃物排放到附近的河流中,这些有毒化学品对栖息在河流中的动植物往往会产生有害的影响。众所周知的DD
4、T就对鱼类特别有害。对生活在某河流中的鱼类进行DDT含量的调查曾是一项研究工作的一部分。该河流是一条东西流向的河流,穿过一个水库,生态学家担心受污染的鱼会从河口迁移到水库危及那里的依赖鱼类生存的其他野生动物。该河干流及其支流的鱼是否被DDT污染?受污染的鱼能迁移到上游多远的地方?(提出了假设),为了回答这个问题,调查组沿着该河干流和支流进行了实地考察,在不同的地段采集鱼样共144条(由假设拟定抽样调查的方案);对采集来的鱼样进行分类、称重、测量长度,然后用有机溶剂提取鱼肉中的DDT,测定鱼肉中的DDT含量(从调查和试验中获取数据)。很明显,这项调查并不是去捕捞河里所有的鱼,144个DDT测定值
5、代表着从河中之鱼DDT含量这个总体中收集的一个样本,利用收集到的数据可以比较不同地段和不同鱼种之间鱼肉中DDT的含量,并确定鱼的长度和重量与DDT含量之间是否有定量关系等等(分析数据从样本推断总体)。此例题说明了对环境问题的分析程序是:提出假设采样获取数据分析数据从样本推断总体。,涉及到的一些基本术语:总体:欲研究对象的全体,又称母体个体:组成总体的每个单元为个体(总体单位)样本:总体的一部分,即从总体中抽取的部分 个体(子样)数据(data):对研究对象进行调查和观察的结果。(定性数据、定量数据)变量(variable):具有变异性的特征或性状的量变量:采集地点、鱼种、鱼长、鱼重、鱼中DDT
6、的浓度定量数据:鱼长、鱼重、DDT浓度产生的数据定性数据:采集地点、鱼种变量产生的数据,试验设计与数据处理的意义,试验设计的目的:合理地安排试验,力求用较少的试验次数获得较好结果 例:某试验研究了3个影响因素:A:A1,A2,A3 B:B1,B2,B3 C:C1,C2,C3 全面试验:27次 正交试验:9次,数据处理的目的,通过误差分析,评判试验数据的可靠性;确定影响试验结果的因素主次,抓住主要矛盾,提高试验效率;确定试验因素与试验结果之间存在的近似函数关系,并能对试验结果进行预测和优化;试验因素对试验结果的影响规律,为控制试验提供思路;确定最优试验方案或配方。,实验可归纳为以下几种类型:(1
7、)物化性质研究:一般不常用统计方法;(2)产品、原料等的常规分析:系统误差大于随机误差,对误差需进行一定的设计,若想获得可靠的估计值,最好的方法就是采用统计方法;(3)材料特性试验:随机误差较大,为了获得可靠的估计值,必须从相当数量的观测值中取均值,凡是涉及此类实验的研究工作,均需采用统计法的合理设计;(4)过程研究:主要涉及的是各种实验条件的优化实验,需要对各种条件变化对过程的影响进行系统性研究,需要用到统计法的实验设计与数据处理知识。,本课程的讲授内容安排(1)数据处理基础:误差理论、数据的表示方法;(2)数据处理部分:有限数据的统计处理、方差分析、回归分析;(3)实验设计部分:优选法实验
8、设计、正交实验设计。,4、教材试验设计与数据处理(第二版),李云雁、胡传荣编著,化工出版社,2008,第1章 试验数据的误差分析,第1章 试验数据的误差分析,1、数据测量,1.1 数据测量的基本概念(1)物理量物理量是反映任何物理现象的状态及其过程特征的数值量。任何物理量一般都有如下特点:物理量都是有相应的单位,数值为1的物理量称为单位物理量;同一物理量可以用不同的物理单位来描述,如能量可以用焦耳、千瓦小时等不同单位来表述。(2)测量以确定量值为目的的一组操作。操作的结果可得到量值,即得到数据,这组操作称为测量。例如:用米尺测得桌子的长度为1.2米。(3)测量结果测量结果就是根据已有的信息和条
9、件对被测量物理量的最佳估计,既是物理量真值的最佳估计。在测量结果的完整表述中,应包括测量误差,必要时还应给出自由度及置信概率。测量结果具有重复性和复现性。,重复性是指在相同测量条件下,对同一被物理量进行连续多次测量所得结果之间的一致性。相同测量条件既称之为“重复性条件”主要包括:相同的测量程序、相同的测量仪器、相同的观测者、相同的地点、在短期内的重复测量、相同的测量环境。若每次的测量条件相同,则在一定的误差范围内,每一次测量结果的可靠性是相同的,这些测量值服从同一分布。复现性是指在改变测量条件下,对被测量进行多次测量时,每一次测量结果之间的一致性。即在一定的误差范围内,每一次测量结果的可靠性是
10、相同的,这些测量值服从同一分布。(4)测量方法根据给定的测量原理,在测量中所用的并按类别描述的一组操作逻辑次序和划分方法,常见的有替代法、微差法、零位法、异号法等。数据测量就是用单位物理量去描述或表示某一未知的同类物理量的大小。,1.2 数据测量的分类 一、按计量的性质分为:检定、检验和校准检定:由法定计量部门,为确定和证实计量器具是否完全满足检定规程的要求而进行的全部工作。检定是由国家法定计量部门所进行的测量,在我国主要是由各级计量院所以及授权的实验室来完成,是我国开展量值传递最常用的方法。检定必须严格按照检定规程运作,对所检仪器给出符合性判断,既给出合格还是不合格的结论,而该结论具有法律效
11、应。检定方法一般分为整体检定法和分项检定法两种。检测:对给定的产品、材料、设备、生物体、物理现象、工艺过程或服务,按照一定的程序确定一种或多种特性或性能的技术操作。检测通常是依据相关标准对产品的质量进行检验,检验结果一般记录在称为检测报告或检测证书的文件中。校准:在规定条件下,为确定测量仪器或测量系统所指示的量值,或实物量具或参考物质所代表的量值,与对应的由标准所呈现的量值之间关系的一组操作。二、按测量目的的分类分为:定值测量和参数检验定值测量:按一种不确定度确定参数实际值的测量。其目的是确定被测量的量值是多少,通常预先限定允许的测量误差。参数检验:以技术标准、规范或检定规程为依据,判断参数是
12、否合格的测量。其目的是判断被检参数是否合格,通常预先限定参数允许变化的范围(如公差等)。,三、按测量值获得的方法分为:直接测量、间接测量和组合测量(一)直接测量法 用一个预先标定好的测量仪器去直接测量未知物理量的大小。如用万用表去测量电压、电阻、电流等;用圈尺去测量长度;用磅称测量重量等。直接测量可表示为 y=x 式中 y 表示被测量的未知量,x 为直接测得的量。在由若干基本物理单位导出的物理量中,有相当多的量是无法用仪表直接测出的,如粉磨效率、选粉机的效率等。此时只能用间接测量法进行测量。,(二)间接测量法把直接测量代入某一特定的函数关系式中,通过计算求出未知物理量的大小,这种方法间接测量法
13、。例如,用毕托管测量气流速度,直接测量压差值 h。计算的特定函数关系式为,(12)式中:h U 型差压计的读数;毕托管速度系数;g 重力加速度;流体和差压计中流体密度。,间接测量通用的函数关系式为式中:y 间接测量量,直接测量量。,(三)组合测量法,要测量出x和y,分别对x+y和x-y进行直接测量,得到测量值分别为l1和l2,可得测量方程组:,解方程组得:组合测量可以用如下的通用联立方程组表示,式中:f1、f2、fn 表示组合测量中的函数关系 x1、x2、直接测量的物理量 y1、y2、未知的物理量,误差分析(error analysis):对原始数据的可靠性进行客观的评定 误差(error):
14、试验中获得的试验值与它的客观真实值在数值上的不一致试验结果都具有误差,误差自始至终存在于一切科学实验过程中客观真实值真值,1.3 误差的概念,1.3.1 真值与平均值,1.3.1.1 真值(true value)真值:在某一时刻和某一状态下,某量的客观值或实际值 真值一般是未知的相对的意义上来说,真值又是已知的平面三角形三内角之和恒为180国家标准样品的标称值国际上公认的计量值 高精度仪器所测之值多次试验值的平均值,1.3.1.2 平均值(mean),(1)算术平均值(arithmetic mean),等精度试验值,适合:,试验值服从正态分布,(2)加权平均值(weighted mean),适
15、合不同试验值的精度或可靠性不一致时,wi权重,加权和,(3)对数平均值(logarithmic mean),说明:若数据的分布具有对数特性,则宜使用对数平均值对数平均值算术平均值如果1/2x1/x22 时,可用算术平均值代替,设两个数:x10,x2 0,则,(4)几何平均值(geometric mean),当一组试验值取对数后所得数据的分布曲线更加对称时,宜采用几何平均值。几何平均值算术平均值,设有n个正试验值:x1,x2,xn,则,(5)调和平均值(harmonic mean),常用在涉及到与一些量的倒数有关的场合调和平均值几何平均值算术平均值,设有n个正试验值:x1,x2,xn,则:,1.
16、3.2 误差的基本概念,1.3.2.1 绝对误差(absolute error)(1)定义 绝对误差试验值真值 或,(2)说明,真值未知,绝对误差也未知,可以估计出绝对误差的范围:,绝对误差限或绝对误差上界,或,绝对误差估算方法:最小刻度的一半为绝对误差;最小刻度为最大绝对误差;根据仪表精度等级计算:绝对误差=量程精度等级%,1.3.2.2 相对误差(relative error),(1)定义:,或,或,(2)说明:,真值未知,常将x与试验值或平均值之比作为相对误差:,或,可以估计出相对误差的大小范围:,相对误差限或相对误差上界,相对误差常常表示为百分数(%)或千分数(),1.3.2.3 算术
17、平均误差(average discrepancy),定义式:,可以反映一组试验数据的误差大小,1.3.2.4 标准误差(standard error),当试验次数n无穷大时,总体标准差:,试验次数为有限次时,样本标准差:,表示试验值的精密度,标准差,试验数据精密度,(1)定义:以不可预知的规律变化着的误差,绝对误差时正时负,时大时小(2)产生的原因:偶然因素(3)特点:具有统计规律小误差比大误差出现机会多正、负误差出现的次数近似相等当试验次数足够多时,误差的平均值趋向于零 可以通过增加试验次数减小随机误差随机误差不可完全避免的,1.4.1 随机误差(random error),1.4 试验数据
18、误差的来源及分类,1.4.2 系统误差(systematic error),(1)定义:一定试验条件下,由某个或某些因素按照某一确定的规律起作用而形成的误差(2)产生的原因:多方面(3)特点:系统误差大小及其符号在同一试验中是恒定的 它不能通过多次试验被发现,也不能通过取多次试验值的平均值而减小只要对系统误差产生的原因有了充分的认识,才能对它进行校正,或设法消除。,1.4.3 过失误差(mistake),(1)定义:一种显然与事实不符的误差(2)产生的原因:实验人员粗心大意造成(3)特点:可以完全避免 没有一定的规律,1.4.1 精密度(precision),(1)含义:反映了随机误差大小的程
19、度在一定的试验条件下,多次试验值的彼此符合程度 例:甲:11.45,11.46,11.45,11.44 乙:11.39,11.45,11.46,11.50(2)说明:可以通过增加试验次数而达到提高数据精密度的目的 试验数据的精密度是建立在数据用途基础之上的 试验过程足够精密,则只需少量几次试验就能满足要求,1.5 试验数据的精准度,(3)精密度判断,极差(range),标准差(standard error),R,精密度,标准差,精密度,方差(variance),标准差的平方:样本方差(s2)总体方差(2)方差,精密度,1.4.2 正确度(correctness),(1)含义:反映系统误差的大小
20、(2)正确度与精密度的关系:,精密度不好,但当试验次数相当多时,有时也会得到好的正确度,精密度高并不意味着正确度也高,(a),(b),(c),1.4.3 准确度(accuracy),(1)含义:反映了系统误差和随机误差的综合 表示了试验结果与真值的一致程度(2)三者关系无系统误差的试验,精密度:ABC正确度:ABC准确度:ABC,有系统误差的试验,精密度:A B C 准确度:A B C,A B,C,1.5.1 随机误差的检验,1.5 试验数据误差的统计假设检验,(1)目的:,对试验数据的随机误差或精密度进行检验。,(2)检验步骤:,计算统计量,查临界值,一般取0.01或0.05,表示有显著差异
21、的概率,双侧(尾)检验(two-sided/tailed test):,检验,若,则判断两方差无显著差异,否则有显著差异,单侧(尾)检验(one-sided/tailed test):左侧(尾)检验:,则判断该方差与原总体方差无显著减小,否则有显著减小,右侧(尾)检验,则判断该方差与原总体方差无显著增大,否则有显著增大,若,若,1.5.1.2 F检验(F-test),(1)目的:对两组具有正态分布的试验数据之间的精密度进行比较(2)检验步骤计算统计量,设有两组试验数据:,都服从正态分布,样本方差分别为,和,和,,则,第一自由度为,第二自由度为,服从F分布,,查临界值给定的显著水平,查F分布表,
22、临界值,双侧(尾)检验(two-sided/tailed test):,检验,若,则判断两方差无显著差异,否则有显著差异,单侧(尾)检验(one-sided/tailed test):左侧(尾)检验:,则判断该判断方差1比方差2无显著减小,否则有显著减小,右侧(尾)检验,则判断该方差1比方差2无显著增大,否则有显著增大,若,若,1.5.2 系统误差的检验,1.5.2.1 t检验法(1)平均值与给定值比较 目的:检验服从正态分布数据的算术平均值是否与给定值有显著差异检验步骤:计算统计量:,给定值(可以是真值、期望值或标准值),双侧检验:,若,则可判断该平均值与给定值无显著差异,否则就有显著差异,
23、单侧检验,左侧检验,若,且,则判断该平均值与给定值无显著减小,否则有显著减小,右侧检验,若,且,则判断该平均值与给定值无显著增大,否则有显著增大,(2)两个平均值的比较 目的:判断两组服从正态分布数据的算术平均值有无显著差异计算统计量:两组数据的方差无显著差异时,s合并标准差:,两组数据的精密度或方差有显著差异时,服从t分布,其自由度为:,t检验,双侧检验:,若,则可判断两平均值无显著差异,否则就有显著差异,单侧检验,左侧检验,若,且,则判断该平均值1较平均值2无显著减小,否则有显著减小,右侧检验,若,且,则判断该平均值1较平均值2无显著增大,否则有显著增大,(3)成对数据的比较 目的:试验数
24、据是成对出现,判断两种方法、两种仪器或两分析人员的测定结果之间是否存在系统误差计算统计量:,成对测定值之差的算术平均值:,零或其他指定值,n对试验值之差值的样本标准差:,t检验 若,否则两组数据之间存在显著的系统误差,,则成对数据之间不存在显著的系统误差,,1.5.2.2 秩和检验法(rank sum test),(1)目的:两组数据或两种试验方法之间是否存在系统误差、两种方法是否等效等,不要求数据具有正态分布(2)内容:设有两组试验数据,相互独立,n1,n2分别是两组数据的个数,假定 n1n2;将这个试验数据混在一起,按从小到大的次序排列 每个试验值在序列中的次序叫作该值的秩(rank)将属
25、于第1组数据的秩相加,其和记为R1 R1第1组数据的秩和(rank sum)如果两组数据之间无显著差异,则R1就不应该太大或太小,查秩和临界值表:根据显著性水平和n1,n2,可查得R1的上下限T2和T1 检验:如果R1T2 或R1 T1,则认为两组数据有显著差异,另一组数据有系统误差如果T1R1T2,则两组数据无显著差异,另一组数据也无系统误差,(3)例:,设甲、乙两组测定值为:甲:8.6,10.0,9.9,8.8,9.1,9.1 乙:8.7,8.4,9.2,8.9,7.4,8.0,7.3,8.1,6.8已知甲组数据无系统误差,试用秩和检验法检验乙组测定值是否有系统误差。(0.05),解:(1
26、)排序:,(2)求秩和R1 R1=7911.511.5141568(3)查秩和临界值表 对于0.05,n1=6,n2=9得 T1=33,T263,R1T2 故:两组数据有显著差异,乙组测定值有系统误差,秩和临界值表,1.5.3 异常值的检验,可疑数据、离群值、异常值 一般处理原则为:在试验过程中,若发现异常数据,应停止试验,分析原因,及时纠正错误试验结束后,在分析试验结果时,如发现异常数据,则应先找出产生差异的原因,再对其进行取舍在分析试验结果时,如不清楚产生异常值的确切原因,则应对数据进行统计处理;若数据较少,则可重做一组数据对于舍去的数据,在试验报告中应注明舍去的原因或所选用的统计方法,1
27、.5.3.1 拉依达()检验法,内容:可疑数据xp,若,则应将该试验值剔除。,说明:,计算平均值及标准偏差s 时,应包括可疑值在内,3s相当于显著水平0.01,2s相当于显著水平0.05,可疑数据应逐一检验,不能同时检验多个数据 首先检验偏差最大的数 剔除一个数后,如果还要检验下一个数,应重新计算平均值及标准偏差方法简单,无须查表 该检验法适用于试验次数较多或要求不高时3s为界时,要求n102s为界时,要求n5,有一组分析测试数据:0.128,0.129,0.131,0.133,0.135,0.138,0.141,0.142,0.145,0.148,0.167,问其中偏差较大的0.167这一数
28、据是否应被舍去?(0.01),解:(1)计算,例:,(2)计算偏差,(3)比较,3s30.011160.03350.027,故按拉依达准则,当0.01时,0.167这一可疑值不应舍去,(2)格拉布斯(Grubbs)检验法,内容:可疑数据xp,若,则应将该值剔除。,Grubbs检验临界值,格拉布斯(Grubbs)检验临界值G(,n)表,说明:,计算平均值及标准偏差s 时,应包括可疑值在内可疑数据应逐一检验,不能同时检验多个数据 首先检验偏差最大的数 剔除一个数后,如果还要检验下一个数,应重新计算平均值及标准偏差能适用于试验数据较少时 格拉布斯准则也可以用于检验两个数据偏小,或两个数据偏大的情况
29、例:,(3)狄克逊(Dixon)检验法,单侧情形将n个试验数据按从小到大的顺序排列:x1x2xn-1xn 如果有异常值存在,必然出现在两端,即x1 或xn计算出统计量D或D,统计量D计算公式,双侧情形计算D和 D查双侧临界值,检验,查单侧临界值 检验,说明,适用于试验数据较少时的检验,计算量较小 单侧检验时,可疑数据应逐一检验,不能同时检验多个数据 剔除一个数后,如果还要检验下一个数,应重新排序,1.6.1 有效数字(significance figure),能够代表一定物理量的数字有效数字的位数可反映试验或试验仪表的精度数据中小数点的位置不影响有效数字的位数例如:50,0.050m,5.01
30、04m第一个非0数前的数字都不是有效数字,而第一个非0数后的数字都是有效数字例如:29和29.00第一位数字等于或大于8,则可以多计一位例如:9.99,1.6 有效数字和试验结果的表示,1.6.2 有效数字的运算,(1)加、减运算:与其中小数点后位数最少的相同(2)乘、除运算 以各乘、除数中有效数字位数最少的为准(3)乘方、开方运算:与其底数的相同:例如:2.42=5.8(4)对数运算:与其真数的相同 例如ln6.841.92;lg0.000044,(5)在4个以上数的平均值计算中,平均值的有效数字可增加一位(6)所有取自手册上的数据,其有效数字位数按实际需要取,但原始数据如有限制,则应服从原
31、始数据。(7)一些常数的有效数字的位数可以认为是无限制的 例如,圆周率、重力加速度g、1/3等(8)一般在工程计算中,取23位有效数字,1.6.3 有效数字的修约规则,4:舍去5,且其后跟有非零数字,进1位例如:3.14159 3.1425,其右无数字或皆为0时,“尾留双”:若所保留的末位数字为奇数则进1若所保留的末位数字为偶数则舍弃例如:3.1415 3.142 1.3665 1.366,1.7 误差的传递,误差的传递:根据直接测量值的误差来计算间接测量值的误差1.7.1 误差传递基本公式 间接测量值y与直接测量值xi之间函数关系:,全微分,函数或间接测量值的绝对误差为:,相对误差为:,误差
32、传递系数,直接测量值的绝对误差;,间接测量值的绝对误差或称函数的绝对误差。,函数标准误差传递公式:,1.7.2 误差传递公式的应用,(1)根据各分误差的大小,来判断间接测量或函数误差的主要来源:(2)选择合适的测量仪器或方法:,第2章 试验数据的表图表示法,2.1 列表法,将试验数据列成表格,将各变量的数值依照一定的形式和顺序一一对应起来(1)试验数据表记录表试验记录和试验数据初步整理的表格 表中数据可分为三类:原始数据 中间数据最终计算结果数据,结果表示表表达试验结论 应简明扼要,(2)说明:,三部分:表名、表头、数据资料 必要时,在表格的下方加上表外附加 表名应放在表的上方,主要用于说明表
33、的主要内容,为了引用的方便,还应包含表号 表头常放在第一行或第一列,也称为行标题或列标题,它主要是表示所研究问题的类别名称和指标名称 数据资料:表格的主要部分,应根据表头按一定的规律排列 表外附加通常放在表格的下方,主要是一些不便列在表内的内容,如指标注释、资料来源、不变的试验数据等,(3)注意:,表格设计应简明合理、层次清晰,以便阅读和使用;数据表的表头要列出变量的名称、符号和单位;要注意有效数字位数;试验数据较大或较小时,要用科学记数法来表示,并记入表头,注意表头中的与表中的数据应服从下式:数据的实际值10n 表中数据;数据表格记录要正规,原始数据要书写得清楚整齐,要记录各种试验条件,并妥
34、为保管。,2.2.1 常用数据图,(1)线图(line graph/chart)表示因变量随自变量的变化情况 线图分类:单式线图:表示某一种事物或现象的动态 复式线图:在同一图中表示两种或两种以上事物或现象的动态,可用于不同事物或现象的比较,2.2 图示法,图1 高吸水性树脂保水率与时间和温度的关系,图2 某离心泵特性曲线,(2)XY散点图(scatter diagram),表示两个变量间的相互关系 散点图可以看出变量关系的统计规律,图3 散点图,(3)条形图和柱形图,用等宽长条的长短或高低来表示数据的大小,以反映各数据点的差异 两个坐标轴的性质不同 数值轴:表示数量性因素或变量 分类轴:表示
35、的是属性因素或非数量性变量,图4 不同提取方法提取率比较,分类:单式:只涉及一个事物或现象 复式:涉及到两个或两个以上的事物或现象,图5 不同提取方法对两种原料有效成分提取率效果比较,(4)圆形图和环形图,圆形图(circle chart)也称为饼图(pie graph)表示总体中各组成部分所占的比例 只适合于包含一个数据系列的情况 饼图的总面积看成100%,每3.6圆心角所对应的面积为1%,以扇形面积的大小来分别表示各项的比例,图6 全球天然维生素E消费比例,环形图(circular diagram),每一部分的比例用环中的一段表示 可显示多个总体各部分所占的相应比例,有利于比较,图7 全球
36、合成、天然维生素E消费比例比较,(5)三角形图(ternary),常用于表示三元混合物各组分含量或浓度之间的关系 三角形:等腰Rt、等边、不等腰Rt等顶点:纯物质边:二元混合物三角形内:三元混合物,M,xA,xS,xB1 xA xS,图8 等腰直角三角形坐标图,A,B,C,xC,xB,xA,xA,xA,xC,xC,xB,xB,M,E,F,图9 等边三角形坐标图,(6)三维表面图(3D surface graph),三元函数Z=f(X,Y)对应的曲面图,根据曲面图可以看出因变量Z值随自变量X和Y值的变化情况,图10 三维表面图,(7)三维等高线图(contour plot),三维表面图上Z值相等
37、的点连成的曲线在水平面上的投影,图11 三维等高线图,绘制图形时应注意:,(1)在绘制线图时,要求曲线光滑,并使曲线尽可能通过较多的实验点,或者使曲线以外的点尽可能位于曲线附近,并使曲线两侧的点数大致相等;(2)定量的坐标轴,其分度不一定自零起;(3)定量绘制的坐标图,其坐标轴上必须标明该坐标所代表的变量名称、符号及所用的单位,一般用纵轴代表因变量;(4)坐标轴的分度应与试验数据的有效数字位数相匹配;(5)图必须有图号和图题(图名),以便于引用,必要时还应有图注。,2.2.2 坐标系的选择,坐标系(coordinate system)笛卡尔坐标系(又称普通直角坐标系)、半对数坐标系、对数坐标系
38、、极坐标系、概率坐标系、三角形坐标系.对数坐标系(semi-logarithmic coordinate system)半对数坐标系 双对数坐标系,(1)选用坐标系的基本原则:,根据数据间的函数关系线性函数:普通直角坐标系幂函数:双对数坐标系指数函数:半对数坐标根据数据的变化情况两个变量的变化幅度都不大,选用普通直角坐标系;有一个变量的最小值与最大值之间数量级相差太大时,可以选用半对数坐标;两个变量在数值上均变化了几个数量级,可选用双对数坐标;在自变量由零开始逐渐增大的初始阶段,当自变量的少许变化引起因变量极大变化时,此时采用半对数坐标系或双对数坐标系,可使图形轮廓清楚,例:,图12 普通直角
39、坐标系,图13 对数坐标系,(2)坐标比例尺的确定,在变量x和y的误差x,y已知时,比例尺的取法应使试验“点”的边长为2x,2y,而且使2x2y12,若2y2,则y轴的比例尺My应为:,推荐坐标轴的比例常数M(1、2、5)10 n(n为正整数),而3、6、7、8等的比例常数绝不可用;,纵横坐标之间的比例不一定取得一致,应根据具体情况选择,使曲线的坡度介于3060之间,例2:研究pH值对某溶液吸光度A的影响,已知pH值的测量误差pH0.1,吸光度A的测量误差A0.01。在一定波长下,测得pH值与吸光度A的关系数据如表所示。试在普通直角坐标系中画出两者间的关系曲线。,设2pH2A2mm,解:,pH
40、0.1,A0.01,横轴的比例尺为,纵轴的比例尺为,图14 坐标比例尺对图形形状的影响,2.3.1 Excel在图表绘制中的应用(1)利用Excel生成图表的基本方法(2)对数坐标的绘制(3)双Y轴(X轴)复式线图的绘制(4)图表的编辑和修改2.3.2 Origin在图形绘制中的应用(1)简单二维图绘制的基本方法(2)三角形坐标图的绘制(3)三维图的绘制,2.3 计算机绘图软件在图表绘制中应用,表2-1 离心泵特性曲线测定实验的数据记录表,附:泵入口管径:_mm;泵出口管径:_mm;真空表与压力表垂直距离:_mm;水温:_;电动机转速 r/min。,第3章 试验的方差分析,方差分析(analy
41、sis of variance,简称ANOVA)检验试验中有关因素对试验结果影响的显著性试验指标(experimental index)衡量或考核试验效果的参数 因素(experimental factor)影响试验指标的条件 可控因素(controllable factor)水平(level of factor)因素的不同状态或内容,3.1 单因素试验的方差分析(one-wayanalysisofvariance),3.1.1 单因素试验方差分析基本问题(1)目的:检验一个因素对试验结果的影响是否显著性(2)基本命题:设某单因素A有r种水平:A1,A2,Ar,在每种水平下的试验结果服从正态分
42、布在各水平下分别做了ni(i1,2,r)次试验判断因素A对试验结果是否有显著影响,(3)单因素试验数据表,3.1.2 单因素试验方差分析基本步骤,(1)计算平均值组内平均值:,总平均:,(2)计算离差平方和,总离差平方和SST(sum of squares for total),表示了各试验值与总平均值的偏差的平方和 反映了试验结果之间存在的总差异,组间离差平方和 SSA(sum of square for factor A),反映了各组内平均值之间的差异程度 由于因素A不同水平的不同作用造成的,组内离差平方和 SSe(sum of square for error),反映了在各水平内,各试验
43、值之间的差异程度 由于随机误差的作用产生,三种离差平方和之间关系:,(3)计算自由度(degree of freedom),总自由度:dfTn1组间自由度:dfA r1组内自由度:dfe nr 三者关系:dfT dfA dfe(4)计算平均平方均方离差平方和除以对应的自由度,MSA组间均方,MSe组内均方/误差的均方,(5)F检验,服从自由度为(dfA,dfe)的F分布(F distribution)对于给定的显著性水平,从F分布表查得临界值F(dfA,dfe)如果FA F(dfA,dfe),则认为因素A对试验结果有显著影响否则认为因素A对试验结果没有显著影响,(6)方差分析表,若 FA F0
44、.01(dfA,dfe),称因素A对试验结果有非常显著的影响,用“*”号表示;若 F0.05(dfA,dfe)FA F0.01(dfA,dfe),则因素A对试验结果有显著的影响,用“*”号表示;若 FA F0.05(dfA,dfe),则因素A对试验结果的影响不显著,单因素试验的方差分析表,3.2 双因素试验的方差分析,讨论两个因素对试验结果影响的显著性,又称“二元方差分析”3.2.1 双因素无重复试验的方差分析(1)双因素无重复试验,(2)双因素无重复试验方差分析的基本步骤,计算平均值 总平均:,Ai水平时:,Bj水平时:,计算离差平方和,总离差平方和:因素A引起离差的平方和:因素B引起离差的
45、平方和:误差平方和:,计算自由度,SSA的自由度:dfA r1SSB的自由度:dfBs1 SSe的自由度:dfe(r1)(s1)SST的自由度:dfTn1rs1 dfT dfA dfB dfe计算均方,F检验,FA服从自由度为(dfA,dfe)的F分布;FB服从自由度为(dfB,dfe)的F分布;对于给定的显著性水平,查F分布表:F(dfA,dfe),F(dfB,dfe)若FAF(dfA,dfe),则因素A对试验结果有显著影响,否则无显著影响;若FBF(dfB,dfe),则因素B对试验结果有显著影响,否则无显著影响;,无重复试验双因素方差分析表,无重复试验双因素方差分析表,3.2.2 双因素重
46、复试验的方差分析,(1)双因素重复试验方差分析试验表,双因素重复试验方差分析试验表,(2)双因素重复试验方差分析的基本步骤,计算平均值总平均:任一组合水平(Ai,Bj)上:Ai水平时:Bj水平时:,计算离差平方和,总离差平方和:因素A引起离差的平方和:因素B引起离差的平方和:交互作用AB引起离差的平方和:误差平方和:,计算自由度,SSA的自由度:dfA r1SSB的自由度:dfBs1 SSAB的自由度:dfAB(r1)(s1)SSe的自由度:dfers(c 1)SST的自由度:dfTn1rsc1 dfT dfA dfB dfAB dfe,计算均方,F检验,若FAF(dfA,dfe),则认为因素
47、A对试验结果有显著影响,否则无显著影响;若FBF(dfB,dfe),则认为因素B对试验结果有显著影响,否则无显著影响;若FABF(dfAB,dfe),则认为交互作用AB对试验结果有显著影响,否则无显著影响。,重复试验双因素方差分析表,第4章 试验数据的回归分析,4.1 基本概念,(1)相互关系 确定性关系:变量之间存在着严格的函数关系相关关系:变量之间近似存在某种函数关系(2)回归分析(regression analysis)处理变量之间相关关系的统计方法确定回归方程:变量之间近似的函数关系式检验回归方程的显著性 试验结果预测,4.2 一元线性回归分析,4.2.1 一元线性回归方程的建立(1)
48、最小二乘原理设有一组试验数据(如表),若x,y符合线性关系,计算值 与试验值yi不一定相等,与yi之间的偏差称为残差:,a,b回归系数(regressioncoefficient),回归值/拟合值,由xi代入回归方程计算出的y值。,一元线性回归方程:,残差平方和:,残差平方和最小时,回归方程与试验值的拟合程度最好,求残差平方和极小值:,正规方程组(normalequation):,解正规方程组:,简算法:,4.2.2 一元线性回归效果的检验,(1)相关系数检验法 相关系数(correlationcoefficient):描述变量x与y的线性相关程度定义式:,相关系数特点:,1r1r1:x与y有
49、精确的线性关系,r0:x与y负线性相关(negative linear correlation)r0:x与y正线性相关(positivelinear correlation),r0时,x与y没有线性关系,但可能存在其它类型关系相关系数r越接近1,x与y的线性相关程度越高 试验次数越少,r越接近1,当,说明x与y之间存在显著的线性关系,对于给定的显著性水平,查相关系数临界值rmin,相关系数检验,(2)F检验,离差平方和 总离差平方和:,回归平方和(regressionsumofsquare):,残差平方和:,三者关系:,自由度,SST的自由度:dfTn1SSR的自由度:dfR1SSe的自由度:
50、dfen2三者关系:dfT dfR dfe均方,F检验,F服从自由度为(1,n2)的F分布给定的显著性水平下,查得临界值:F(1,n2)若F F(1,n2),则认为x与y有明显的线性关系,所建立的线形回归方程有意义,方差分析表,4.3 多元线性回归分析,(1)多元线性回归形式试验指标(因变量)y与m个试验因素(自变量)xj(j=1,2,m)多元线性回归方程:,4.3.1 多元线性回归方程的建立,偏回归系数:,(2)回归系数的确定,根据最小二乘法原理:求偏差平方和最小时的回归系数偏差平方和:,根据:,得到正规方程组,正规方程组的解即为回归系数。,4.3.2 多元线性回归方程显著性检验,(1)F检