《均匀设计与均匀设计表--方开泰.docx》由会员分享,可在线阅读,更多相关《均匀设计与均匀设计表--方开泰.docx(54页珍藏版)》请在课桌文档上搜索。
1、目录序言2前言5第一章试验设计和均匀设计71.l试验设计71.2试验的因素和水平9L3因素的主效应和因素间的交互效应111.4全面试验和多次单因素试验14L5正交试验法(正交设计)171.6均匀设计19L7均匀设计表的使用22第二章回归分析简介及其在均匀设计中的应用242.1一元线性回归模型242.2多元线性回归模型272.3二次型回归模型和变量筛选292,4应用实例312.5寻求最优工艺条件33第三章均匀设计表的构造和运用353.1均匀设计表的构造353.2均匀性准则和使用表的产生373.4均匀设计和正交设计的比较44第四章配方均匀设计484.1配方试验设计484.2配方均匀设计494.3有
2、约束的配方均匀设计514.4均匀设计在系统工程中的应用54序言在科学实验和工农业生产中,经常要做实验。如何安排实验,使实验次数尽量少,而又能达到好的试验效果呢?这是经常会碰到的问题。解决这个问题有一门专门的学问,叫做“试验设计工试验设计得好,会事半功倍,反之就会事倍功半了。60年代,华罗庚教授在我国倡导和普及的“优选法,即国外的斐波那契方法,和我国的数理统计学者在工业部门中普及的正交设计”法都是试验设计方法。这些方法经普及后,已为广大技术人员和科学工作者掌握,取得一系列成就,产生了巨大的社会效益和经济效益。随着科学技术工作的深入发展,上述两种方法就显得不够了。优选法”是单变量的最优调试法,即假
3、定我们处理的实际问题中只有一个因素起作用,这种情况几乎是没有的。所以在使用时,只能抓“主要矛盾”,即突出一个因素,而将其他因素固定,这样来安排实验。因此“优选法还不是一个很精确的近似方法。“正交设计的基础是拉丁方理论和群论,可以用来安排多因素的试验,而且试验次数对各因素的各水平的所有组合数来说是大大地减少了,但对于某些工业试验和昂贵的科学实验来说,试验仍嫌太多,而无法安排。1978年,七机部由于导弹设计的要求,提出了一个五因素的试验,希望每个因素的水平数要多于10,而试验总数又不超过50,显然优选法和正交设计都不能用,方开泰教授在几年前,曾为近似计算一个多重积分问题找过我,我向他介绍了多重数值
4、积分的方法并取得了好结果,这就使他想到是否可能用数论方法于试验设计的问题,于是我们经过几个月的共同研究,提出了一个新的试验设计,即所谓“均匀设计”,将这一方法用于导弹设计,取得了成效,我们的文章在80年代初发表后,15年来,均匀设计己在我国有较广泛的普及和使用,取得了一系列可喜的成绩。均匀设计属于近30年发展起来的“伪蒙特卡罗方法的范筹。将经典的确定的单变量问题的计算方法推广后用于多变量问题的计算时,计算量往往跟变量个数有关,即使电脑再进步很多,这种方法仍无法实际应用,乌拉母(S.Ulam)和冯诺依曼(J.vonNeumann)在40年代提出蒙特卡罗方法,即统计模拟方法,这个方法的大意是将一个
5、分析问题化为一个有同样解答的概率问题,然后用统计模拟的方法来处理后面这个问题,这样使一些困难的分析问题反而得到了解决,例如多重定积分的近似计算。蒙特卡罗方法的关键是找一组随机数作为统计模拟之用,所以这一方法的精度在于随机数的均匀性和独立性。50年代末,有些数学家试图用确定性方法寻找空间中均匀散布的点集来代替蒙特卡罗方法中的随机数,已经找到的点集都是用数论方法找到的。按照外尔(H.Weyl)定义的测度来度量,它们的均匀性很好,但独立性差些,用这些点集来代替蒙特卡罗方法中的随机数,往往会得到更精确的结果。这一方法称为伪蒙特卡罗方法或数论方法,数学家首先将这一方法成功地用于多重积分近似计算。从统计学
6、的观点看,伪随机数就是一个均匀分布的样本。数值积分需要大样本,均匀设计则要找一些小样本。由于这个样本比正交设计所对应的样本要均匀,所以用它来安排实验会得到好的效果。当然在寻求小样本时,寻求大样本的方法是起了借鉴作用的。均匀设计只是数论方法的一个应用,数论方法还有广泛应用的园地。例如多重插值公式的建立,某些积分和微分的近似求解,求函数整体极值,求某些多元分布的近似代表点,及用于统计推断的一些问题,如多元正态性检验及多元球性检验。早在50年代末,外国刚开始研究为蒙特卡罗方法时,华罗庚就倡议并领导了这一方法在我国的研究,他的开拓性成果总结在我们的专著“数论在近似分析中的应用”(科学出版社,1978年
7、;英文版:Springer-VerlagandSciencePress,1981)中,这些工作是方开泰教授和我合作的工作重要的背景和参考材料之一。我和方开泰教授合作了近20年,由于他既是一个数学家,又有长期在中国各工业部门普及应用数理统计的宝贵经验,所以他有很好的应用数学背景和洞察力。他能及时地提出有价值的研究问题及解决问题的可能途径,我们的合作既是愉快的,又是富于成效的,我们的成果总结在我们的专著”Number-TheroreticMethodsinStatistics”(ChapmanandHall,1993,中文版在出版过程中)之中。方开泰教授的这本书着重于应用及普及,但也包括了他的最新
8、成果,书后的均匀设计表就是最近他用准确的偏差方法算出来的,比过去的结果有较大的改进,我相信本书的出版,对于在我国进一步普及和应用均匀设计将是很重要的,我愿借此机会预祝本书成功。王元1994年2月前言均匀设计是1978年王元教授和我共同提出的,10多年来,均匀设计在理论上有了不少新的发展,如各种均匀性度量的探讨,拉丁方均匀设计的提出将均匀设计用于配方设计而产生的配方均匀设计,特别地,最近我们又发现了一批奇数的均匀设计表,它们比原来的表均匀性有显著地改善,这些表和它们的均匀表都已收集在本书的附录中,由于实际的需要,利用拟水平的技术可以产生有混合水平的均匀设计表,本书也给出了不少这一类的设计表,并列
9、出它们的均匀度,此外,本书给出了均匀设计和正交设计的比较。本书是一本普及教材,目的是向广大科技工作者介绍均匀设计的原理,方法和应用,读者并不需要具备高深的数学和统计知识,中国数学会均匀设计学会已经研制了有关软件和教学录象带,方便使用者有效地使用均匀设计,特别是数据分析方面,该软件包含了丰富的内容,比本书的材料更为丰富,本书也可作为大学和研究生的教材和参考书。本书共分四章,第一章介绍试验设计的重要性,正交设计和如何使用均匀设计来设计试验。第二章首先对回归分析作了简单的介绍,随后介绍均匀设计的数据分析,工艺条件的优化。第三章介绍均匀设计表的构造,使用表的构造,均匀度准则,以及正交设计和均匀设计的比
10、较。第四章讨论配方设计,首先介绍文献中推荐的三种配方设计方法,然后给出配方均匀设计,有约束配方均匀设计,最后给出均匀设计在系统工程等方面的应用。在编写这本讲义中,中国科学院院士王元教授给出了许多指导性意见,并为本书写了精彩的序言,没有华一王(华罗庚王元)当年开创性的工作,就不可能有均匀设计。中国航天工业总公司三院张建舟高级工程师,东北制药总厂张承恩高级工程师,北京军事医学科学院张学中研究员给了我很多支持和帮助,中国科学院应用数学所我的学生李润泽和张金廷同志协助我整理和打印,在此表示衷心地感谢。由于作者水平有限,加之本书是利用春节假期匆匆赶出来的,难免有错误或不恰当之处,欢迎读者批评指正。方开泰
11、中国科学院应用数学研究所香港浸会大学1994年2月第一章试验设计和均匀设计1.1试验设计在工农业生产和科学研究中,经常需要做试验,以求达到预期的目的。例如在工农业生产中希望通过试验达到高质、优产、低消耗,特别是新产品试验,未知的东西很多,要通过试验来摸索工艺条件或配方。如何做试验,其中大有学问。试验设计得好,会事半功倍,反之会事倍功半,甚至劳而无功。本世纪30年代,由于农业试验的需要,费歇尔(R.A.Fisher)在试验设计和统计分析方面做出了一系列先驱工作,从此试验设计成为统计科学的一个分支。随后,F.Yates,R.C.Bose,0.Kempthome,W.G.Cochran,D.R.Co
12、x和G.E.P.Box对试验设计都作出了杰出的贡献,使该分支在理论上日趋完善,在应用上日趋广泛。60年代,日本统计学家田口玄一将试验设计中应用最广的正交设计表格化,在方法解说方面深入浅出为试验设计的更广泛使用作出了众所周知的贡献。田口玄一的方法对我国试验设计的普及和广泛应用有巨大的影响,70年代我国许多统计学家深入工厂、科研单位,用通俗的方法介绍正交试验设计,帮助工程技术人员进行试验的安排和数据分析,获得了一大批优秀成果,出版了许多成果汇编,举办了不少成果展览会。在广泛使用试验设计方法的洪流中,必然会出现一些新的问题,这些总是用原有的各种试验设计方法不能圆满地解决,特别是当试验的范围较大,试验
13、因素需要考察较多等级(在试验设计中这些等级称之为水平)时,用正交试验及其它流行的试验方法要求做较多的试验,常使得试验者望而生畏。许多实际问题要求一种新的试验方法,它能有效地处理多水平的试验,于是王元和方开泰于1978年提出了均匀设计(见文献1-3J),该设计考虑如何将设计点均匀地散布在试验范围内,使得能用较少的试验点获得最多的信息。10多年来,均匀设计在国内得到了广泛应用,并获得不少好的成果。试验设计在工业生产和工程设计中能发挥重要的作用,例如:1)提r产量;2)减少质量的波动,提高产品质量水准;3)大大缩短新产品试验周期;4)降低成本;5)延长产品寿命。在自然科学中,有些规律开始尚未由人们所
14、认识,通过试验设计可以获得其统计规律,在此基础上提出科学猜想,这些猜想促进了学科的发展,例如遗传学的许多发现都藉助于上述过程。材料工业是工业中的栋梁,汽车拖拉机的制造离不开各种合金钢,钛合金的发明和发现使飞机制造工业产生飞跃。超导的研究和超导材料的配方息息相关。配方试验又称混料试验(ExperimentswithMixtures),不仅出现于材料工业,而且在人们生活和其它工业中处处可见,例如在中药、饮料、混凝土的配方中。由于在配方中各种材料的总和必须为100%,其试验设计必须考虑到这个约束条件,由于这个原因正交试验设计等方法不能直接用于配方设计。针对配方设计的要求,SCheff6于1958年提
15、出了单纯形格子点设计,随后于1963年他又提出了单纯形重心设计。COrneI1口对配方试验设计的各种方法作了详尽的介绍和讨论。显然,均匀设计的思想也能用于配方试验,王元和方开泰给出了配方均匀设计的设计方法和有关的讨论。本书第五章将系统介绍配方试验设计和配方均匀设计。不论是均匀设计或配方均匀设计,其数据分析都要藉助于回归分析,要用到线性回归模型、二次回归模型、非线性模型,以及各种选择回归变量的方法(如前进法、后退法、逐步回归、最优回归子集等)。有关回归分析的书籍成百上千,本书仅作梗概介绍。读者很容易找到各种参考书籍获得更详细的介绍。试验设计的方法很多,本书重点介绍均匀设计,这并不意味其它方法不重
16、要,每种方法都有其优点,也有其局限性,根据实际情况选取合适的方法是应用统计的重要内容。1.2试验的因素和水平在工业、农业、科学研究和军事科学的研究中,经常需要作各种试验,以研究各种因素之间的关系,找到最优的工艺条件或最好的配方。让我们先看一个例子:例1在一个化工生产过程中,考虑影响得率(产量)的三个因素:温度(八),时间(B)和加碱量(C)。为了便于试验的安排,每个因素要根据以往的经验来选择一个试验范围,然后在试验范围内挑出几个有代表性的值来进行试验,这些值称做该因素的水平。在该例中,我们选择的试验范围如下:温度:77.592.5”C时间:75分165分加碱量:4.5%7.5%然后在上述范围内
17、,每个因素各选三个水平,组成如下的因素水平表:表1因素水平表因素3温度(。C)808590时间(分)90120150加碱量(%)567选择因素和水平关系到一个试验能否成功的关键,下列的注意事项和建议对使用试验设计的人员可能是有益的。1.在一个生产过程中,有关的因素通常是很多的,例如在例1的化工生产工艺中,有催化剂的品种,催化剂用量,加碱时的速度,容器中的压力等。但根据这次试验目的,除了温度(八),时间(B),和加碱量(C)各取三个水平外,其余因素是固定的,或者讲,他们只取一个水平。为了方便,通常这些固定的因素在试验方案中并不称为因素,只有变化的因素才称为因素。2.在一项试验中,如何从众多的有关
18、因子中挑选出试验方案中的因素?我们建议课题的领导者应当要请有经验的工程师、技术员、工人共同讨论决定。在一次试验中,因素不宜选得太多(如超过10个),那样可能会造成主次不分,丢了西瓜,拣了芝麻。相反地,因素也不宜选得太少,(如只选定一、二个因素),这样可能会遗漏重要的因素,或遗漏因素间的交互作用,使试验的结果达不到预期的目的。例如,有这样的故事,原计划试验方案中只有三个因素,而利用试验设计的方法,可以在不增加试验数目的前提下,再增加一个因素,既然不费事何乐而不为呢?试验的结果发现,最后添加的这个因素是最重要的,从而发现了历史上最好的工艺条件,正是“有心栽花花不成,无意插柳柳成荫。3.试验的范围应
19、当尽可能大一点。如果试验在试验室进行,试验范围大比较容易实现;如果试验直接在生产中进行,则试验范围不宜太大,以防产生过多次品,或产生危险。试验范围太小的缺点是不易获得比己有条件有显著改善的结果。历史上有些重大的发明和发现,是由于“事故”而获得的,也就是说试验的范围大大不同于有经验的范围。4.若试验范围允许大一些,则每一因素的水平个数最好适当多一些。5.水平的间隔大小和生产控制精度是密切相关的。若在例1中温度的控制只能作到3,且我们设定控制在85,于是在生产过程中温度将会在853,即8288。C波动。不难看到,这时设定的三个水平80。C,85C,90C之间是太近了,应当加大,例如80C,90C,
20、100C。如果温度控制的精度可达1,则例1如设定的三个水平是合理的。6.因素和水平的含意可以是广义的。例如五种棉花用于织同一种布,要比较不同棉花影响布的质量的效应,这时“棉花品种”可设定为一个因素,五种棉花就是该因素下的五个水平。1.3因素的主效应和因素间的交互效应根据试验的目的,要预先确定一项或多项试验指标,为简单计,本书仅讨论只有一项试验指标(记作Y)的情形。如例如1的试验Y是得率。在数理统计中,称试验指标为响应(response)为通俗起见,本书中就叫试验指标。考察一个因素对试验指标的影响是试验的目的之一。若在一项试验中,考察温度和得率Y之间的关系,并取温度五个水平,其相应Y值如下:温度
21、6VC7(TC初C9兀Y30%35%40%45%50%我们看到,温度每增加I(TC得率增加5%这5%就是温度的效应。上述试验可以表成一个线性数学模型匕=+%/=L.5(1.1)其中匕为第i次试验结果,4为温度从50到90。C范围内Y的平均值。通常可以用五次试验的平均值来估计,记作,即a,表示温度取第,个水平时1的值和之4差。不难发现,它们的估计值为这里4,%称为温度在五个水平下的主效应,近”,统为它们的估计佰。由于试验中总存在一些偶然因素的干扰,如室温的变化,电压的波动,材料的不均匀性,这些偶然因素总称为随机误差。由于试验误差的存在,不可能产生上例那么理想的情况。其实际数据可能为温度57C67
22、C90VY32%34%39%46%49%这时数学模型3Yi=+at+f,-ti=l-,5(1.2)这里J为第i次试验的试验误差。这时试验必须有重复才能估计出a,和i.实际上,当试验的水平和相应的Y为连续变量时,其数学模型也可以用回归方程来表达,例如,用线性回归方程(1.3)y=+像+其中X表示温度,a和是回归系数,为随机误差。在第二章将介绍,a和可以用最小二乘法由试验数据估出,由上述温度和得率的数据可得回归方程(1- 4)声=7.80+0.46X这里9为试验结果Y的估计值。利用方程(14)可以估出五次试验的结果如下:30.835.440.044.649.271.2-L4-1.01.4-0.2其
23、中匕-8称为残差,它的大小反映了回归方程(14)的精确程度,并可用它作回归诊断,更详细讨论请看第二章。方程(1.4)中,X的回归系数0.46有明确的实际含意,它表示温度每增加一度,其得率Y平均增加0.46%,于是0.46反映了X对Y的效应,这里可以称为线性回归效应。有一点是必须注意的,无论是模型(1.2)中的主效应%,还是模型(1.3)中的线性回归效应夕,都强烈地依赖于试验条件,尤其是X的试验范围,也就是说,这两个模型只适用于X的试验范围内。否则,当X为210。时,V的估值为104.4%,这是不可能的,因为得率总是小于100%的。显然,模型(12)和(1.3)是最简单的情形,实际情况是多种多样
24、的,例如X和Y之间可能有非线性回归关系,或其它相关关系。这些将在以后讨论。现在我们来介绍因素间交互作用的概念。首先,设有两个因素A和B它们各取两个水平4,4和用,生。这时共有四种不同的水平组合,其试验结果列于图1。当8=用时,A变到4使Y增加30-10=20;类似地,当8=当时,A变到4使Y也增加40-20=20。这就是说A对Y的影响和B取什么水平无关。类似地,当B从用变到当时,Y增加20-10(或40-30=10),和A取的水平无关。这时,我们称A和B之间没有交互作用。判断和之间有没有交互作用,选用图2的作图方法更为直观。当图中的两条线平行时(或接近平行时),判断A和B之间没有交互作用.图3
25、和图4给出了一个有交互作用的例子,它们的含意和作图方法和图和图2是一样的。1国3图4交互作用在实际中是大量存在的,例如化学反应中催化剂的多少和其它成分的投入量通常是有交互作用的。水中各种金属含量太多,对人体健康会造成危害,金属之间对人体的危害也存在交互作用(参见例5)o当因素A,B及其它们的试验指标Y都为连续变量时,可以建立Y和A;B之间的回归方程。若回归方程为Y=a+A+B+(1,5)时,A对Y的影响由回归系数。完全决定,不受B取哪个水平的影响;类似地,B对Y的影响由回归系数Y完全决定,不受A取哪个水平的影响;类似地,对的影响由回归系数完全决定,不受取哪个水平的影响。这时A和B没有交互作用。
26、当A和B之间有交互作用时,回归模型不可能为线性的,其中一定有非线性的。最常见的模型之一为Y=a+A+B+MB+(1.6)其中a/,y,b为回归系数,为随机误差。这时若60,称A和B之间有正交互作用;若登0,称A和B之间有负交互作用.请看如下两个例子当A=3.5,B=4.10时,相应两个回归方程的试验指标列于图5和图6。我们看到两种情形均有交互作用,且一个为正交互作用,另一个为负交互作用。两个因素之间有交互作用时,其回归模型不一定呈(1.6)形式,更详细讨论可参见第二章第三节。多个因素之间(超过二个因素)也可能有交互作用,该问题也将在第二章讨论。1.4全面试验和多次单因素试验在一项试验中,当因素
27、和水平确定后,如何设计该项试验呢?下面两种方法是最容易想到的:1、全面试验该方法将每一个因素的不同水平组合做同样数目的试验,例如将每个因素的不同水平组合均作一次试验。在一项试验中若有m个因素,它们各有/,4个水平,则全面试验至少需做什必。次试验。例如,在例1中,4=4=4=3则全面试验至少做333=27次试验。当因素的个数不多,每个因数的水平数也不多时,人们常用全面试验的方法,并且通过数据分析可以获得较为丰富的结果,结论也比较精确。当因数较多,水平数较大时,全面试验要求较多的试验。例如,有六个因素,每个因素都是五水平,则至少需56=15625次试验,这个数目太大了,对绝大多数场合,做这么多次试
28、验是不可能的。因此,我们需要一种试验次数较少,效果又和全面试验相近的试验设计方法。2、多次单因素试验这个方法在工程和科学试验中常被人们所采用,现以例1来说明这个方法。例1试验的目的是要寻找好的工艺使得化学反应后的得率最高。为介绍简单计,设试验误差较小,故不作重复试验(即在同一试验条件下将试验重复多次)。设先将时间和加碱量固定,变化温度,试验结果如下:B=90分808590eCC=5%33%70%64%其中33%,70%和64%为得率,三次试验中,以70%为最高,故温度85为最佳。第二步固定温度和加碱量,变化时间,其试验结果如下:A=85C90分 120分 150分C=5%70%73%59%以反
29、应时间为120分最佳。下一步是固定时间和温度,变化加碱量,获得如下结果:A=85C5%6%7%B=120分73%75%68%以加碱量75%为最佳,于是有人就得出结论:最佳工艺为A=80。C,B=120分,C=6%o当因素之间没交互作用时,这个结论是正确的;当因素之间有交互作用时,该结论一般不真,今设例1的因素间有交互作用,在上述试验的基础上,若我们固定B=120分,C=6%,变化因素A并获得如下结果:B=120分808590C=6%46%75%78%发现有更好的工艺条件。这时我们发现温度的效应是依赖于因素B和C的,当B=90分,C=5%时,温度以85为佳,而当B=120分,C=6%时,温度以9
30、0C为佳,这种现象表明温度和其他两因素间有交互作用。当因素间有交互作用时,用上述方法不一定能选到最好的工艺条件。例如,例1的试验应当继续按原来的方法做下去:A=90C90分120分150分C=6%73%78%84%发现工艺条件A=90C,B=120分,C=6%为最优工艺条件且似乎已不能改进。如果我们将27个工艺组合进行全面试验,发现当工艺条件为A=90。C,B=150分,C=7%时得率可达82%,而这个工艺条件没有为上面的试验方法所发现。因此,多次单因素试验法有局限性。特别是,当因素的数目和水平数更多时,常常会得到错误的结论,不能达到预期的目的。1.5正交试验法(正交设计)这是目前最流行,效果
31、相当好的方法。统计学家将正交设计通过一系列表格来实现,这些表叫做正交表。例如表2就是一个正交表,并记为0W),这里“L”表示正交表9”表示总共要作9次试验,“3表示每个因素都有3个水平,4”表示这个表有4歹1J,最多可以安排4个因素。常用的二水平表有(23)4(27)%(2”)%(2)三水平表有4仅注然田-四水平表有入依);五水平表有伊)等。还有一批混合水平的表在实际中也十分有用,如%(4x2“L15QX),L16(4X23),儿仍X、Lt6(4?X291儿(4X2门)L16(8,X28)/(2X37)等。例如L16(41X26)表示要求做16次试验,允许最多安排三个“4”水平因素,六个“2”
32、水平因素。表2正交表表(34).Vo,7Z537-123456789111222333123123123123231212123312231若用正交表来安排例1的试验,其步骤十分简单,具体如下:(1)选择合适的正交表。适合于该项试验的正交表有&伊)几(2X3及仗3)等,我们取与似),因为所需试验数较少。(2)将A,B,C三个因素放到伊)的任意三列的表头上,例如放在前三列。(3)将A,B,C三例的1,2,3变为相应因素的三个水平.4)9次试验方案为:第一号试验的工艺条件为Al(80。C),Bi(9。分),Cj(5%);第二号试验的工艺条件为Ai(80),B2(120分),C2(6%)。这样试验方
33、案就排好了。该例的进一步讨论请参考文献25。表3正交试验方案No.ABC18090分5%280120分6%380150分7%48590分6%585120分7%685150分5%79090分7%890flC120分5%990150分6%在表3的正交试验设计中,可以看到有如下的特点:1)每个因素的水平都重复了3次试验;2)每两个因素的水平组成一个全面试验方案。这两个特点使试验点在试验范围内排列规律整齐,有人称为整齐可比。另一方面,如果将正交设计的9个试验点点成图(图7),我们发现9个试验点在试验范围内散布均匀,这个特点被称为“均匀分散工正交设计的优点本质上来自“均匀分散,整齐可比”这两个特点。有关
34、正交设计的详细讨论可参看文献24-26,30o1.6均匀设计每一个方法都有其局限性,正交试验也不例外,它只宜于用于水平数不多的试验中。若在一项试验中有S个因素,每个因素各有q水平,用正交试验安排试验,则至少要作q?个试验,当q较大时,92将更大,使实验工作者望而生畏。例如,当q=12时,/=144,对大多数实际问题,要求做144次试验是太多了!对这一类试验,均匀设计是非常有用的。所有的试验设计方法本质上就是在试验的范围内给出挑选代表点的方法。正交设计是根据正交性准则来挑选代表点,使得这些点能反映试验范围内各因素和试验指标的关系。上节我们提及正交设计在挑选代表点时有两个特点:均匀分散,整齐可比。
35、“均匀分散”使试验点有代表性;整齐可比”便于试验数据的分析。为了保证“整齐可比”的特点,正交设计必须至少要求做q2次试验。若要减少试验的数目,只有去掉整齐可比的要求。均匀设计就是只考虑试验点在试验范围内均匀散布的一种试验设计方法,其原理将在第三章给出。均匀设计和正交设计相似,也是通过一套精心设计的表来进行试验设计的。附录I给出了41个均匀设计表和相应的使用表。表4、表5和表6就是其中的三个。每一个均匀设计表有一个代号力3)或U:(g),其中U”表示均匀设计,n”表示要做n次试验,q”表示每个因素有q个水平,s表示该表有s歹人的右上角加“*”和不加“*代表两种不同类型的均匀设计表。通常加*”的均
36、匀设计表有更好的均匀性,应优先选用。例如U:6)表示要做次6试验,每个因素有6个水平,该表有4列。每个均匀设计表都附有一个使用表,它指示我们如何从设计表中选用适当的列,以及由这些列所组成的试验方案的均匀度。表7是U;6)的使用表。它告诉我们,若有两个因素,应选用1,3两列来安排试验:若有三个因素,应选用1,2,3三列,最后1列D表示刻划均匀度的偏差(discrepancy),偏差值越小,表示均匀度越好。例如由附录Al.3和AL4的两个均匀设计U;6)表和及它们的使用表来安排试验,今有两个因素,若选用/6)的1,3歹U,其偏差D:O.2398,选用U;6)的1,3歹1J,相应偏差D=O.1582
37、,后者较小,应优先择用。有关D的定义和计算将在第三章介绍。当试验数n给定时,通常U“表比U:表能安排更多的因素。故当因素S较大,且超过U:的使用范围时可使用U表。表4&)135表5t7(74)4如上所述,表U;B)最多可以安排四个因素的试验。若用正交表安排三个6水平因素,至少要采用以6),该表最多能安排三个因素,可要做36次试验,而两个表的偏差一个为0.1875(U:),另一个为0.1597(%,)(参见表23),相差并不十分大。由此例可见均匀设计的优点。表6u;6)72表7U:6)的使用表S列号D130.18751230.265612340.2990均匀设计有其独特的布(试验)点方式,其特点
38、表现在:1)每个因素的每个水平做一次且仅做一次试验。2)任两个因素的试验点点在平面的格子点上,每行每列有且仅有一个试验点。如表U:依)的第一列和第三列点成图8(a).性质1)和2)反映了试验安排的“均衡性”,即对各因素,每个因素的每个水平一视同仁。3)均匀设计表任两列组成的试验方案一般并不等价。例如用U:6)的1,3和1,4列分别画图,得图8(a)和图8(b)。我们看到,(a)的点散布比较均匀,而(b)的点散布并不均匀。均匀设计表的这一性质和正交表有很大的不同,因此,每个均匀设计表必须有一个附加的使用表。4)当因素的水平数增加时,试验数按水平数的增加量在增加。如当水平数从9水平增加到10水平时
39、,试验数n也从9增加到10。而正交设计当水平增加时,试验数按水平数的平方的比例在增加。当水平数从9到10时,试验数将从81增加到100。由于这个特点,使均匀设计更便于使用。均匀设计表还有一些其它的特点,在第三章将进一步介绍。1.7均匀设计表的使用本节介绍如何利用均匀设计表来安排试验。其步骤和正交设计很相似,但也有一些不同之处。通常有如下步骤:1)根据试验的目的,选择合适的因素和相应的水平。2)选择适合该试验的均匀设计表,然后根据该表的使用表从中选出列号,将因素分别安排到这些列号上,并将这些因素的水平按所在列的指示分别对号,则试验就安排好了。例2(本例来自文献1)在阿魏酸的合成工艺考察中,为了提
40、高产量,选取了原料配比(八)、毗咤量(B)和反应时间(C)三个因素,它们各取了7个水平如下:原料配比(八):1.0,1.4,1.8,2.2,2.6,3.0,3.4口比咤量(B)(ml):10,13,16,19,22,25,28反应时间(C)(h):0.5,1.0,1.5,2.0,2.5,3.0,3.5根据因素和水平,我们选取均匀设计表/伊)或力伊)。由它们的使用表中可以查到,当s=3时,两个表的偏差分别为0.2132和0.3721,故应当选用u;6)来安排该试验,其试验方案列于表8。该方案是将A,B,C分别放在*(7。)表的后3列而获得的。表8制备阿魏酸的试验方案明仍)和结果徵比(八)毗唳量(
41、B)反应时间收率(Y)(C)1,01,41.82.22.63.0(6)3.4(7)13(2)1,50,33019(4)3,00,336251.00.294102.50.476160.5(1)0.209222.0(4)0.45128(7)3.5(7)0.482表9制备阿魏酸的试验方案心(7)和结果No.配比(八)哦碇量(B)反应时间(C)收率(Y)11.0(1)13(2)1.5(3)0.33021.4(2)19(4)3.0(6)0.33631.8(3)25(6)1.0(2)0.29442.2(4)10(1)2.5(5)0,47652.6(5)160.50.20963.0(6)222.00.451
42、73.428(7)3.5(7)0.482由于u;6)表是最近由方开泰和李久坤1用获得的,故文献1使用的是力6)均匀设计表,他们的试验方案列于表9。根据试验方案进行试验,其收率(Y)列于表9的最后一列,其中以第7号试验为最好,其工艺条件为配比3.4,毗咤量28ml,反应时间3.5h。下章将通过统计分析(其中最主要是回归分析),可以发现更好的工艺条件。第二章回归分析简介及其在均匀设计中的应用回归分析是数据分析的有力工具,它能揭示变量之间的相互关系,因此在均匀设计的数据分析中成为主要的手段,回归分析方法和理论十分丰富,有关书籍数以百计,这里仅作一梗概介绍,细节可以参看有关书籍,如26,29,30数据
43、处理可使用统计软件包SAS,SPSS,MINITAB,BMDP,S等,国内许多部门如中国均匀设计学会为均匀设计及其数据分析制作了专用统计软件包,使用更为方便。2.1一元线性回归模型由于均匀设计的数据分析要利用回归分析,因此需要对回归分析作一扼要介绍。一元线性回归是处理两个变量之间关系的最简单的模型。本章将详细讨论这个模型。一元线性回归虽简单,但从中可以了解回归分析方法的基本思想/方法和应用。我们首先通过一个例子说明如何建立一元线性回归方程。例3为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度(X)和当年灌溉面积(Y),得到连续10年的数据于下页表中。为了研究这
44、些数据中所蕴含的规律性,我们把各年最大积雪深度作横坐标,相应的灌溉面积作纵坐标,将这些数据点标在平面直角坐标图上,如图9,这个图称为散点图。从图9看到,数据点大致落在一条直线附近,这告诉我们变量X和Y之间的关系大致可看作是线性关系,从图9还看到,这些点又不都在一条直线上,这表明X和Y的关系并没有确切到给定X就可以唯一地确定Y的程度。事实上,还有许多其他因素对Y产生影响,如当年的平均气温,当年的降雨量等等,这些都是影响Y取什么值的随机因素。如果我们只研究X和Y的关系,可以假定年序最大积雪深度X(尺)灌溉面积Y(千亩)115,228.6210.419.3321.240.5418.635.6526.
45、448.9623.445.0713,529.2816.734.1924.046.71019.137.4有如下结构式:Y=+BX+E1)式中,B称为回归系数,X为自变量,Y为因变量,表示随机误差,常常假定遵从正态分布N(0,。2),这表示误差为正和负的机会一样多,O?表示误差的大小。式中,B,。2通常是未知的,它们要通过数据的信息来估计。设(%,匕),i=l,n为一组数据,若用回归方程(2.1)来拟合,则当X:%时匕的估计值为g=a+儆,i=l,(2.2)自然,我们希望求a和B使/和匕很接近.也就是说,我们要决定一条直线,使其和所有的点都比较接近,最流行求Q,B估计值的办法是用最小二乘法,令Q=S(K-EF=化-a-阳F3)E=II最小二乘法是求a和B使Q达极小,使Q达极小的a和B值记为a和b.利用微积分中求极值的办法求得4)式中又Z嘉X,了=:EtM(2.5)1.XK;=l(XiIx)=JEMM-T)(叶疗)利用这些公式到例3,得于是b=415.606/230.656=1.802a=36.53-1.802X18.88=2.511从而回归方程为读者试将该直线画在图9上,可以看到拟合的效果是不错的,衡量拟合效果的好坏,如下的方法是十分有用的。(a)相关系数相关系数用于描叙变量X和Y的线性相关的程度,并常用r来表示,r的值介