《第2章资料的整理及特征数的计算.ppt》由会员分享,可在线阅读,更多相关《第2章资料的整理及特征数的计算.ppt(52页珍藏版)》请在课桌文档上搜索。
1、第二章 资料的整理与特征 数的计算,第一节 试验资料的搜集与整理,第二节 特征数的计算,一、试验资料的类型,资料:鱼的尾数、人的个数、猪的体重、奶牛的产奶量、花的颜色、人的血型、疾病治疗的疗效,数量性状资料:计数资料(如鱼的尾数,以正整数出现)计量资料(如人的身高,依试验的要求和测量仪器或工具的精度)质量性状资料:对某种现象只能观察而不能测量 如,动物的雌雄;茸毛的有无;人的血型 数量化(统计次数法;评分法),二、试验资料的整理,原始资料的检查与核对次数分布表次数分布图,当观测值不多(n30)时,不必分组,直接进行统计分析。当观测值较多(n30)时,宜分成若干组,以便统计分析。将观测值分组后,
2、制成次数分布表,即可看到资料的集中和变异情况。,表2-1 50枚受精种蛋孵化出雏鸡的天数,(一)计数资料的整理 1、观测数较少时:现以50枚受精种蛋孵化出雏鸡的天数为例,表2-1 50枚受精种蛋出雏天数的次数分布表,2、观察值较多,且变异范围较大时,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显例如,观测某品种100只蛋鸡每年每只鸡产蛋数(原始资料略),其变异范围为200-299枚。经初步整理后分为10组,资料的规律性就比较明显,见表2-4。,表2-3 100只蛋鸡每年产蛋数的次数分布表,(二)计量资料的整理 计量资料在分组前需要确定全距、组数、组距、组中值及组限,然后
3、将全部观测值划线计数归组。【例2.1】将126头母羊的体重资料(见表2-4)整理成次数分布表。,表2-4 126头母羊的体重资料 单位:kg,1、求全距 全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即 R=Max(x)-Min(x)本例 R=65.0-37.0=28.0(kg),2、确定组数 组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。一般组数的确定,可参考表2-5。,表2-5 样本含量与组数 本例中,n
4、126,根据表2-5,初步确定组数为10组。,3、确定组距 每组最大值与最小值之差称为组距,记为 i。分组时要求各组的组距相等。组距的计算公式为:组距(i)全距组数 本例 i28.0103.0,4、确定组限及组中值 各组的最大值与最小值称为组限。最小值称为下限,最大值称为上限。每组的中点值称为组中值;上限不计入原则;在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好;最末一组的上限应大于资料中的最大值。,表2-4中,最小值为37.0,第一组的组中值取37.5,因组距已确定为3.0,所以 第一组的下限为:37.5-(1/2)3.036.0;第一组的上限也就是第二
5、组的下限为:36.0+3.0=39.0;第二组的上限也就是第三组的下限为:39.0+3.0=42.0,以此类推,一直到某一组的上限大于资料中的最大值为止,于是可分组为:36.0 39.0,39.0 42.0,。,5、归组划线计数,作次数分布表 分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。,表2-7 126头母羊的体重的次数分布表,表2-7 126头母羊的体重的次数分布表,第二节 特征数的计算,集中性是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。反映集中性的特征是平均数,常用算术平均数。此外还有几何平均数、中位数和众数等。离散性是变量有着离开中
6、心分散变异的性质,常用的指标是极差、方差、标准差和变异系数等。,如:1,2,3,4,52,2.5,3,3.5,4,集中性一致,但离散性不同,平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有:算术平均数(arithmetic mean)中位数(median)众数(mode)几何平均数(geometric mean)调和平均数(harmonic mean),一、平均数:,算术平均数是描述观测资料的重要特征数,它的作用主要有以下两点:指出一数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平作为样本或资料的代表数与其他资料进行比较。,算术平
7、均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。(一)直接法 主要用于样本含量n30以下、未经分组资料平均数的计算。,设某一资料包含n个观测值:x1、x2、xn,则样本平均数可通过下式计算:其中,为总和符号;表示从第一个观测值x1累加到第n个观测值xn。当 在意义上已明确时,可简写为x,上式可改写为:,【例3.1】某种公牛站测得10头成年公牛的体重分别为500、520、535、560、585、600、480、510、505、490(kg),求其平均数。由于 x=500+520+535+560+58+600+480+
8、510+505+49=5285,n=10,得:即10头种公牛平均体重为528.5 kg。(二)加权法 对于样本含量 n30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:,式中:第i组的组中值;第i组的次数;分组数 第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi 称为是xi的“权”,加权法也由此而得名。【例3.2】将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。,表31 100头长白母猪仔猪一月窝重次数分布表,利用(32)式得:即这100头长白母猪仔猪一月龄平均窝重为45.2kg。,(三)平
9、均数的基本性质 1、样本各观测值与平均数之差的和为零,即离均差之和等于零。或简写成,2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。(xi-)2(xi-a)2(常数a)或简写为:对于总体而言,通常用表示总体平均数,有限总体的平均数为:(3-3),二、离散性,变量的分布具有集中性和离散性两方面特征,因而只有表示集中性的平均数是不够的,还必须计算变异数以度量其变量的离散性(变异性)。用来表示变异性的指标较多,常用的有极差、标准差、方差和变异系数等,其中以标准差和变异系数应用最为广,为了使所得的统计量是相应总体参数的无 偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本
10、含量n,而用自由度 n-1,于是,我们 采 用统计量 表示资料的变异程度。统计量 称 为 均 方(mean square缩写为MS),又称样本方差,记为S2,即 S2=,相应的总体参数叫总体方差,记为2。对于有限总体而言,2的计算公式为:2)2/N,由于 样本方差 带有原观测单位的 平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这 时 应 将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差S2的平方根叫做 样 本 标准 差,记为S,即:,由于 所以(3-11)式可改写为:(3-12),相应的总体参数叫总体标准差,记为。对于有限总体而言,的计算
11、公式为:=(3-13)在统计学中,常用样本标准差S估计总体标准差。,三、标准差的计算方法(一)直接法 对于未分组或小样本资料,可直接利用(311)或(3-12)式来计算标准差。,【例3.9】计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,600,650(g)的标准差。此例n=10,经计算得:x=5400,x2=2955000,代入(312)式得:(g)即10只辽宁绒山羊产绒量的 标准差 为65.828g。,(二)加权法 对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为:(314)式中,f为各组次数;x为各组
12、的组中值;f=n为总次数。,【例3.10】利用某纯系蛋鸡200枚蛋重资料的次数分布表(见表3-4)计算标准差。将表3-4中的f、fx、代入(314)式得:(g)即某 纯 系 蛋 鸡200枚 蛋 重的标准差为3.5524g。,表34 某纯系蛋鸡200枚蛋重资料次数分布 及标准差计算表,四、标准差的特性(一)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。(二)在计算标准差时,在各观测值加上或减去一个常数,其数值不变。(三)当每个观测值乘以或除以一个常数 a,则所得的标准差是原来标准差的 a 倍或 1/a 倍。,(四)在资料服从正态分布的条件下,资料中约有68
13、.26%的观测值在平均数左右一倍标准差(S)范围内;约有95.43%的观测值在平均数左右两倍标准差(2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(3S)范围内。也就是说全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。,五、标准误差,标准误差即平均数的标准差,可表示为表示样本平均数的离散程度在结果描述中常写成,六、变异系数,变异系数是衡量资料中各观测值变异 程度的另一个统计量,比较不同样本相对变异程度的大小。标准差与平均数的比值称为变异系数,记为CV。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。,变异系数的计算公式为:(315)【例3.11】已知某良种猪场长白成年母猪平均体重为190kg,标准差为10.5kg,而大约克成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。,由于,长白成年母猪体重的变异系数:大约克成年母猪体重的变异系数:所以,长白成年母猪体重的变异程度大于大约克成年母猪。,注意:变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。,总结,平均数的计算方法数据离散性的相互关系及计算公式:方差、标准差、标准误差、变异系数,