《数据的整理与分析.ppt》由会员分享,可在线阅读,更多相关《数据的整理与分析.ppt(73页珍藏版)》请在课桌文档上搜索。
1、第五章 数据的整理与分析,5.1 数据整理与分组5.2 数据分析的基本方法5.3 统计图表,5.1 数据整理与分组,一、数据整理的含义和步骤二、数据整理的基本方法 统计分组,资料的整理,校编分类编号制表与作图计算统计值以上工作需要在计算机上完成,主要的应用软件有SPSS,SAS和Excel,资料分析的常用方法,变量的数目:单变量分析与多变量分析分析的目的:描述性分析与推断性分析,描述性分析,中心趋势平均值:等差与等比资料中位数:顺序资料众数(可用百分比来描述):类别资料可以回答下述问题,如购物中心调查被调查者的平均年龄是多大?在购物中心的平均花费是多少?哪个时间段来惠顾的人最多?他们进入购物中
2、心的主要目的是什么?,离散程度标准差:等差与等比资料百分比(成数):类别资料、顺序资料可以回答下述问题,如购物中心调查被调查者的年龄差别大吗?平均而言,有多大?他们在购物中心的花费差别有多大?他们进入购物中心的时间段集中吗?他们进入购物中心的目的一致吗?,同一个变量,多个样本之间的比较比如,广州的顾客与西安的顾客有差别吗?西安的顾客在2003年与2000年相同吗?在被调查者的年龄上?在花费上?在时间段上?在目的上?,推断性分析,估计点估计:用样本值代替总体值区间估计:在一定的把握程度下,根据样本统计值和抽样平均误差,对总体落入的区间范围作出估计,小学毕业 中学毕业(含中专)大学毕业,文盲或识字
3、不多小学毕业中学毕业(含中专)大专毕业大学及大学以上(),(),例:从业人员按文化程度分组,统计分组的作用:,总体经过分组,能够突出组与组之间的差异而抽象掉组内各单位之间的差异,使数据变得条理化,便于进一步分析研究。,划分社会经济现象的类型反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系,分组标志选择的原则,根据研究问题的目的来选择要选择最能反映被研究现象本质特征的标志作为分组标志 要结合现象所处的具体历史条件或经济条件来选择分组标志,分组的类型,1、根据分组的作用或目的不同,分 为:类型分组、结构分组、分析分组,2、根据分组标志的个数,分 为:简单分组、复合分组,分 为
4、:品质分组、数量分组,3、根据分组标志的性质,(1)按类型分组,单位:亿元,“九五”期间我国国内生产总值构成(%),结构分组,某乡某种农作物的耕作深度与收获率的关系,分析分组,例 1:为了了解某地区银行存款的构成,可以选用存款性质、期限两个标志分别进行分组,按存款性质分组 企业存款 储蓄存款 财政性存款,按存款期限分组 活期存款 定期存款,简单分组,存款同时按其性质及期限分组 企业存款 活期 定期 储蓄存款 活期 定期 财政性存款 活期 定期,复合分组,品质标志分组,例2:企业职工按工龄分组 5年以下 510年 1015年 1520年 20年以上,数量标志分组,选择分组标志,确定分组体系,总体
5、单位归类,科学性:组间差异大,组内差异小。,完备性和互斥性:每个单位均能且只能归到某个组中。,分组的程序与原则,各分组标志并列使用,各分组标志交叉结合使用,平行分组体系,对教师的分类,按性别分类,男性,女性,按职称分类,按年龄分类,高级,中级,初级,青年,中年,共计7组 2+3+2,交叉分组体系,按性别分类,按职称分类,按年龄分类,男,女,高级,中级,初级,青年,中年,共计12组232,对教师的分类,5.2 数据分析的基本方法,一、集中趋势分析 算术平均数 中位数 众数二、离中趋势分析 全距(极差)标准差,平均指标的种类,算术平均数、众数和中位数。算术平均数是根据总体所有标志值计算的称为数值平
6、均数。众数、中位数是根据标志值所处的位置确定的,称为位置平均数。,基本形式:,例:,直接承担者,算术平均数,平均每人日销售额为:,某售货小组5个人,某天的销售额分别为520元、600元、480元、750元、440元,则,【例】,不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。,中位数的作用:,如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。,比如有5笔付款:9元,10元,10元,11元,60元 平均付款为100/5=20元。很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。,中位数的位次为:
7、,即第3个单位的标志值就是中位数,中位数的确定,-奇数,中位数的位次为:,中位数应为第3和第4个单位标志值的算术平均数,即,中位数的确定,-偶数,指总体中出现次数最多的变量值,用 表示,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。,众 数(Mode),有时众数是一个合适的代表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,【例】已知某企业某日工人的日产量资料如下:,众数的确定,-直接观察法,众数的原理及应用,83名女生身高原始数据,83名女生身高组距数列,变异指标值越大,平均指标的代表性越小;反之,平均指标的
8、代表性越大,全距,标准差,全距系数,标准差系数,标志变异指标的种类,优点:计算方法简单、易懂;缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度差,往往应用于生产过程的质量控制中,全距的特点,计算公式:,【例】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的标准差。,解:,即该售货小组销售额的标准差为109.62元。,标准差的特点,不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算.,抽样平均误差,(1)抽样平均
9、误差的概念指由于抽样随机性所产生的所有可能出现的样本指标与总体指标的平均离差。反映了抽样误差的一般水平,其实质含义是抽样平均数(或比率)的标准差。即它反映了抽样指标与总体指标的平均离差程度。,(2)抽样平均误差的计算 P230样本平均数的抽样平均误差,重复抽样:,不重复抽样:,样本比率的抽样平均误差,重复抽样:,不重复抽样:,例题1,某食品厂从1万袋食品中,不重复随即抽取100袋检验,其中有5袋不合格;同时样本平均重量为498克,标准差为2.4克,要求计算总体平均总量和合格率的抽样标准误差。,解答:,=,=,0.24,=,=,0.022,参数估计,参数估计就是用样本统计值来估计总体统计值。可分
10、为点估计和区间估计两类。1、点估计方法点估计就是用样本的统计值直接作为总体统计值的估计值。(因为没有考虑抽样的平均误差,所以无法知道估计的把握程度),2、区间估计,区间估计是指在一定的把握度下,根据样本统计值和抽样的平均误差(即标准差),对总体统计值落入区间范围的估计。具体来说,区间估计是用样本统计量和抽样标准误差构造的区间来估计总体参数的取值范围,并用一定的概率来保证总体参数落在估计的区间内。把握程度(概率)被称为置信概率,概率的保证程度称为可靠性或置信度(Z),统计值落入的区间(估计区间)称为置信区间。,极限误差、允许误差,x 或 p P233,例题2,某食品厂从1万袋食品中,不重复随即抽
11、取100袋检验,其中有5袋不合格;同时样本平均重量为498克,标准差为2.4克,要求用95%的概率(Z=1.96)估计总体平均总量和不合格率的置信区间。,解答:,此题不知总体方差,但为大样本,可以用样本方差替代。,=,0.24,=,0.022,总体平均重量的置信区间为:498-1.96*0.24498+1.96*0.24 即497.53,498.47,总体不合格的置信区间为:5%-1.96*2.2%5%+1.96*2.2%即0.69%,9.31%,5.3 统计图表,一、统计图二、统计表,作用:可以揭示现象的内部结构和依存关系,显示现象的发展趋势和分布状况,有利于统计分析与研究。,几种常用的统计
12、图,条形图(Bar),用于显示离散型变量的次数分布,条形图(Bar),用于显示离散型变量的次数分布,5.3 统计图表,一、统计图二、统计表,统计表的常用结构:,可以从两个角度考察:1.从形式上,统计表由总标题、横行标题、纵栏标题和指标值四个部分组成。除此之外,在统计表下方增列补充资料。2.从内容上,统计表由主词和宾词两个部分组成。主词是统计表的主体,是总体单位的名称或分组的排列;宾词指的是各项指标,由纵栏标题和指标值组成。,统计表的构成,2003年某月某公司各企业劳动生产率,横行标题,主词,宾词,数据资料(指标数值),纵栏标题,总标题,例如:,统计表的编制规则,选择合适的总标题;并标明资料所属
13、的地区和时间主词栏与宾词栏要各归其位,相互对应;纵横各栏排列要注意逻辑性,反映现象的内在联系表的上、下端用粗线或双线封口,左右两端一般不封口,即表的左右两端不画纵线,为开口式。表中必须注明数字资料的计量单位。当只有一种计量单位时写在表的右上方;若有多个,横行的可以专设“计量单位”一栏,纵栏的可用小括号标写。数据栏不能有空白。无数字的用符号“-”表示,当缺乏某项资料时,用符号“”表示。一般在表的下端,加以注解,表明数字资料来源等。,统计表的加工方法,(对主体进行分组),(选择指标及对指标进行分组),对主词栏的单式加工,对主词栏的复式加工,对宾词栏的简单分组,对宾词栏的交叉分组,数据表示中的错误E
14、rrors in Presenting Data,1.使用花哨(Junk)图表2.数据比较时没有可靠的相对基准3.压缩纵轴Compressing the Vertical Axis4.纵轴上无零点No Zero Point on the Vertical Axis,花哨图表Chart Junk,不准确的表示,准确的表示,1960:$1.00,1970:$1.60,1980:$3.10,1990:$3.80,最低工资,最低工资,0,2,4,1960,1970,1980,1990,$,压缩纵轴Compressing Vertical Axis,季度销售,季度销售,不准确的表示,0,25,50,1季,2季,3季,4季,$,0,100,200,1季,2季,3季,4季,$,准确的表示,纵轴无零点No Zero Point on Vertical Axis,月销售量,月销售量,不准确的表示,0,20,40,60,一,三,五,七,九,十一,$,36,39,42,45,一,三,五,七,九,十一,$,准确的表示,