《管理统计学复习.ppt》由会员分享,可在线阅读,更多相关《管理统计学复习.ppt(92页珍藏版)》请在课桌文档上搜索。
1、管理统计学Management Statistics,第一章 数据与统计学,1.理解统计与统计学的含义2.理解统计数据与统计学的关系3.了解统计学的分科 4.了解数据的计量尺度与数据的类型7.了解统计数据的来源8.掌握统计学的基本概念,国内统计界认为,统计在不同的场合有不同的含义,主要概括为以下三个方面的含义,即统计工作、统计数据和统计学。统计工作(统计实践),是为了说明社会经济现象以及自然现象的总体数量规律性,而对该现象的数据进行搜集、整理、分析的活动过程。统计数据,是指通过统计工作所获得的反应客观现象的各项数据资料以及相关的文字、图表等资料的总称,是统计工作的成果。统计学是一门研究社会经济
2、和自然现象的数量方面的方法论科学,是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。,理解统计与统计学的含义,理解统计数据与统计学的关系,了解统计学的分科,统计学,统计方法构成,统计方法研究与应用,1.3 统计学的分科,反映客观现象的数据,描述统计(统计数据的搜集、整理、显示和分析等),描述统计研究数据收集、整理和描述、分析的统计学分支推断统计研究如何利用样本(部分)数据来推断总体特征的统计学分支,数据的计量尺度,定类尺度是测量尺度中层次最低的计量尺度。它按照事物的某种属性对其进行平行的分类。人口按照性别属性分为男女两类;企业按照行业属性分为医药企业、家电企业、纺织
3、品企业等定序尺度具有定类尺度的一切特征,同时它还能反映出类别之间的等级,即不仅能把事物分成不同类别,而且不同类别之间还能进行排序。如用厌恶、一般、满意来度量消费者的偏好定距尺度也称间隔尺度,是在定序尺度的基础上,还可以进行加减运算等,准确地指出类别之间的差距是多少。通常被用来度量温度、考试成绩等定比尺度也称比率尺度,是最高层次的度量尺度,除了可以分类,比较大小及加减运算外还可以进行乘除运算,计算测度值之间的比值。,统计数据类型与统计方法,(按计量尺度),统计数据的来源,(按收集方法分)调查数据 通过调查或观测而收集到的数据;在没有对事物人为控制的条件下而得到的;有关社会经济现象的统计数据几乎都
4、是调查数据。试验数据 在试验中控制试验对象而收集到的数据;比如,对一种新药疗效的试验,对一种新的农作物品种的试验等;自然科学领域的数据大多数都为试验数据。,统计数据的来源,从使用者角度看,统计数据主要来自两个渠道:直接获取的数据 间接获取的数据,1.4 统计数据的来源,直接获取的数据统计调查统计调查是按照统计任务的要求,运用科学的调查方法,有组织地向社会实际搜集各项原始资料的过程。普查(census)为某一特定目的,专门组织的一次性全面调查。这是一种摸清国情、国力的重要调查方法。特点:周期性或一次性、涉及面广、调查单位及指标多、工作量大、规定统一的调查时间、数据规范化程度较高、应用范围比较狭窄
5、,1.4 统计数据的来源,直接获取的数据统计调查抽样调查(sampling survey)抽样调查是统计调查中应用最广、最为重要的调查方法。它是通过随机样本对总体数量规律性进行推断的调查研究方法。具有经济性、时效性强、适应面广、准确性高等特点肯定存在一定的抽样误差科学试验:科学试验是取得自然科学数据的主要渠道。,统计数据的质量,抽样误差(sampling error)利用样本推断总体时产生的误差不可避免、可计量、可以控制影响抽样误差的大小的因素样本量越大,抽样误差就越小总体的变异性越大,抽样误差越小,非抽样误差(non-sampling error)由于调查过程中各有关环节工作失误造成的。有抽
6、样框误差、回答误差、无回答误差、调查员误差、测量误差,统计学的基本概念,总体(population)总体是人们研究的所有基本单位(人、物体、交易或事件)的集合。样本(sample)样本是总体的一部分单位参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体平均数()、标准差()、总体比例()等统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本平均数(x)、样本标准差(s)、样本比例(p)等,变量(variable)变量是总体中个体单位所具有的特征或特性。针
7、对总体中每一基本单位的属性都存在差异而言的。变量的具体取值称为变量值定类变量、定序变量、数字变量,第2章 统计数据的描述,1.了解数据的整理方法2.了解数据分布集中趋势的测度3.了解数据分布离散趋势的测度4.了解分布偏态与峰度的测度5.了解统计表与统计图,统计数据的分组 根据统计研究的目的和客观现象的内在特点,按某个分组标志(或几个分组标志)把总体分为若干性质不同但又有联系的几个组成部分。统计分组的原则不重原则:在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。不漏原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。,2.1
8、 统计数据的整理,例1:从业人员按文化程度分组,文盲或识字不多小学毕业中学毕业(含中专)大专毕业大学及大学以上,(),(),小学毕业 中学毕业(含中专)大学毕业,定性分组(按品质标志分组)定量分组(按数量标志分组)1、单变量值分组每组只有一个变量值2、组距分组将变量值的一个区间作为一组。次数分配在统计分组的基础上,将总体的所有单位按组归类并排列,形成总体各个单位在各个组间的分布,称为次数分配,这样的数列称为次数分配数列(又称分布数列或次数分布)分配数列根据分组标志的不同可分为品质分配数列和变量分配数列变量数列可分为单项式变量数列和组距式变量数列。,品质标志,离散变量,连续变量,2.1 统计数据
9、的整理,组距分组的概念1、组限:各组两端的数值,分为上限和下限下限(low limit):一个组的最小值上限(upper limit):一个组的最大值2、组距(class width):一个组的上限与下限之差3、组中值(class midpoint):一个组的下限与上限之间的中点值 闭口组:上限和下限都齐全的组。开口组:上限和下限只具备其一的组 闭口组:组中值(上限下限)/2 缺下限开口组:组中值=上限-邻组组距/2 缺上限开口组:组中值=下限+邻组组距/2,累计频数和累计频率:向下累积:把各组频数或频率由变量值低的组向变量值高的组累计向上累积:把各组频数或频率由变量值高的组向变量值低的组累计
10、,次数分配图形(一)直方图(histogram)用矩形的宽度和高度(记面积)来表示频数分布的图形在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(二)折线图(frequency polygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图下所围成的面积与直方图的面积相等(三)次数分配曲线当所观察的次数越多,组距越小且组数越多时,所给出的折线图就会越光滑,逐渐形成一条光滑的曲线。,某车间工人周加工零件折线图,洛伦茨曲线和基尼系数(1)洛伦茨曲线在一个总体(国家、地区)内,将总人口按收入由低到高排队,所形
11、成的人口的累积百分比为横坐标,收入的累积百分比为纵坐标,然后将总人口累积百分比与收入累计百分比的对应关系绘制在一张图形上。(2)A表示实际收入曲线与绝对平均线之间的面积,B表示实际收入曲线与绝对不平均线之间的面积,评价标准(1)如果A=0,则基尼系数=0,表示收入绝对平均;(2)如果B=0,则基尼系数=1,表示收入绝对不平均;(3)基尼系数在0 和1之间取值;(4)基尼系数若小于0.2,表明分配平均但缺乏效率;(5)基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;(6)基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。(
12、7)基尼系数超过了0.6,则表示可能由于收入不公平导致社会不稳定。,分布集中趋势的测度,集中趋势(ceneral tendency)是指分布的定位,它是指一组数据向某一中心值靠拢的倾向,或表明一组统计数据所具有的一般水平。分布集中趋势的测度值反映的就是数据分布的中心值或数据一般水平的代表值。众数(mode)一组数据中出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数对于未分组数据,众数计算方法:观察给定的数据,某个变量值出现次数越多,则该变量值即为所求众数。,对于组距数据,众数计算方法:,MO:表示众数L:表示众数组的下组限 表示众数组次数与前一组次数之差 表示众数组次数与后
13、一组次数之差i 表示众数组的组距U:表示众数组的上组限,(1)确定众数所在组(2)采用下面的近似公式计算众数,下限公式:,上限公式:,中位数(median)排序后处于中间位置上的变量值不受极端值的影响,未分组数据中位数确定:设一组数据为(1)将数据排序后为(2)确定中位数所在位置=(n+1)/2(3)中位数即为:,n奇数,n偶数,已分组的定序数据或单项数列中位数的确定(1)确定中位数的位置=(2)计算各组的累计次数(或频数),确定中位数组,中位数所在组称为中位数组(3)确定中位数:中位数所在组的变量值即为中位数,【例】根据下表中的数据,计算甲城市家庭对住房满意状况评价的中位数,解:中位数的位置
14、为:(300+1)/2150.5从累计频数看,中位数的在“一般”这一组别中。因此 Me一般,组距数列中位数的确定,(1)确定中位数位置=,(2)计算各组的累计次数(或频数),确定中位数组,中位数所在组称为中位数组,Me:表示中位数L:表示中位数组的下限fm:表示中位数组的次数Sm-1:表示从低到高累积至中位数所在组前一组的累积次数,(3)由公式计算中位数的近视值,下限公式:,四分位数(quartile)排序后处于25%和75%位置上的值不受极端值的影响,原始数据:,组距变量数列:,四分位数(位置的确定),数值型数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:1500
15、 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9,数值型数据的四分位数(10个数据的算例),【例】:10个家庭的人均月收入数据排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10,定序数据的四分位数(算例),【例】根据下表中的数据,计算甲城市家庭对住房满意状况评价的四分位数,解:下四分位数(QL)的位置为:QL位置(300+1)/475.25 上四分位
16、数(QL)的位置为:QU位置(3301)/4225.75从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此 QL 不满意 QU 满意,数值型分组数据的四分位数(计算公式),上四分位数:,下四分位数:,数值型分组数据的四分位数(计算示例),QL位置50/412.5,QU位置350/437.5,【例】根据下表中的数据,计算50 名工人日加工零件数的四分位数,均值(mean)算术平均值,是一组数据相加后除以数据的个数得到的结果集中趋势的最主要测度值易受极端值的影响,简单算术平均值(simple arithmetical mean),2.2 分布集中趋势的测度,设总体的全部数据为
17、:x1,x2,xN,总体均值,样本均值,设一组样本数据为:x1,x2,xn,2.2 分布集中趋势的测度,加权算术平均值(weighted arithmetical mean),设一组数据被分为k(K)组各组组中值分别为:x1,x2,xk(xK)各组相应的频数为:f1,f2,fk(fK),总体均值,样本均值,2.2 分布集中趋势的测度,均值的数学性质1.各变量值与均值的离差之和等于零,2.各变量值与均值的离差平方和最小,几何平均数(geometric mean)n 个变量值连乘积的 n 次方根切尾平均值去掉大小两端的若干数值后计算中间数据的均值,n 表示变量值的个数;表示切尾系数,,2.2 分布
18、集中趋势的测度,众数、中位数和均值的关系,2.2 分布集中趋势的测度,众数、中位数、均值的特点和应用,众数不受极端值影响具有不惟一性数据量较多时应用中位数不受极端值影响数据分布偏斜程度较大时应用主要适用于定序数据的集中趋势测度值均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,离散程度数据分布的另一个重要特征反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度离中趋势的各测度值是对数据离散程度所作的描述,内距(Inter-Quartile Range,IQR)也称四分位差上四分位数与下四分位数之差:内 距=Q3 Q1反映了中间50%数据的离
19、散程度不受极端值的影响极差(range)适用于数值型数据一组数据的最大值与最小值之差离散程度的最简单测度值表明各变量值变动的范围易受极端值影响,组距分组数据 R 最高组上限-最低组下限,总体方差和标准差(Population variance and Standard deviation),未分组数据:,分组数据:,未分组数据:,分组数据:,方差的计算公式,标准差的计算公式,样本方差和标准差(simple variance and standard deviation),未分组数据:,分组数据:,未分组数据:,分组数据:,方差的计算公式,标准差的计算公式,2.3 分布离散程度的测度,离散系数(
20、coefficient of variation),1.标准差与其相应的均值之比2.测度了数据的相对离散程度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较离散系数大,数据离散程度大。离散系数小,说明数据的离散程度小5.计算公式为,2.4 分布偏态与峰度的测度,偏态的概念偏态是对分布偏斜方向及程度的测度偏态系数(skewness coefficient)根据原始数据计算 根据分组数据计算,偏态系数的取值:SK=0 对称 SK0 右偏|SK|1 高度偏斜程度 0.5|SK|1 中等偏斜程度|SK|越接近于0,偏斜程度越小,峰度及其测度峰度是对数据分布平峰或尖峰程度的测度
21、。峰度通常是与标准正态分布相比较而言的。峰度系数用K来表示正态分布的峰态系数=0峰态系数0为尖峰分布,根据分组数据计算,第3章 概率、概率分布与抽样分布,3.1 事件及其概率3.2 随机变量及其概率分布3.3 常见的抽样方法3.4 抽样分布3.5 中心极限定理的应用,随机变量某次试验结果的数值性描述取值是随机的,事先不能确定取哪一个值 根据取值特点的不同,可分为:离散型随机变量和连续型随机变量离散型随机变量随机变量 X 的所有可能是有限个或无限可数个时以确定的概率取这些不同的值连续型随机变量随机变量 X 取无限个值,随机变量的数学期望,3.2 随机变量及其概率分布,又称均值描述随机变量取值的集
22、中程度或平均程度离散型随机变量 X的数学期望:相当于所有可能取值以概率为权数的平均值连续型随机变量X 的数学期望:,随机变量的方差方差是每一个随机变量取值与期望值的离差平方的期望值,记为D(x)或2公式:离散型随机变量的方差:连续型随机变量的方差:,3.2 随机变量及其概率分布,正态分布的均值和标准差 均值 E(X)=方差 D(X)=2 标准正态分布0,1的正态分布,记为N(0,1)XN(,2),则:ZN(0,1),标准化,标准化,概率抽样(probability sampling)(一)概率抽样概述根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本每个单位被抽中
23、的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,(二)简单随机抽样(simple random sampling)从总体N个单位中随机地抽取n个单位作为样本,使得每一个单位都有相同的机会(概率)被抽中 2、抽取元素的具体方法有重复抽样和不重复抽样(三)分层抽样(stratified sampling)将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本单位(四)系统抽样(systematic sampling)将总体各单位按某种顺序排列,并按某种规则确定一个随机起点,然后每个一定的间隔抽取一个单位,直至抽取n个
24、单位形成一个样本(五)整群抽样(cluster sampling)调查时先将总体划分成若干群,从中抽取部分群,进而对抽中的各个群中所包含的所有个体单位进行调查或观察,为了调查某校学生的购书费用支出,从全校抽取4个班级的学生进行调查,这种调查方法是将全校学生的名单按拼音顺序排列后,每隔50名学生抽取一名学生进行调查,这种调查方法是,抽样分布(sampling distribution)1.样本统计量是随机变量2.抽样分布就是样本统计量的概率分布样本均值的抽样分布(一)样本均值的抽样分布的概述1.样本均值的概率分布,(二)总体分布为正态分布N(,2)时的样本均值的抽样分布假设从服从正态分布N(,2
25、)的总体随机抽取一个容量为n的样本,那么样本均值 的抽样分布仍为正态分布,且样本均值的数学期望,方差,(三)假设从均值为,标准差为的一个不服从正态分布的总体中抽取一个容量为n的样本,那么中心极限定理(central limit theorem):设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布注意:如果被抽样的总体是无限总体或者抽样的方式为重复抽样,那么方差为2/n就是精确的。如果被抽样总体为有限总体且抽样的方式为非重复抽样,当总体容量比样本容量大的多(一般来说,二者相差至少20倍)时,那么方差为2/n就是近似成立
26、的。,(四)样本均值的数学期望与方差1.样本均值的数学期望,2.样本均值的方差,重复抽样:,不重复抽样:,【例】,解:,解:,解:,四、样本比率的抽样分布从总体中抽取容量为n的样本,当n足够大时(即n5,n(1-)5),样本比例p的抽样分布可用正态分布近似,1.样本比率的数学期望,2.样本比率的方差,重复抽样:,不重复抽样:,五、样本方差的分布当总体,从中抽取容量为n的样本,则,4.2 一个总体参数的区间估计,二、总体比率的区间估计1.假定条件当样本容量充分大,即np5,n(1-p)5时,可以由正态分布来近似2.使用正态分布统计量 z,3.总体比率在1-置信水平下的置信区间为,总体比率的区间估
27、计(例题分析),【例】某城市想要估计下岗职工中女性所占的比率,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间,解:已知 n=100,p65%,np=655,n(1-p)=355,1-=95%,z/2=z0.025=1.96,该城市下岗职工中女性比率的置信区间为55.65%74.35%,二、估计总体比例时样本容量的确定根据比率区间估计公式可得样本容量n为,4.4 样本容量的确定,E的取值一般小于0.1 未知时,用样本比率代替,其中:,估计总体比率时样本容量的确定(例题分析),【例】根据以往的生产统计,某种产品的合格率约为90%,现要
28、求允许误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?,解:已知=90%,=0.05,z/2=z0.025=1.96,E=5%,应抽取的样本容量为,应抽取139个产品作为样本,5.1 假设检验的基本原理,假设检验的步骤1.陈述原假设和备择假设2.确定显著性水平3.选择适当的检验统计量4.确定决定是否拒绝原假设的法则5.收集样本数据并计算检验统计量的值6.用检验统计量的值和临界值法则决定是否拒绝原假设,5.1 假设检验的基本原理,假设检验的基本形式,总体均值的检验(大样本),1.假定条件正态总体或非正态总体大样本(n30)使用z检验统计量 2 已知:2 未知:,总体均值的检验(大样
29、本检验方法的总结),方差分析,分析步骤1.提出假设2.选择显著性水平3.构造检验的统计量4.统计决策,单因素方差分析表(基本结构),方差分析中的多重比较一、多重比较概述通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异可采用Fisher提出的最小显著差异方法,简写为LSD LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的,二、多重比较的步骤 1.提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mi mj(第i个总体的均值不等于第j个总体的均值)2.计算检验的统计量:,3.计算LSD,7.1 相关分析,(一)简
30、单线性相关系数1.样本相关系数通过X和Y 的样本观测值去估计样本相关系数变量X和Y的样本相关系数通常用rXY 表示,一元线性回归分析,回归分析的内容从一组样本数据出发,确定变量之间的数学关系式建立回归模型;对回归模型的统计性检验;利用所求的回归模型,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度,SST=SSR+SSE,某公司5个同类型企业的固定资产价值(x)与增加值(y)的资料如右表并已知(1)以Y为因变量求估计的回归方程,并说明回归系数的经济学意义(2)计算估计的标准误差Se(3)对总离差平方和分解,指出可以由回归方程解释的那一部分离差平方和占总离差平方和的比重,(4)计算可决系数和相关系数,指出它们的联系,对进行显著水平为5%的显著性检验。,回归系数显著性 t 检验的方法,(1)提出假设常用假设:(2)计算统计量(3)给定显著性水平,确定临界值(4)检验结果判断 若 则拒绝原假设,而接受备择假设 若 则无法拒绝原假设,