电子商务数据分析《数据分析基础》教案.pptx

上传人:夺命阿水 文档编号:379458 上传时间:2023-05-05 格式:PPTX 页数:118 大小:2.46MB
返回 下载 相关 举报
电子商务数据分析《数据分析基础》教案.pptx_第1页
第1页 / 共118页
电子商务数据分析《数据分析基础》教案.pptx_第2页
第2页 / 共118页
电子商务数据分析《数据分析基础》教案.pptx_第3页
第3页 / 共118页
电子商务数据分析《数据分析基础》教案.pptx_第4页
第4页 / 共118页
电子商务数据分析《数据分析基础》教案.pptx_第5页
第5页 / 共118页
点击查看更多>>
资源描述

《电子商务数据分析《数据分析基础》教案.pptx》由会员分享,可在线阅读,更多相关《电子商务数据分析《数据分析基础》教案.pptx(118页珍藏版)》请在课桌文档上搜索。

1、数据分析基础,第1章 数据分析概述,数据分析是数学与计算机科学相结合的产物。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。随着互联网的发展和大数据时代的来临,数据分析的重要性显得比任何时候都更为突出。,1.1 什么是数据分析,数据分析是指对大量数据进行整理后,利用适当的统计分析方法,把隐藏在数据背后的信息提炼出来,并加以概括、总结的过程。,数据分析的内容主要包括:现状分析:分析已经发生了什么原因分析:分析为什么发生某一现状预测分析:分析将来可能发生什么,1.1.1 数据分析的过程,一、确定分析目的二、收集数据三、数据处理四、数据分析

2、五、数据展现六、撰写报告,数据分析过程主要包括六个既相对独立又相互联系的阶段,分别是:,1.1.2 数据分析的工具,数据分析的相关工具可以分成三种:存放数据的工具在数据量大的情况下,需要动用到专门的数据库软件。数据量在一百万条以内,可以用Excel作为数据库。分析数据的工具我们选择最通用的工具Excel。做分析报告的工具我们用word、PPT就可以了。,1.2 统计学的几个基本概念,1.2.1 现象总体和现象个体,1.2.2 标志和标志表现,1.2.3 统计指标,数据分析是统计学的重要内容与扩展,因此,在学习数据分析之前,我们来学习一些统计学基本概念。,1.2.1 现象总体和现象个体,现象总体

3、(简称总体),是由客观存在的、具有某种共同性质又有差别的许多个别单位所构成的整体。现象个体(简称个体),是构成现象总体的每一个事物或基本单位。,分析表1-1,(1)如果研究全校学生的体质,什么是总体?什么是个体?(2)如果研究全校学生的身高,什么是总体?什么是个体?,现象总体必须具备三个特性:,(1)大量性,是现象总体的量的规定性,即指现象总体的形成要有一个相对规模的量,仅仅由个别单位或极少量的单位不足以构成现象总体。因为个别单位的数量表现可能是各种各样的,只对少数单位进行观察,其结果难以反映现象总体的一般特征。(2)同质性,是指构成现象总体的各个单位至少有一种性质是共同的,同质性是将现象总体

4、各单位结合起来构成现象总体的基础,也是现象总体的质的规定性。(3)变异性,是指现象总体各个单位除了具有某种或某些共同性质以外,在其它方面则各不相同,具有质的差异和量的差别,这种差别叫变异。,总体和个体也是相对而言的,随着统计研究目的及范围的变化,总体和个体可以相互转化。同一事物在不同情况下,可以作为总体,也可以作为个体。,分析表1-2,(1)如果研究江西省所有工业企业的工业总产值,何为总体?何为个体?(2)如果研究其中某一个企业的工业总产值,何为总体?何为个体?,1.2.2 标志和标志表现,通常,每个现象个体具有许多属性和特征,这些属性或特征,叫标志。标志的属性或数量在每个个体的具体表现,叫标

5、志表现。比如表1-1:,标志,按其性质可以分为数量标志和品质标志。数量标志,以数量的多少来表示的标志,表示事物量的特性。如表1-1中的“身高”和“体重”。品质标志,不能用数量而只能以性质属性上的差别即文字来表示的标志。品质标志表示事物质的特征。如表1-1中的“性别”和“爱好”。,品质标志,1.2.3 统计指标,假如通过对表1-1的统计计算,可能得出以下统计结果:学校总人数5000人男生人数2600人女生人数2400人男女性别比1.08:1平均身高172cm平均体重62kg,这些数据,在统计学上都称为统计指标。,所谓统计指标,就是反映现象总体的数量特征的概念和具体数值。通常,一个完整的统计指标包

6、含指标名称和指标数值两部分。,1.3 统计指标的分类,按照其反映的内容或其数值表现形式划分:总量指标、相对指标、平均指标,(1)总量指标,反映现象总体规模的统计指标,通常以绝对数的形式来表现,因此又称为绝对数。例如“总人数5000人”、“男生人数2600人”。有时,总量指标也表现为同一总体在不同的时间、空间条件下的差数。例如:2005年我国粮食总产量为43067万吨,2006年我国粮食总产量比2005年增加了5933万吨,这个增加量也是总量指标。(2)相对指标,是两个总量指标之比,因此又称相对数。例如“男女性别比1.08:1”;再如,经济增长率、物价指数、固定资产增长率等。(3)平均指标,平均

7、指标又称平均数,是现象总体在某一空间或时间上的平均数量状况。例如“平均身高172cm”、“平均体重62kg”;再如,家庭人均消费水平、人均寿命等。,按其所反映的数量特点和内容划分:数量指标、质量指标(1)数量指标,反映总体现象范围的广度、规模大小和数量多少的指标。它表示事物外延量的大小,通常有计量单位、用绝对数表示。其指标数值大小随总体范围的大小而增减变动。例如,销售量、销售额、人口总数、工业总产值等,都属于数量指标。(2)质量指标,反映现象总体的质量、强度、经济效果等的统计指标。它表示事物内涵量的状况,通常用相对数或平均数表示。其指标数值大小与总体范围大小没有直接的关系。例如,商品价格、产品

8、合格率、利润率、劳动生产率等,都属于质量指标。,1.3.1 总量指标,按总量指标所反映的时间状况来划分,总量指标可以分为时期指标和时点指标。(1)时期指标,是反映现象总体在一段时间内累计总和。(2)时点指标,是反映现象总体在某一时点上状态总数。例如,商品销售额、总产值、基本建设投资额、国内生产总值、利润总额、产品销售收入等,都属于时期指标。例如,人口数、房屋居住面积、企业数、储蓄存款余额、库存额、固定电话用户数、商品库存量、在校学生数等,都属于时点指标。,时期指标与时点指标的区别:,(1)性质相同的时期指标的数值可以相加,而时点指标相加则无意义;(2)同类时期指标数值的大小与时期长短有直接关系

9、,而时点指标则没有这种关系;(3)时期指标数值是经常登记取得,而时点指标则不是。,区分时期指标和时点指标决定了统计处理与应用上的不同,在运用时期指标和时点指标时,应注意同一类指标若从不同的角度考虑,其性质也不同。例如,年末人口数和年初人口数是时点指标,但年末人口数减去年初人口数人口净增数,人口净增数是时期指标,而不是时点指标。,指标与标志的区别(1)标志是用于描述个体的,指标是用于描述总体的。(2)标志只是一个名称,不含数值(标志表现);指标既含名称又含数值。,指标与标志的联系(1)具有对应关系。标志与指标名称往往是同一概念。(2)具有汇总关系。统计指标的数值由标志表现汇总得来。(3)具有变换

10、关系。随着研究目的的变换,原有的总体转变为个体,相应的统计指标名称也就成为标志;反之亦然。,1.3.2 相对指标,相对指标分为结构相对指标、对比相对指标、完成程度相对指标等。,结构相对指标=总体某部分的数值 总体总量,例如,表1-3的第3列数据就是结构相对指标。,结构相对指标,1、结构相对指标,又称结构相对数,或比重指标,是在统计分组的基础上,现象总体中某一组的数值与总体指标数值的比值,以说明总体内部组成情况,一般用百分数表示。,结构相对指标具有如下特点:,分子分母不能互换;指标值1;指标值之和1。,常用的合格率、恩格尔系数都属于结构相对指标:(1)合格率=合格产品 全部产品,说明工作质量的高

11、低,合格率越高,工作质量越高。(2)恩格尔系数=食品支出总额 个人消费总额,说明生活质量的高低,恩格尔系数越低,生活质量越高。,2、对比相对指标,任何事物都是既有共性特征,又有个性特征的,只有通过对比,才能分辨出事物的性质、变化、发展的规律。数据分析亦如此,对庞大的数据做单独分析,通常很难发现其意义,只有将不同数据进行对比,才能发现更多本质现象。通常情况下,数据对比可以分成静态对比和动态对比。,静态相对指标静态相对指标是指同一总体在相同时间下,不同组(部门、单位、地区)的数据对比。通常用用比值、倍数、系数或百分数表示。静态相对指标=总体中某一组的指标数值 总体中另一组的指标数值,例1、某地区某

12、年末人口数位1000万人,其中男性514万人,女性486万人,该地区男性人口数是女性人口数的105.8%,男女性别比例为105.8:100。例2、某月甲商场总销售额120万元、乙商场总销售为156万元,则甲商场的总销量为乙商场的76.9%,或者说,乙商场的总销量为甲商场的1.3倍。,静态相对指标有如下特点:同一总体、同一指标、同一时间、不同组的数值对比;分子、分母可以互换。,静态相对指标的作用:通过静态对比,可以了解自身的发展在行业内处于什么样的位置,哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。,动态相对指标动态相对指标,是指同一总体在不同时间下的数据对比,以说明现象总

13、体在不同时间上的发展变化情况,所以也叫发展速度,通常用百分数表示。,(1)同比发展速度=报告期指标数值 上年同期指标数值(2)环比发展速度=报告期指标数值 上一期指标数值,例如,2014年淘宝双11的单日销售总额为571亿元,2015年淘宝双11的单日销售总额为912亿元,则2015年的发展速度为2014年的160%。,例如同比发展速度和环比发展速度。,动态相对指标有如下特点:同一总体、同一指标、不同时间的数值对比;分子、分母不可以互换。,再如,某企业2014-2015年各月销售额资料见表1-4,则2015年12月的同比发展速度为 270 266=102%,2015年12月的环比发展速度为 2

14、70 250=108%。,例如,某年某商业企业,商品销售额计划指标为3000万元,当年该企业实际商品销售额为3600万元,则完成程度相对指标 3600 3000=120%,3、完成程度相对指标,完成程度相对指标,是实际完成值与目标计划值进行对比,通常用百分数表示。其计算公式为:,完成程度相对指标 实际完成值 计划完成值,1.3.3 平均指标,平均指标,又叫平均数,是指反映现象总体各单位某一数量标志值在具体时间、地点、条件下达到的一般水平的综合指标。,1、算术平均数,算术平均数,是指现象总体的总量指标与单位总数的比值。,1+2+,例如:某班40名学生的共捐款4200元,则人均捐款额=4200 4

15、0=105(元),平均指标按计算和确定方法的不同,分为算术平均数、几何平均数。,算术平均数是一种应用最为广泛的平均数,其计算公式为:,2、几何平均数,几何平均数,是n个数连乘积开n次方根。其计算公式为:,=1 2,对于同一组数据来说,几何平均数算术平均数。几何平均数适用于计算平均合格率、平均本利率、平均发展速度、平均增长速度等。,例1、某工厂生产机器,有粗加工、精加工2道连续作业的工序,所以有2个相应的生产车间,各车间产品合格率分别为90%、80%,问:该工厂产品的总合格率是多少?平均合格率是多少?例2、某公司的业绩从2012年开始连年增长,2013年的发展速度为105%,2014年的发展速度

16、为110%,2015年的发展速度为115%,问:该公司三年来业绩的总发展速度是多少?平均发展速度是多少?例3、某笔为期5年的投资按复利计算收益,第1年的利率为10%,以后每年利率增加一个百分点,问5年的总利率是多少?平均本利率是多少?,小结(1),1、什么是数据分析2、数据分析的过程3、数据分析的工具4、现象总体和现象个体5、标志和标志表现,小结(2),一、统计指标按照其反映的内容或其数值表现形式划分:,二、按其所反映的数量特点和内容划分:,三、指标与标志的区别,(1)具有对应关系。标志与指标名称往往是同一概念。(2)具有汇总关系。统计指标的数值由标志表现汇总得来。(3)具有变换关系。随着研究

17、目的的变换,原有的总体转变为个体,相应的统计指标名称也就成为标志;反之亦然。,指标与标志的联系,(1)标志是用于描述个体的,指标是用于描述总体的。(2)标志只是一个名称,不含数值(标志表现);指标既含名称又含数值。,练习,1、请分析下表中的数据,探讨何为总体?何为个体?,2、请判断以下哪些标志为数量标志,哪些为品质标志?(1)工人的性别、年龄、工种、工龄、工资、民族、文化程度。(2)企业的工人数、产量、产值、固定资产。,练习,3、判断以下统计指标哪些是时期指标,哪些是时点指标?,4、已知6名学生的月生活费分别是750元、800元、920元、950元、1000元和1100元,求其平均月生活费。5

18、、某班一共有40名学生,他们向地震灾区捐款统计分别是:3人10元,20人20元、10人50元、5人100元、2人200元,求该班级的平均捐款额。6、某工厂招聘人才,设有初试、笔试、面试3个连续环节,各环节的通过率分别为60%、70%、80%,求招聘的平均通过率。,7、已知某公司2011-2015年固定资产投资额发展速度资料表如表1-6所示,请计算5年来固定资产投资额的平均发展速度。,第2章 数据的收集,传统的数据收集方法主要包括实验数据、调查数据以及各种途径收集到的其它数据,这样收集得到的数据大多存在误差,容易导致分析结果的偏差。随着互联网的发展和大数据的出现,数据的收集环节实现了跨越,更多地

19、方法是直接从网上下载海量数据。,很多人一开始并不能清晰地认识到数据分析对数据有什么要求,正因为如此,当进行数据分析时,就会有比较迷茫、无从下手的感觉。因此,对数据的正确理解是数据分析的一个重要前提。,2.1 理解数据,2.1.1 数据的类型,从不同的角度、不同学科,数据类型的分类不尽相同。在Excel中,数据类型细分起来有很多,但是归根结底还是四大类,分别是:数值、货币、日期与时间、文本。,在数据运算过程中,我们发现,数值、货币、日期与时间都可以进行加、减、乘、除等算术运算,所以统称为数值型;而文本只能进行简单的“计数”,不能进行数学运算,仍称文本型。所以,在数据分析中,我们把数据类型分成两种

20、:数值型数据和文本型数据。数值型数据对应统计学中的数量标志的标志表现,文本型数据对应统计学中的品质标志的标志表现。,1、不同个体在同一标志上的不同取值,2、数据清单:不同个体在多个标志上的取值所组成的二维表格,Excel数据清单包含一行列标题和多行数据,清单中的每一列称为一个字段,列标题称为字段名(即统计学中的标志),清单中每一列的数据的类型和格式完全相同,清单中每一行数据称为一条记录。数据清单中不能有合并单元格的形式。,2.1.2 数据的呈现形式,多个相关的数据清单在一起,就称为一个数据库。,据数据的来源不同,可以将数据分成一手数据和二手数据。,2.2 数据的来源,一手数据也称为原始数据,是

21、指通过调查或实验等方式直接获得的数据。获取一手数据的方法有:,二手数据也称为次级数据,是指那些从同行或一些媒体上获得的、经过加工整理的数据,比如国家统计局定期发布的各种数据、从报纸电视上获取的各种数据。,1、导入Access数据2、导入网站表格数据3、利用爬虫软件下载网络数据,案例操作(15-18页),课后练习:,收集调查全班各位同学的姓名、学号、性别、年龄、籍贯、身高、体重、爱好、家庭年收入、本人月生活费、上学期考试科目平均分。,第3章 数据的处理,数据处理的基本目的是将大量的、杂乱无章、难以理解的数据加工整理成便于数据分析的数据,数据处理主要包括数据的清洗和数据的简单加工。,数据清洗就是将

22、格式错误的数据进行处理纠正,将错误的数据纠正或删除,将缺失的数据补充完整,将重复多余的数据删除除。,3.1 数据清洗,案例操作(21-24页),经过清洗后的数据,并不一定是我们想要的数据,可能还要对数据进行信息提取、计算、分组、转换等加工,让它变成我们想要的数据。数据加工的手段主要有:数据转置、字段分列、字段匹配、数据抽取、数据计算。,3.2 数据加工,案例操作(24-31页),现象总体在一段较长的时间内,由于普通的、持续的、决定性的基本因素的作用,往往呈现逐渐向上或向下变动的趋势(左图);但也不排除受一些偶然因素或不规则因素的影响,出现与整体趋势相差很大的极端数据(右图)。,下面介绍常用的移

23、动平均法对数据进行修整。移动平均法,就是从时间数列的第一位数值开始,按一定项数求平均数,逐项移动,形成一个新的动态数列。,如果用这些极端数据直接进行数据分析,分析的结果可能有失偏颇,所以有必要用一定的数学方法对这些数据进行加工修匀,使数据长期变化的趋势更加明显,为预测现象总体的未来提供更准确的依据。,3.3 数据的修整,常用的移动平均法有:三项移动平均法和四项移动平均法。,案例操作(32-38页),小结,若采用奇数项移动平均,平均值对准居中时间数列的项数,一次可得趋势值。若采用偶数项移动平均,平均值未对准居中原时间数列的项数,需再通过一次移动平均进行正位。数据过少不适宜用移动平均法进行数据的修

24、正。,第4章 数据的分析,在计算机基础课程中,我们已经学习过Excel数据的排序、筛选、分类汇总、数据透视表等基本方法。在这一章,我们要继续深入学习数据透视表的使用、系统学习描述性统计指标的计算,动态数列的分析与预测、相关分析与回归分析法、综合评价分析法、四象限分析法。,按照每组标志表现的多少,统计分组可以分成单项式分组和组距式分组。,4.1 数据分组,4.1.1 统计分组的概念,1、单项式分组:每一个变量值均作为一组。一般适用于离散型变量且变量变动不大的场合。2、组距式分组:以一个区间作为一组。一般适用于连续型变量或离散数据较多的场合。组距式分组又可以分成等距分组和不等距分组。,统计分组,是

25、根据统计研究的需要,按照一定的标志,将总体区分为若干个性质不同而又有联系的组成部分,并计算各组的频数或比重的一种统计方法。这些组成部分称为这一现象总体的“组”。,组距式分组的几个基本概念(45页),组距式分组的步骤:,第一步:确定组数。,一般5-10组。,一般情况下,组距(最大值最小值)组数,例如,某组数据最大值为139,最小值为107,一共分成7组,则组距=(139107)7=4.6。为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值,因此组距可取5,分成7组:105-110、110-115、115-120、135-140。,第二步:确定各组

26、的组距。,第三步:统计各组的频数。,3、次数分布,在统计分组的基础上,将现象总体中所有单位按组归类整理,形成现象总体中各单位数在各组间的分配,叫次数分布,分配在各组的单位数叫频数。,各组频数与总频数的比值,叫频率,或比率。各频率之和为1或100%。,各种不同性质的现象总体都有着特殊的次数分布,概括起来,主要有:钟形分布、U形分布、J形分布。,(1)钟形分布,当次数分布出现两端次数较少、中间次数较多的状态时,所绘制的的曲线就像一口钟,所以叫钟形分布。,钟形分布有对称分布和非对称分布两种。对称分布即为正态分布,如图4-1。在非对称的钟形分布中,又分左偏分布和右偏分布两种,如图4-2、4-3。,正态

27、分布是统计学中最常用也是最重要的一种分布,它有着极其广泛的应用价值。例如,同一种生物体的身长、身高、体重等生理指标;某班级学生的考试成绩;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;农作物的亩产量;都是服从或近似服从正态分布。,(2)U形分布,当次数分布出现两端次数较多,靠近中间次数较少的状态时,所绘制出来的曲线如同英文字母“U”字一样,所以叫U形分布,如图4-4。,例如,不同年龄人口死亡率。,(3)J形分布,J形分布有两种,一种是正J形分布,另一种是反J形分布。,老年人口死亡率按年龄分布、患肺癌率按日吸烟支数分布等,都服从正J形分布;儿童死亡率按年龄分布

28、、肥胖率按日活动量分布等,都服从反J形分布。,4.1.2 利用“数据透视表”分组,数据透视表可以将Excel数据库中的数据进行分组,建立各种形式的交叉数据列表。数据透视表将筛选和分类汇总等功能结合在一起,可根据不同需要以不同方式查看数据。,插入透视表的主要步骤有三步:第一步,单击数据区域的任意一个单元格,再单击【插入】|【数据透视表】命令。第二步,如果第一步按前面的要求做了,那这一步打开的“创建数据透视表”对话框中就会自动选择所有的数据区域,透视表的位置默认为“新工作表”,如图所示。,第三步,将分组“标志”(Excel中叫“字段”)拖到“行标签”、“列标签”或“报表筛选”处(首选“行标签”,其

29、次是“列标签”,尽量不要拖到“报表筛选”),将要统计的标志(字段)全部拖到“数值”处,如图所示。,统计的“标志”,分组的“标志”,如果统计的标志是品质标志,统计方式默认为“计数”;如果统计的是数量标志,统计方式默认为“求和”。,如果要修改统计方式,可以单击右边的下三角形,在弹出的列表框中选择“值字段设置”命令,如图4-9所示。然后在“值字段设置”对话框中修改统计方式,如图4-10所示。,分析:为什么例3组距选 50?因为,总体的最小值115,最大值396,396-115=281,281 7 40,281 6 47综合考虑,组距选50,第一组为100-150,方案最佳。因为总体中没有一个*9.1

30、*9.9的数字,所以各组上限为149、199等数字,自动避开了上下限重复的情况。,(例1、例2、例3),案例操作(49-52页),4.1.3 利用“数据分析”之“直方图”功能统计各组的频数,利用透视表可以完成对数据的单项式分组和等距分组,如果要对数据进行不等距分组,透视表就无能为力了。此时可以利用“数据分析”之“直方图”功能进行分组。,用“数据分析”之“直方图”功能进行分组的两个特点:只能统计各组的频数,不能对组内的数据求和或求平均。各组的频数是“不含下限、含上限”的。,案例操作(53页),4.1.4 用Frequency、countif函数统计各组的频数(选讲),案例操作(54-55页),使

31、用Frequency函数分组的两个注意事项:Frequency是一个数组函数,所以插入函数之前要选择准备放结果的单元格区域,最后要按【Ctrl+Shift+Enter】确认。和直方图一样,Frequency函数也只能统计各组的频数,而且统计出的频数也是“不含下限、含上限”的。,所以,如果分组统计中必须要遵循统计中“不含上限”的原则,最好还是用countif函数统计各组的频数。,小结,能完成不等距分组只能统计各组的频数各组是“不含下限、含上限”的。与统计学规定矛盾。,Frequency是一个数组函数,所以插入函数之前要选择准备放结果的单元格区域,最后要按【Ctrl+Shift+Enter】确认。

32、各组是“不含下限、含上限”。与统计学规定矛盾。,数据分组,1、透视表,2、直方图,3、Frequency函数,能完成单项式分组、等距分组能对各组的数据进行计数、求和、求平均等多种运算。各组是“不含下限、含上限”的,与统计学规定一致。,4、countif函数,可以灵活选择是否含组上限、下限和组距,4.2 描述性统计,4.2.1 总量指标、平均指标,描述性统计主要是计算总体的总量指标、平均指标、中位数、众数、极差、方差、标准差、标准差系数等。,根据总体反应的具体内容,总量指标划分为标志总量和单位总量。(1)标志总量:总体某一标志的总和(2)单位总量:总体所包含的个体数的多少平均指标=标志总量 单位

33、总量,总体:45、25、46、26、32、36、31、26、34、45,的标志总量为=45+25+46+26+32+36+31+26+34+45=346,单位总量是10;平均指标是34.6。,如果收集的数据是一条一条的原始记录,而且是精确的数据,用sum函数计算标志总量,用count函数计算单位总量,用average计算平均指标。如56页例1。如果数据是经过统计汇总的形式,可灵活运用 计算平均指标。如57页例2。如果数据是组距式分组,就先计算组中值,再用公式 计算平均指标。60页例4。用Sumproduct计算标志总量,59页。,案例操作(56-63页),中位数,是指将总体各单位的标志值按大小

34、顺序排列,位于数列中间位置的数据。如果有偶数个数据,则取中间两个数的平均数。中位数用字母Me(median)表示。众数,是指总体中出现次数最多的数据。众数用字母Mo(mode)表示。,4.2.2 中位数、众数,中位数和众数也可以表明总体的一般水平。在实际工作中,众数是应用较广泛的。例如,要说明消费者需要的服装、鞋帽等的普遍尺码,反映集市、贸易市场某种蔬菜的价格等,都可以通过市场调查、分析,了解哪一尺码的成交量最大,哪一价格的成交量最多。假如我们要考查某学校某班的数学水平,一般情况下,我们肯定看全班的平均分。但如果这个班大多数学生的分数都在50分左右,但有一个天才居然考了满分100分,以一己之力

35、生生将全班的平均分拉高了不少,这时用平均分来衡量全班同学的数学水平显然是不科学的。,所以,当数据整体平稳,但有少数异常值时,我们用均值来做指标参考就不靠谱了,这种情况更适合的是用中位数或众数来作为指标。,那么,如何判断数据整体是否平稳、是否有异常值出现呢?绘制一下数据的散点图就一目了然了,如图所示。,用Median计算中位数Me,用Mode计算众数Mo。,案例操作(63-64页),对于一组数据:1、2、3、4、1、极差=最大值最小值2、方差=2 3、标准差=2 4、标准差系数=标准差 平均值,这几个指标用于描述数据的差异程度和离散程度的。指标值越大,说明数据的离散程度越大,即数据波动幅度大,平

36、均值的代表性越差;指标值越小,说明数据越平稳,波动幅度小,平均值的代表性越好。,4.2.3 极差、方差、标准差、标准差系数,如果直接从数学角度,用数学公式的方法来计算方差和标准差,是比较繁琐的。在Excel中,用函数计算要方便的多。,1、极差()()2、方差 2.()3、标准差.()4、标准差系数.()(),案例操作(65页),除了用函数计算描述性指标外,还可以用Excel中“数据分析”之“描述统计”功能快速完成各项描述性指标的计算。,“描述统计”结果中其它指标的含义或公式:标准误差:=2 1 峰度:衡量数据离群度的指标偏度:衡量数据偏斜平均数 的方向和程度区域:极值求和:标志总量观测数:单位

37、总量,4.2.4 用“描述统计”功能计算描述性指标,案例操作(66-67页),4.3 动态数列的分析,动态数列,是指将现象总体在不同时间上的指标数值按时间先后排列而成的序列,又叫时间数列。,为了方便,动态数列经常以表格的形式展现,如图所示。,动态数列的两个基本要素:时间 和水平值。,动态数列常用的速度指标有:发展速度、增长速度、平均发展速度、平均增长速度。,1、发展速度研究动态数列时,如果要将两个不同时期的水平值进行对比,那么分析研究时期的水平值,叫报告期水平;对比基础时期的水平值,叫基期水平。,发展速度=报告期水平 基期水平 100%,注意:期的单位,可以是年、月、周、天,也可以是小时、分、

38、秒、毫秒。,4.3.1 动态数列的速度指标,根据基期的不同,发展速度分成三种:(1)定基发展速度:基期为某一固定时期(如 0),表示为 0,也叫总发展速度,或总速度。(2)环比发展速度:基期为上一期,表示为 1(3)同比发展速度(年距发展速度):基期为上年同期,=报告期水平 上年同期水平,案例操作(69页),2、总发展速度,总发展速度,就是定基发展速度()。,因为 0=1 0 2 1 3 2 1,所以,总发展速度=环比发展速度的乘积。,在Excel中,有一个函数能计算若n个数的连乘积,就是Product函数。即,总发展速度=Product(环比发展速度)。,案例操作(69-70页),平均发展速

39、度=0=1 0 2 1 1,3、平均发展速度,数学上,我们把n个数的乘积开n次方根,叫做这n个数的几何平均数。几何平均数的应用在第8-9页已经学习过。所以,平均发展速度=环比发展速度的几何平均数。在Excel中,有一个函数可以计算几何平均数,就是Geomean。,案例操作(71页),增长速度=报告期水平基期水平 基期水平 100%,4、增长速度,根据基期的不同,增长速度也分定基、环比、同比三种。,(1)定基增长速度=0 0=定基发展速度1,(2)环比增长速度=1 1=环比发展速度1,(3)同比增长速度=(报告期水平上年同期水平)上年同期水平=同比发展速度1,当增长速度为正时,表示现象总体在增加

40、;当增长速度为负时,表示现象总体在减少。在计算时,多用公式“增长速度=发展速度-1”计算增长速度。,平均增长速度=平均发展速度1,案例操作(72-73页),总体随着季节的变动而引起的比较有规则的波动,叫做季节变动。例如,在市场销售中,一些商品如电风扇、冷饮、四季服装等往往受季节影响而出现销售的淡季和旺季之分的季节性变动规律。又如,农牧业生产,就是典型的季节性生产,并且也影响以农牧业产品为原料的加工工业的生产、商业部门对农牧产品的购销以及交通运输部门的货运量方面,使得它们的生产经营也带有季节性。,4.3.2 同期平均法预测,所谓同期平均法,就是先根据动态数列求出同期(季或月)平均数,再计算各期的

41、季节指数,最后根据季节指数预测下一期的数据。,除了由季节变动引起的数据波动,还有可能由月份引起的数据波动,对于这类数据的分析,我们常用同期平均法。,具体的计算过程为:(1)先根据历年(三年以上)资料求出同期(季或月)平均数,(2)求季节指数=同期平均数 历年总平均数(同期平均数的平均数)100%,(3)计算各期的预测值=上年的平均水平各期的季节指数,显然,季节指数是一种相对指标。季节指数平均数为100%。季节变动表现为各季的季节指数围绕着100%上下波动。如果某种商品第一季度的季节指数为125%,这表明该商品第一季度的销售量比年平均数高25%,属旺季;若第三季度的季节指数为73%,则表明该商品

42、第三季度的销售量比年平均数低27%,属淡季。,案例操作(74-77页),如果动态数列的发展水平既有规律性的季节变化,又有明显的长期趋势,最好采用移动平均趋势剔除法,排除不规则变动等因素的影响,使数据分析更合理、更准确。,4.3.3 移动平均趋势剔除法,(1)对动态数列用四项移动平均法加以修正,(2)计算趋势值=原数据y 修正后数据T,由趋势值组成一个新的数列,(4)计算各期的预测值=上年的平均水平各期的季节指数,(3)根据新的数列 y T,计算各期的季节指数,其具体计算过程为:,案例操作(77-80页),4.4 相关分析与回归分析4.4.1相关分析,相关分析是研究两个或两个以上变量之间相关程度

43、及大小的一种统计方法。其目的是揭示现象之间是否存在相关关系,并确定相关关系的性质、方向和密切程度。,线性相关曲线相关,正相关负相关,高度相关显著相关低度相关微弱相关,对两个变量进行相关分析,最常见的方法就是,以这两个变量的值为坐标(,),在直角坐标系中绘制成散点图,此时的散点图亦称“相关图”,如图所示。,1、相关图,利用相关图,可以直观、形象地表现变量之间的相互关系,如果发现:(1)散点分布大致呈一条直线,称二者线性相关,如图4-87所示。(2)散点分布大致呈一条曲线,称二者曲线相关,如图4-88所示。(3)散点分布杂乱无章,称二者不相关,如图4-89所示。(4)当一个变量增加,另一个变量也呈

44、增加的态势,称二者正相关,如图4-87(a)所示。(5)当一个变量增加,另一个变量反而呈减少的态势,则称二者负相关,如图4-87(b)所示。,当两个变量线性相关时,用相关系数r表示两个变量x和y之间的相关方向和密切程度。,在数学上,相关系数=2=2 2,相关系数的取值范围为|1。越接近于1,说明散点图上的点越集中在某一直线附近,两个变量之间的直线相关密切程度就越高;越接近于0,则直线相关密切程度就越低。,在实际应用中,利用相关系数来判断直线相关密切程度的一般标准为:,当=0时,说明两个变量之间不存在直线相关关系;当0 0.3时,认为两个变量之间存在微弱直线相关;当0.3 0.5时,认为两个变量

45、之间存在低度直线相关;当0.5 0.8时,认为两个变量之间存在显著直线相关;当0.8 1时,认为两个变量之间存在高度直线相关;当 r=1时,说明两个变量之间存在完全直线相关关系,即成直线函数关系。当相关系数r很小甚至为零时,只能说明变量之间不存在直线相关,而不能说明它不存在相关关系。,2、线性相关与相关系数,3、相关系数的计算,在Excel中,有两种常用方法计算相关系数。,方法一:函数Correl,方法二:“数据分析”之“相关系数”,函数一次只能计算两个变量的相关系数,而“数据分析”之“相关系数”可以同时计算多个变量的相关系数。,案例操作(82-85页),4.4.2 回归分析,回归分析是确定两

46、个或两个以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。,1、最小二乘法原理,回归分析法的基本思路是:当数据分布在一条直线(或曲线)附近时,找出一条最佳的直线(或曲线)来模拟它。,归根结底,回归分析法就是根据最小二乘法原理,将变量之间的关系模拟成一个数学方程(也叫回归方程,或趋势线方程),以此来推断变量之间的关系的一种统计方法,所以回归分析法也叫数学模型法。,当实际值 与模拟值 差的平方和最小时,得到的直线(或曲线)最佳。即 最小时,得到的直线(或曲线)最佳,这就

47、是最小二乘法原理(二乘就是平方)。,那么,怎样的直线(或曲线)最佳呢?,2、决定系数,当变量之间的关系可以用一个数学模型来模拟时,我们用决定系数(R 2)判定数学模型的拟合效果。,在数学上,决定系数 2=2 2(是实际值,是模拟值)。,决定系数 2 越接近于1,说明数学模型的模拟效果越好。当两个变量线性相关,并用直线方程来模拟时,2=2。,3、利用Excel进行一元线性回归,(1)在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用函数y=kx+b 来模拟,这种回归分析称为一元线性回归。(2)如果在回归分析中,包括一个因变量和多个自变量,且因变量和自变量的关系可用函数y=1 1+2 2

48、+b 来模拟,这种回归分析称为多元线性回归。,案例操作(86-89页),相关系数为0.9697,非常接近于1,说明生产费用与产量高度线性相关。回归直线的方程为:=12.896+51.323。决定系数为0.9403,接近于1,说明用直线“y=12.896+51.323”模拟生产费用与产量的效果很好。,86页例1回归结果:,销售额与卖场面积的相关系数为0.979,与促销费用的相关系数为1.865,与地理位置的相关系数为-4.95。回归的方程为:=19.452+0.979 1+1.865 2 4.95 3,(1 是卖场面积、2 是促销费用、3 是地理位置),88页例2回归结果:,4、利用Excel散

49、点图和趋势线进行回归分析,因为回归分析的结果过于复杂和专业,对于初学者,我们还是建议大家用“先插入散点图,再添加趋势线”的方法求趋势线方程、相关系数和决定系数,最后根据决定系数的大小判定模拟效果的好坏,并根据趋势线方程做数据预测。,案例操作(89-95页),小结,利用回归分析工具进行线性回归的优缺点:优点:可以一元线性回归,也可以进行多元线性回归。缺点:只能进行线性回归,不能直接进行非线性回归。利用散点图和趋势线进行回归分析的优缺点:优点:不仅能进行线性回归,还能进行非线性回归。缺点:只能进行一元回归,不能进行多元回归。,4.5 综合评价分析法,综合评价分析法,是指运用多个指标对多个参评对象进

50、行综合评价的方法。综合评价分析法的基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价,例如,要说明我国的基本国情,可以通过国土面积、人口总数、国内生产总值、人均国民收入、森林覆盖率等指标来完成。,4.5.1 综合评价分析法应用,在平常的工作和生活中,我们经常会用到综合评价分析法。,例1、某学生某课程的平时成绩为90分,期中考试成绩为70分,期末考试成绩为80分,那么任课老师最后就会根据学校的一贯要求,就会综合考虑该学生这三个成绩,给出一个总评成绩9020%+7030%+8050%=79(分),这就是综合评价分析法的具体应用。,(1)确定综合评价指标体系,即包含哪些指标,它是综合

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号