《探索性数据分析.ppt》由会员分享,可在线阅读,更多相关《探索性数据分析.ppt(19页珍藏版)》请在课桌文档上搜索。
1、探索性数据分析,Exploratory Data Analysis(EDA),第一章 导 言,一、问题的提出 1962年发表The Future of Data Analysis,做了奠基性的工作。Exploratory Data Analysis成为探索性数据分析(EDA)的第一个正式出版物。1983年出版的Understanding Robust and Exploratory Data Anolysis,本书是它的翻译与发展。,第一章 导 言,二、定义 探索性数据分析是对调查、观察所得到的一些初步的杂乱无章的数据,在尽量少的先验假定下进行处理,通过作图、制表等形式和方程拟合、计算某些特征
2、量等手段,探索数据的结构和规律的一种数据分析方法。,第一章 导 言,三、特点 首先,它的研究从原始数据入手,让数据说话;第二,它的方法从实际出发,不以某种理论为根据;第三,它的分析工具简单直观,更易于普及。,第一章 导 言,四、四个主题 1、耐抗性(Resistnace)即对数据的不良表现(如极端值或称奇异点)不敏感,也就是说对于数据的任意一个小部分的很大的改变,或者对于数据的大部分的很小改变,(统计)分析或概括仅产生很小的变化。,2、残差(Residuals)残差是从原始数据中减去概括性统计量或所配合模型的趋势值后所剩余的部分。其公式为:残差=原数据一拟合值,3、重新表述(Re-expres
3、sion)重新表达(Re-expression),涉及到运用何种尺度会简化分析。,4、图形启示(Revelation)探索性数据分析强调数据图形的启示作用,它能使分析者看出数据、拟合以及残差的行为,从而抓住数据中意想不到的特点。,第一章 导 言,五、用数据分析技术的整个操作步骤大体可划分成两大阶段:探索阶段证实阶段 探索性数据分析强调灵活探求线索和证据;而证实性数据分析则着重评估现有证据。无论是对一大组数据,还是对相继的几小组数据作分析,一般都要经过这两个阶段;通常还要交替的使用探索性技术和证实性技术,循环 反复多次,才能得到满意的结果。,第一章 导 言,六、探索性数据分析的现状和前景,七、课
4、程主要内容,第二章 茎叶图,一、功能 最普通的数据结构是一批数,我们称之为一个“批”。即使这么简单的数据结构,也有某些特征不容易由审视或细察这些数看出来。茎叶图提供了一种开始分析一个数据批或一个数据样本的灵活而有效的技术。1、看到整个一批数;2、接近对称的程度;3、有多大展布(离散程度);4、是否有些数远离其余数(离群值或异常值);5、是否有数据集中;6、数据中是否有间隙(7、容易发现中位数或其他总括统计量8、可以看出数据值区间分布模式),第二章 茎叶图,二、基本茎叶图的构造 把一批数据从小到大排序并且显示这个批。现在用一个例子说明茎叶图的构造过程。表2一1给出21个妇女的平均月经周期。,二、
5、基本茎叶图的构造,表2一1 21名妇女的平均月经周期以下我们构造最简单形式的茎叶图。,第二章 茎叶图,三、深度1、数值深度的定义把一批数据进行排序,某一数值在升序排列中的位次是它的升秩;该数值在降序排列中的位次是它的降秩。数据值的升秩和降秩这两者的最小值,叫做这个数据的深度(Depths)。升秩+降秩=n+1,三、深度,2、行深度的确定除中行以外,深度(Depths)列中的数是这一行数据深度中的最大深度。“中行”中位数所在行,三、深度,3、作用有些总括值(例如,中位数以及四分数)可以很容易地用它们的深度来定义,所以,在茎叶图中显示数据的深度是有用的。“中行”包含中位数,在深度列中用括号括起来的数是中行所包含叶的数目,将此叶的数目数加上相邻两行的深度,应该等于批容量,这可以检查分析中有没有遗漏数据值。,