《大数据挖掘课程报告材料.doc》由会员分享,可在线阅读,更多相关《大数据挖掘课程报告材料.doc(8页珍藏版)》请在课桌文档上搜索。
1、word绪论数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。1数据是对客观事物记录下来的、可以鉴别的符号,这些符号不仅指数字,而且包括字符、文字、图形等等;数据经过处理仍然是数据。处理数据是为了便于更好地解释,只有经过解释,数据才有意义,才成为信息;可以说信息是经过加工以后、并对客观世界产生影响的数据。 2信息 (1nformation) 是对客观世界各种事物的特征的反映,是关于客观事实的可通讯的知识。 3所谓知识,就是反映各种事物的信息进入人们大脑,对神经细胞产生作用后留下的痕迹。知识是由信息形成的。 4在管理过程中,同一数据,每
2、个人的解释可能不同,其对决策的影响可能不同。结果,决策者利用经过处理的数据做出决策,可能取得成功,也可能失败,这里的关键在于对数据的解释是否正确,即:是否正确地运用知识对数据做出解释,以得到准确的信息。数据(1) 数据类型:左边这图中包含bool,string,int三种类型。一个数据集中的所有数据对象都具有一样的数值属性集,如此数据对象可以看作多维空间的点,每个维代表描述对象的一个不同属性行:对象列:属性(2) 数据质量(3) 数据预处理(4) 相似度和相异度的度量聚类和分类在这里主要学习和应用了决策树的知识。决策树的结构 一棵决策树是这样一棵树,该树的每个非终端点均表示被考察数据项目的一个
3、测试或决策。根据测试结果,选择某个分支。为了分类一个特定数据项目,我们从根结点开始,一直向下判定,直到到达一个终端结点(或叶子)为止。当到达一个终端结点时,一个决策树便形成了。 决策树是运用于分类的一种类似于流程图的树结构9。其中的每个部节点(internal node)代表对某个属性的一次测试,一条边代表一个测试结果,叶子(leaf)代表某个类(class)或者类的分布(class distribution)。最上面的节点是根结点。这就是一颗简单的决策树。决策树的特性:决策树有很多的优点,是实际应用和学术研究领域最普遍采用的方法之一。主要特点有: 1灵活性 决策树不需要对数据的分布进展任何假
4、设,它是非参数方法。事例空间被分成子空间,每一个子空间适用于不同的模型。一棵决策树能完全包含一个事例空间,如果有足够的数据,它能近似任意函数的最优贝叶斯错误率。 2健壮性 对单变量经过单调转换后的输入,单变量树的输出是不变的。例如,对x,log2x,或者作为第j个输入变量,会产生同样结构的树。因此没有必要考虑输入变量的转换式。另外由于对部属性进展了选择,相对于有不相关输入变量的情况,而产生的树更加具有健壮性。 3可解释性 全面的和复杂的决策可以通过一系列简单和局部的决策近似取得。所有的决策都是用来描述该问题的属性值上的。决策树具有这两个特性,具有可理解性和可解释性,它们是决策树被广泛使用的原因
5、。4速度 决策树算法采用自上而下,分而治之,不需要回溯战略的一种贪婪算法。时间复杂是与例子的数目成线性关系的同样,决策树也面对一些问题: 1分块 分块使得数据被分成较小的子集。假定每次分枝数据都分成相等大小的数目,那决策树所要测试的属性的复杂度不大于O(logn)。在有许多相关属性的情形下,这是理想的结果。 2复制 子树的复制指的是在不同的分枝复制一样的属性测试。由于属性间存在相关性项性(一个结果可由多个条件决定),例如,布尔函数f=X1X2+X3X4中属性X1和X2,或者属性X3属性X4间不是相互独立的,而是存在相关性;另外该布尔函数有多个乘积项X1X2和X3X4。出现这种情况时,生成的决策
6、树会有子树复制问题。复制现象导致决策树理解,同时还导致分块问题:当树很大时,会造成数据集的划分越来越小,从而性能越差。 3缺值 决策树是一种层次测试方法,如果某个属性值未知的话,就会难以决定下一步分枝,因此必须使用特殊的机制来处理缺值的问题。 4连续属性 决策树算法的瓶颈是对连续属性的处理。在这种情况下,要在每一个节点对每一个属性进展一系列的操作。有学者认为处理许多的连续属性的操作占决策树构造过程70%的时间。 5不稳定性 训练集的小的变化能引起最终的树发生很大的变化。在每一个节点,分枝度量准如此对属性进展排列并选择最好的属性进展排序。如果有两个以上的属性具有一样的排序值,如此训练集数据的小的
7、变化就能改变排序,该节点下面的子树就会发生变化。这种递归的分枝战略明确对于每个产生的分枝,数据集基于测试属性被分割,在进展了一些分割后,通常就只有非常少的数据进展决策,因此靠近叶节点做出的决策就没有在根节点附近做出的决策可靠。聚类聚类类型:层次聚类:簇具有子簇;嵌套簇的集族,组织成一课树划分聚类:将数据对象集划分成不重叠的子集,使每个数据对象恰在一个子集中在学习聚类的时候主要使用了k-means算法;n k-means:1:先将每个对象作为一个簇;2:然后这些簇根据某些准如此被一步步地合并;两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度来确定。3:重复上述过程直到所有的对象最终满足
8、簇数目总结在这个信息化的时代,处理大量混乱而又复杂的数据的一个很好的方法是分类,在分类技术的开展过程中,流行的几个技术是贝叶斯分类、神经网络、遗传算法和决策树等。与神经网络和贝叶斯分类比拟,决策树更容易被人们理解。而且,训练一个神经网络将花费大量的时间和进展上千次的迭代,生成决策树如此要有效得多,因此,适用于大的训练集。另外决策树生成算法除了包含在训练数据中的信息外不要求其他的信息(例如,领域知识或数据/类的概率分布的预知信息),且决策树还表现出很好的分类准确度。并且,与其它分类方法比起来,决策树算法的根底理论清晰、更加容易被人们理解、能够直接显示出数据所具有的特点以与数据之间的相互关系,并具
9、有较好的分类预测能力,因此对决策树算法的研究有着重要的研究价值和实际意义个人学习小结:说一下我的几次作业吧:抽样作业总体样本特征1. 数据对象1502. 每类花比例1:1:13. 每一个数值属性最小、最大、平均值抽样样本数目:10303Iris-setosa4Iris-setosaIris-setosaIris-setosa每个属性的最大、小以与平均值在这次作业中我学会了excel的根本应用,以与公式的运用。当把表格转为excel的 avi格式后可以再weka软件中直接将属性的最大、小以与平均值统计出来。分类作业作业容1. 从Iris数据集中每一类花的数据对象各取出30条共90条作为训练数据,
10、根据前四个数值属性计算各类花的中心点。2. 从剩余的60条记录中任取15条作为测试数据3. 根据基于距离的分类方法,对这15条记录的类别class属性重新判断,并计算分类错误率。分类错误率:A/BA:原始数据集的类别属性值与你分类后的类别属性值不同的记录数B:总的测试数据,15条这次作业说起来很凑巧,选的数据和很好,让我一个错误都没有出,分类错误率达到0%,这次作业花费的时间不多,注意:中心点就是分类好的平均值。千万不要一个个的打公式,注意excel的拖拉,能够快捷方便的实现功能。聚类作业:作业容1. 从Iris数据集中取不同class的数据对象记录共30条,并它们前四个属性的数据进展聚类实验
11、。2. 聚类要求:a) K均值算法b) K=33. 性能评估这个代码非常麻烦,我花了3个小时作业,敲了200多行的代码,工作量非常的大,直到最后值班的同学要关机房的门时,我还没有完成,是后来回去自己又做的。相似性作业:作业容从Iris Setosa、Iris Versicolour、Iris Virginica这三类花的数据对象中分别抽两组数据对象,根据前四维属性sepal length in cm、sepal width in cm、petal length in cm、petal width in cm计算各数据对象之间的相异度、相似度、相关系数这个也不难,就是把公式套进去就好了。在学习数据过程中,应用WEKA,excel,word,txt,记事本等很多工具,其中我收获最大的就是excel和weka工具,在聚类一章中,为了编程用到了 codeblock来写C+代码,虽然在学习这门课的过程中,但是收获颇多,乐趣颇多,在这一学期里没有缺过数据挖掘课,我迷恋上了数据挖掘这门即简单又充满了兴趣的课程。7 / 8