《模式识别与大数据.docx》由会员分享,可在线阅读,更多相关《模式识别与大数据.docx(9页珍藏版)》请在课桌文档上搜索。
1、学科分类号(二级)YUNNANNORMALUNIVERSITY本科学生毕业论文题目基于模式识别理论的大数据集的数据质量分析姓名张洪光学号114090428院、系物电学院电子系专业电子信息科学指导教师何文学职称(学历)教授基于模式识别理论的大数据集的数据质量分析摘要:随着互联网、挪移互联网和物联网的发展,我们已经切实地迎来了一个海量数据的时代,分析调研机构发布了新的数字宇宙研究报告从混沌中提取价值这一报告显示,全球信息总量每过两年,就会增长一倍。年,全球被创建和被复制的数据总量为O相较去年同期,这一数据上涨了超过,这相当于全球每一个人每天都去做亿次高分辨率的核磁共振检查所产生的数据总量。因此,数
2、据增长态势下,如何对海量数据进行管理及分析已经成为一个非常重要且紧迫的需求。而数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障。数据质量保证是数据仓库架构中的重要环节,在当今网络化的数据时代,数据质量成为理论研究和实际应用的热点问题。模式识别是世纪年代以来在信号处理、人工智能、控制论、计算机技术等学科基础上发展起来的新型学科,以其速度快,准确性高,效率高等显著特点对大数据处理方面有其特殊的优势。关键词:模式识别;大数据;数据质量分析大数据()是继云计算、物联网之后产业又一次颠覆性技术变革。对国家管理模式、企业的决策、组织和业务流程、个人生活方式都将产生巨大的影响。一、大数据的
3、意义(一)大数据的国家战略意义信息时代的海量数据,是支撑国家安全与发展的重要战略资源。谁占领信息技术优势,谁就会最大限度地存储、挖掘和使用“海量数据”,牢牢掌握“海量数据”开辟利用的主动权。有人形象地称之为“数据主权”。对于大数据在中国的作用,体现为四个方面:一是通过实施“循数管理”,可提高决策能力。比如,通过分析春节期间挪移用户漫游情况,掌握人口的流动规模与迁徙规律,可以为交通管理、铁路运输、公共安全管理等提供决策参考。二是基于大数据应用,逐步开放公共数据,打造透明政府,提高政府公信力。可率先效仿国际上做法,建立中央政府层面的公共数据服务平台,建立相关规范和制度,推动各个行业、各大企业在公共
4、服务领域数据的开放。三是基于大数据分析,监控重大社会事件,构建科学预警监控体系,更好地服务民生。利用遍布政府和社会各领域的数据,在医疗健康、食品卫生、道路交通、地质灾害、社会舆情、信息安全、国土安全等各领域进行智能分析研究,可以有效实现对于重大安全、危机、风险的防范和预警。四是各个行业都需要强化大数据意识,通过数据来提高效率、提升精细化和智能化水平,才干推动从中国创造走向中国创造,创造更大的价值。(二)大数据对企业的导向作用信息时代的到来,网民与消费者界限正在消弭,企业的疆界变得含糊,传统企业和互联网企业竞争矛盾加剧,数据成为核心的资本并将深刻影响企业的商业模式,甚至重组其文化和组织。大数据对
5、企业的作用表现在以下四个方面。第一,大数据时代将给网络广告市场的发展带来质的飞跃。大数据时代,众多互联网企业产生了规模庞杂的用户数据,既包括性别、年龄、地域、学历、职业等基本属性,也包括爱好、上网行为轨迹、购物行为习惯、用户间的关联度等深层次的属性。大数据的价值在于为广告主和代理公司更高效、更准确地锁定目标受众打下了坚实的基础。第二,互联网企业对海量数据的深入挖掘,有助于加深其对于用户行为、爱好等方面的了解,为用户打造个性化的服务,并针对产品及服务进行优化。第三,互联网企业通过对大量数据的分析研究,可以实现对市场新需求的及时把握,带来产品、服务乃至商业模式的创新。第四,面对大数据的浪潮,对于互
6、联网企业而言最为关键的挑战是实现对海量数据的实时监测,并依据监测结果进行实时决策。(三)大数据对个人的影响国家对大数据的重视,使得每一个人对社会的需求得到了回应,个人对的衣、食、住、行等方面的要求有了及时的响应;企业在大数据时代迎来的挑战和重大转型也影响着个人学习和生活的方向;同时,大众作为国民,也做为消费者的角色也能在国家和企业的发展方向上起着决定性的作用。二、大数据引起的变革(一)大数据内涵()大数据的四个主要特征大数据的个典型的特征,即所谓的个“”多样性()体量()速度()价值()0多样性是指,数据类型多,应包含结构性和非结构性的数据,体量是指聚合在一起供分析的数据量必须是非常庞大的,而
7、速度则是指数据处理的速度必须很快,价值体现在价值密度低,商业价值高。干JS磐既产多性性体量图片.widt 城音第A信总*u*事川*息dc就依察宇婿犬修台 及明.到2020年.金心 意使网里修rt,M4M送到 36_2ZB图:大数据的四个特征()大数据主要来源国家数据检测统计中心,企业内部的经营交易信息,物物流信息,互联网世界中人与人交互信息、位置信息等是大数据四个主要来源。国家统计局,地理信息监测,国家安全信息局等实时获取政治、经济、生活、安全等数据;企业内部包括联机交易和联机分析数据,如阿里巴巴、淘宝等;来自社交网站的数据,如新浪微博、等的数据。企业消费者供应链MJ大交易数据.大交互数据SN
8、S互联网物联网移动翁调大数据处理SOCIAL Mrou DATAORLME TRAMSACnOH PROCESSING (OLTPJOHUKE Amalytical FRocesamo (OLAp8 DWAPrUAMCcAOTHER IIfTriUCTlOM DATACIeftMrBM( wUfaH,wf SclMUfAMMtCtMJ IOVtWUMRB AMirOMB图:大数据来源大数据触合()大数据赋予我们预测未来的能力一一数据分析数据分析对国家制定发展计划,对企业了解客户需求,把握市场动向。数据分析,首先是数据质量分析,数据质量包括数据完整性、一致性、准确性、及时性;数据质量分析又涉及到
9、数据采集,处理和应用三个方面。数据分析的个层次。一是可视化分析,直观展示数据,让数据说话;二是数据挖掘算法,给机器看数据;三是语义引擎,解析、提取、分析非结构化数据;四是预测性分析;五是数据质量管理。()数据分析的处理方法一一模式识别模式识别是对表征事物或者现象的各种形式的(数值、文字和逻辑关系)信息进行处理和分析,以对事物或者现象进行描述、辨认、分类和解释的过程。通常使用方法为决策理论方法和句法方法。决策理论方法。首先将被识别的对象数字化,变换为合用于计算机处理的数字信息,一个模式常需要很大的信息量来表示。排除干扰鉴别函数数字化k预处理特征抽取分类 分析对象空间特征空间决策空间图:决策理论鉴
10、别函数:由特征矢量计算出的相应于各类别的鉴别函数值,通过鉴别函数值进行实体分类。句法方法也叫结构方法或者语言学方法。其基本思想是把一个模式描述为较简单的子模式的组合,子模式又可描述为更简单的子模式的组合,最终得到一个树形的结构描述,在底层的最简单的子模式称为模式基元。在句法方法中选取基元的问题相当于在决策理论方法中选取特征的问题。个模式简单的子模式更简单的子模式模式基元三、大数据的技术发展()大企业的技术战略大数据是迈向智慧世界的自然演进,用托夫勒第三次浪潮一书中的说法,如果说的主机拉开了信息化革命的大幕,那末“大数据”才是第三次浪潮的华丽乐章。旧“拼觉华*裨供一个学而的闩*前所京常如信同爆t
11、iir,因为信且曼克诧笈次里、种曼、板式是W力L都是尾与式t?”2J10T1JR收呻分析”件供应通(.OBTarCS2X晔1旧卬叼IMf分似住雁伊周SPSS.在黄121M2309年1月收购n勇规则及软件供应BiLoG,在会3亿4Y万美元2X7年花/N)亿美元的的Ai4智能IW供应商CMng杉渔屯伊电合作的阳珞平8,也彳3管处;SLlBMMNihjp二。CIalq计.口/l.tW业MIIl务(MMMS)IrfoSphprsbnsohts.最干PaCMH”oop2010*6月,金/与使用开源往木校台海眇据分析Ixtff)ApacbHadooP合作Cj户品照育内招f包的acheHacooof*tra
12、clnsqhtefomdata Nn阳1月,北卡界*5州“明旧”去麻豉中.U南乜樗空和穴Gd的大学研亢”月的冷皆和修作机会的力程 其他户;He4.大美日科馆无图:的布局微次馄中了甚理能X算能力井006年旅即ndowComputeCIUGQr服务符进入相美疥场七.NtTtfTHn升岌公SKUryad并仃处&穴在工技*置山口P)*-i是HPCSMY。面明IB crtFrvmrwsMfsc rvRrhit-w,*X作口 w+y-&钊幡斗牛A力和内高4他 度的设WnJJW5ShhK人的离忡统计短的次方事.il* Or以在*c环电内质胃.rs.万博路忡软力件工及 a以开友re”国用的分R式i UGi*对
13、热爱化 DLINXI弋了基TUf “d的应即秘于过理餐IJ上开发了基本局时将侵工具(DLAS,,用京利 即三行土命相中的研亢尾五ZJrC上逅行搜宓号8来打 馅比合物的大生敷珞厚以司求四配效密公”宣有他本m本的超级/算机-Ojb2g2T破了界晤.*户 HFC Serve-tj*MLuyJTSEtWIfrIM唳琳IhiffWWrrVVndcw HPC SreMd WVLojx图:微软的新技术w.千膏丈夫女籍健供打室提庠罚或据序承件主费用于配合SUn n*,t.特刈建它n身“育,服29年7月地岫专注于数据复匐制度里散地T成朝,方案 妁U人企业XIdEn3te Strwaremrr三M岬备文正大雷IR
14、竹炀宜、竹心产品EXadYa ST”体起伊Tl决万案9在F大公 Ie处整.主K5甲于石汕和天然,切极慎犹(附注. 年运营收入1,亿兆元)Edog(, HEi+,款先ExRdL). ,4togk.BJ 以Ha处建一d万个HnPS束.Mi-=IiM*H的 LaCbeeok.SunSPARC SUDefZQSieu ttRACfl mnt*Fat 数公叵的先要墓也方事最if.甲膏文力的EXMjI3X2启*力了STB的内存便点. Recently. Oracle 3rtie3 5TB Ot solid lalede*s GarUBank HongkOnghwsngautMW Co-YWnofWoat
15、Baru Dkslcfl Sencondtctor FdRvtjling Hut*r, Inc. Link Sh rv. I nc SKTdecom Softbank Targibxo TurKeI图:甲骨文的角色()大数据具体处理方法合用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:位数组个独立函数。将函数对应的值的位数组置,查找时如果发现所有函数对应位都是说明存在,很明显这个过程并不保证查找的结果是正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是,用一个数组代替位数组,就可以支持删除了。合用范围:快速
16、查找,删除的基本数据结构,通常需要总数据量可以放入内存基本原理及要点:函数选择,针对字符串,整数,罗列,具体相应的方法。碰撞处理,一种是,也称为拉链法;另一种就是,也称开地址法,O堆合用范围:海量数据前大,并且比较小,堆可以放入内存。基本原理及要点:最大堆求前小,最小堆求前大。方法,比如求前小,我们比较当前元素与最大堆里的最大元素,如果它小于最大元素,则应该替换那个最大元素。这样最后得到的个元素就是最小的个。适合大数据量,求前小,的大小比较小的情况,这样可以扫描一遍即可得到所有的前元素,效率很高。数据库索引合用范围:大数据量的增删改查基本原理及要点:利用数据的设计实现方法,对海量数据的增删改查
17、进行处理。外排序合用范围:大数据的排序,去重基本原理及要点:外排序的归并方法,置换选择败者树原理,最优归并树。树合用范围:数据量大,重复多,但是数据种类小可以放入内存基本原理及要点:实现方式,节点孩子的表示方法。分布式处理合用范围:数据量大,但是数据种类小可以放入内存基本原理及要点:将数据交给不同的机器去处理,数据划分,结果归约。()数据分析的杀手铜模块化处理多种数据类型推出了自己的软件工具和模块化将支持关系型数据库,部署也能在同样的设备上得到支持。借助,能够解决诸如网络点击数据、非结构数据等真正大数据分析的艰难。模块化的也能够在同样的设备上支持长期保留的高容量的存储模块,从而满足监测需求。、
18、和提炼大数据是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或者非结构化、真正意义上的大数据(通常成百上千的甚至级别数据)应用。网络点击和社交媒体分析应用,正在极大地推动应用需求。提供的(和其他一些环境)是处理大数据集理想解决方案。能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集之中,从而更容易分析得出最后的结果。、惠普电子商务分析是能提供高效数据存储和快速查询的列存储数据库实时分析平台。相比传统的关系数据库,更低的维护和运营成本,就可以获得更快速的部署、运行和维护。该数据库还支持大规模并行处理()o惠普推出的基于硬件的
19、,通过的扩展性可以让为高端数字营销、电子商务客户仕匕如、)分析处理的数据达到级。、提供运维和分析数据仓库基于的是具备高扩展性企业数据仓库的平台,可以支持成千上万的用户和各类应用操作。比如,呼叫中心通常拥有大量的雇员需要快速回拨客户的历史通话记录。提供了整合信息的数据库,预配置软件模块,可以在(或者架构)上运行。致力于为数字化营销公司、电信、和其他挖掘成百上千甚至级别数据的公司,提供高可扩展分析应用的解决方案。的数据仓库设备,支持大规模并行处理,可以在一天时间内部署完毕。支持多种语言和方式进行数据库分析,其中包括、和。与此同时,它还支持如,使用的矩阵操作方法和编程语言。、减少工作量和查询时间列存
20、储数据库,旨在为数十级别数据提供各类分析服务。而这一块也正是甲骨文和微软的核心市场之一。还表示,建立在基础之上的数据库也提供了此外一种选择,它专门针对分析应用、低成本简化劳动力工作、交付高性能的服务进行设计。列存储数据库能够自动创建索引,而且无需进行数据分区和调整。相比传统数据库,它可以减少的人工工作量,而且由于其采用高数据压缩,在数据库许可和存储等方面的开支也可以减少一半。、提供三倍速度和虚拟多维数据集能够以低成本、数据存储和每一个模块个运算核心提供大容量存储服务。电信或者金融服务公司,可以使用这种配置来扫描大量的分支结构的各种信息记录。则提供了容量和速度之间的平衡,预配置为存储容量,它的每
21、一个模块拥有个运算核心。而追求查询性能的,其预配置提供有个运算核心,每一个模块仅仅为O该产品方案主要针对金融公司在算法交易或者其他高性能要求方面的需求。、微软新增功能微软发布的(,并行数据仓库),一改以往部署时间需要花费两年半时间的历史,它可以匡助客户扩展部署数百级别数据的分析解决方案。、甲骨文讲述的故事使得甲骨文数据库,可以支持基于的数据处理和磁盘存储层,其闪存缓存也使得可以实现超快速查询处理。它既可应用在任意事务环境中,也可以应用在数据仓库(但不能同时进行)。的混合柱状压缩能够实现列存储数据库的某些高效率特点,提供高达的压缩比,而大部分行存储数据库的平均压缩比为。事务处理和数据仓库性能相比
22、传统服务器架构能分别带来倍和倍速度提升。、大打列存储、和数据库分析组合拳是()的开辟厂商提供快速、选择性查询和列存储数据库,并基于大规模并行处理优势特点的产品。内置的分析算法可以为分析师提供高级数学运算、数据统计、和数据挖掘等各种功能,同时,它还提供一个开放的,可以扩展数据库的各种数据处理能力和第三方分析应用。、推进列存储数据库能够处理更多数据和更多数据类型,也能胜任更多查询,基于大规模并行处理的分布式查询平台,通过将任务分散到网格配置中的多台计算机,加速了高度复杂的查询。它能提供比现有的部署快倍的交付能力。、提供基于云计算大数据分析能够提供基于云计算的大数据分析平台。很大数据库平台供应商提供
23、基于云的沙箱测试和开辟环境,但的管理数据库服务,主要针对将整个工作负载迁移到云的全过程。该服务支持一种提供“丰富而又高级的内置分析功能”,其中包括有预测分析。其一大卖点是服务包括了数据建模和设计、信息集成和数据转换。四、总结大数据可能最终成为决定国家,而不仅仅是企业如何竞争和兴旺的关键因素。毫无疑问,它们给努力寻觅实现更加快速增长的经济体带来一线希翼。通过投资和前瞻性政策,企业领导人以及政府领袖可以充分利用大数据的好处,而不是被其迷惑,不知所措。而加强对大数据的分析和研究,则为更好预测国家和企业方向的提供有力的依据,因此通过不同的技术改进大数据分析的方法显得尤其重要。参考文献:边肇祺,李介谷,李弼程,张学工等编著模式识别(第二版)北京:清华大学出版社,蔡国廉计算机模式识别技术上海:上海交通大学出版社,邵美珍等模式识别原理及应用西安:西安电子科技大学出版社,王珊等架构大数据:挑战、现状与展望计算机学报,