《物联网工程自考-智能数据处理复习资料.docx》由会员分享,可在线阅读,更多相关《物联网工程自考-智能数据处理复习资料.docx(39页珍藏版)》请在课桌文档上搜索。
1、高纲1728江苏省高等教育自学考试大纲12577智能数据处理南京信息工程大学编(2018年)Ill课程内容与考核要求第一章物联网与产业发展一、学习目的与要求通过本章学习,要求了解物联网产业的发展历史,理解传感器与智能硬件的概念,了解物联网服务平台,了解工业4.0与CPS;理解物联网与大数据的概念及关系;理解物联网产业面临的挑战,理解物联网操作系统与数据库,理解物联网大数据处理与应用。二、课程内容(考试内容)三、考核知识点与考核要求1 .物联网产业的发展领会:传感器与智能硬件的概念。传感器通常由敏感元件和转换元件组成,能够检测感受到的信息按一定规律转换成电信号输出,以满足对信息的传输、处理、显示
2、、记录和控制等要求智能硬件:家庭安防、空气净化器、智能路由器、智能插座、智能灯泡等等简单应用:物联网服务平台,工业4.0与CPS2014年8月苹果WWDC(国际消费电子展)大会上发布了HomeKit平台主要为智能硬件开发者提供IOS上的数据、控制接口,实现利用苹果设备作为智能家居的控制中心工业4.0的IK念由德国在2011年的汉诺威工业博览会上第一次提出。信息物理系统(Cyberphysicalsystems,简称CPS)作为计算进程和物理进程的统一体,是集成计算、通信与控制于一体的下一代智能系统。信息物理系统通过人机交互接口实现和物理进程的交互,使用网络化空间以远程的、可靠的、实时的、安全的
3、、协作的方式操控一个物理实体。“工业4.0”与“CPS”在本质上是异曲同工的,其战略核心是制造智能化。它们的目标在于通过物联网、信息通信技术和大数据分析,把不同设备通过数据交互连接到一起,让工厂内部,甚至工厂之间都能成为一个整体,在自动化之上形成制造的智能化。2 .物联网与大数据领会:物联网与大数据的概念、关系、作用意义。近年来随着互联网的飞速发展,特别是随着电子商务、社交网络、移动互联网及多种传感器的广泛应用,以数量庞大、种类众多、时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显。传统的数据存储、分析技术难以实时处理这些大量的非结构化信息,大数据的概念应运而生。对于“大数据”,IT
4、研究机构Gantner给出了这样的定义,伏数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”3 .物联网产业的机遇与挑战挑战:1 .多数的受访者表示他们对数据隐私和个人敏感信息安全等事务相当担忧数据安全和个人隐私泄露的危险将大大增加。2 .物联网缺乏一套通用标准,也没有保障兼容性和易用性的相关技术。3 .大数据处理的难度不仅仅在于数据量大,因为计算机系统的扩展可以在一定程度上缓解数据量大带来的挑战。而大数据真正难以对付的挑战来自数据类型多样、要求及时响应和数据的不确定性机遇:物联网技术的发展将和大数据技术紧密结合起来,将成万上亿计的传感器嵌入
5、到现实世界的各种设备中,获取来自传感器的数据,对其进行智能化的处理、分析、挖掘出物联网大数据在单个物联网设备及传感器条件下完全不同的价值,从而提供更加深化、智能、贴近于用户的产品及服务,这将是物联网产业发展面临的一大机遇。领会:物联网产业面临的挑战,物联网操作系统与数据库,物联网大数据处理与应用1.微软推出了Windows物联网开发者计划,目的是为小物件装上Windows操作系统2 .ARM推出了专门针对物联网领域的mBed物联网设备平台,包括三个方面:mBedOS、mBed设备系统管理、mBed社区。其中OS在设备端落地、DeviceServer做管理端操纵、社区提供技术支援。3 .谷歌推出
6、了基于安卓开发的针对物联网智能家居平台的操作系统,名为“Brillow新的操作系统属于物联网的底层操作系统,旨在对硬件需求最低化,能够实现端到端的设备连接,以安卓为核心,保留最基本的内核功能,可与任何安卓设备轻松对接。4 .2015年华为网络大会上发布的1.iteOS,是全球最轻量级的开源物联网操作系统,只有IOKB,具有零配置、自发现、自组网、跨平台的功能四、本章关键问题物联网与大数据,物联网操作系统与数据库,物联网大数据处理与应用。第二章大数据处理技术的发展一、学习目的与要求通过本章学习,掌握大数据的基本概念及其剖析过程,理解大数据的若干关键技术,并进行适当的总结,理解大数据技术对整个产业
7、链的调整和重构,对经济转型的推动作用。理解大数据技术为发展物联网等新兴产业和促进传统产业升级提供的基础作用。了解大数据面临的挑战,尤其是其规模效应给数据存储、管理及分析所带来的巨大压力,了解大数据技术的发展趋势。本章要求从三个方面学习大数据处理技术的发展,包括大数据存储和管理技术,大数据计算技术和大数据分析技术。二、课程内容(考试内容)三、考核知识点与考核要求1 .大数据存储和管理技术Sun公司开发了网络文件系统(NetWorkFileSystem,NFS),这就是最初的分布式文件系统。分布式文件系统搭建在传统文件系统之上,它必须允许用户在企业内部网上的任一计算机上访问自己的文件,程序可以像对
8、待本地文件一样存储和访问远程文件。分布式文件系统必须解决的一些基本问题(教材P13页段落中)SAN(StorageAreaNetwork)存储区域网识记:三类面向大数据的数据库系统。2 .并行数据库并行数据库是指那些无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQ1.语句查询,但为了能够并行执行SQ1.的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQ1.查询的分区执行。+3 .NoSQ1.数据管理系统传统关系数据库发展已有四十多年的历史,出现了很多的成熟应用和应用广泛的的关系数据库管理系统,如OraCIe(甲骨文)、MSSQ1.SerVer和
9、MySQ1.等NoSQ1.是NotOnlySQ1.的缩写,NoSQ1.数据存储和管理系统是指那些非关系型的、分布式的、不保证遵循ACn)原则的数据存储系统,并分为key-value存储、文档数据库和图数据库这三类。4 .NeWSQ1.数据管理系统NewSQ1.是对各种新的可扩展/高性能数据库的简称,这类数据库不仅具有NoSQ1.对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQ1.等特性。领会:面向大数据的文件系统,面向大数据的数据库系统的基本思想和应用。Sun公司开发了网络文件系统(NetWorkFileSystem,NFS)-*SAN(StorageAreaNetwork)存储
10、区域网-Google文件系统(GFS)-雅虎工程师根据GOogIe公开论文开发的HDFS-加州大学SantaCruz分校的SageWeil设计的Ceph2.大数据计算技术识记:大数据的两类处理模式;流处理计算模式的概念和两种典型的处理方式。大数据的应用类型有很多,主要的处理模式可分为两种:批处理计算模式和流处理计算模式。批处理是先存储后处理,流处理是直接处理流处理的计算模式将要处理的数据作为流数据来对待,当新数据到来时立刻处理并返回需要的结果。流数据具有持续到达、规模大且速度快等特点。流处理计算模式有两种典型的处理方式。一种是真正的流处理方式,其计算是针对一条新的纪录进行一次,如Storm,其
11、响应时间可以达到毫秒级。另一种是“微批处理”方式,是将流数据分为很多小的片段,针对每个片段进行一次处理,如SparkStreaming,响应时间难以达到毫秒级领会:批量数据的3个特征。1 .数据体量巨大。数据量级别从TB跃升到PB级别及以上,数据是以静态的形式存储在硬盘中,很少进行更新,存储时间长,可以重复利用。2 .数据精确度高。批量数据往往是从应用中沉淀下来的数据,因此精度比较高,是企业的一部分宝贵财富。3 .数据价值密度低。以视频批1:数据为例,在连续不断的监控过程中,有用的数据可能仅仅只有一两秒。因此合理利用算法才能从批量数据中抽取有价值的数据。简单应用:MapReduce编程模型,理
12、解其技术优势和局限性MapReduce编程模型:批处理计算模式主要采用MapReduce编程模型。MapReduce编程模型可以很容易的将多个通用批处理文件和操作在大规模集群上并行化并具有自动化的故障转移功能。技术优势:1 .采用无共享大规模集群系统,集群系统具有良好的性价比和可伸缩性2 .模型简单、易于理解、易于使用在处理大规模曲时可以将很多的繁琐细节隐藏起来(如自动并行化、负载均衡和灾备管理)极大地简化了程序员的开发工作。3 .在海量数据环境、IB要保证可伸缩性的前提下,通过使用合适的查询优化和索引技术,MapReduce仍能够提供很好的数据处理性能。MapReduce的局限性知识点在教材
13、P20页【交互式数据处理的代表系统Spark系统、Dremel系统;流式数据处理的典型应用Storm系统、Samza系统、SparkStreaming系统;大数据实时处理的框架:1.anlbda架构。】1.ambda架构是有Strom的作者提出的一个实时大数据处理框架(其它看教材吧P20P24)(不做重点)4 .大数据分析技术识记:针对不同数据类型,所采用的大数据分析技术;文本分析技术中的信息提取主题建模、摘要、分类、聚类、问答系统和观点挖掘技术。信息提取技术是指从文本中自动提取具有特定类型的结构化数据1 .主题建模建立在文件包含多个主题的情况。主题是一个基于概率分布的词语,主题模型对文档而言
14、是一个通用的模型,许多主题模型被用于分析文档内容和词语含义。2 .文本摘要技术从单个或多个输入的文本文档中产生一个缩减的摘要,分为提取式摘要和1括式摘要两种提取式摘要从原始文档中选择重要的语句或段落并将它们连接在一起,而概括式摘要则需要理解原文并基于语言学方法以较少的语句复述。3 .文本分类技术用于识别文档主题,并将之归类到预先定义的主题或主题集合中。机遇图表示和图挖掘的技术在近年来的得到了关注。4 .文本聚类技术用于将类似的文档聚合,和文本分类不同的是,文本聚类不是按照预先定义的主题将文档归类的。5 .问答系统主要用于如何为给定问题找到最佳答案,涉及问题分析、源检索、答案提取和答案表示等技术
15、。领会:大数据分析技术的必要性1 .大数据查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要。2 .新的大数据分析和查询工具可以使业务人员也能轻松上手实现自助自主分析即时获取商业洞察传统结构化数据分析;文本数据分析;多媒体数据分析;社交网络数据分析;物联网传感数据分析1 .传统结构化数据分析:在传统工业、电子商务、政务及科学研究领域所产生的大量的结构化数据2 .文本数据分析:文本数据包括电子邮件、文档、网页和社交媒体内容。文本数据分析是指从无结构的文本中提取有用信息或知识的过程3 .多媒体数据分析:多媒体数据分析是指从图像、语音等多媒体数据中提取知识。4 .社交网络分析:社交网络包
16、含大量的联系数据和内容数据,其中联系数据通常用一个图拓扑表表示实体之间的联系,内容数据则包含文本、图像和其他多媒体数据社交网络中的联系数据是一类典型的“图数据”四、本章关键问题面向大数据的数据库系统、批处理计算模式、大数据实时处理的架构1.ambda架构、大数据分析技术。第2篇技术解析篇第三章物联网大数据技术体系一、学习目的与要求本章包括物联网中的大数据挑战和技术体系。通过本章学习,对物联网中产生的感知数据发展有较为深入的理解,了解从工业企业自动化生产线及设备上的运行数据,以及随着工业4.0推进而带来的数据爆炸,感知数据呈现儿何级数增长的数量对物联网大数据的获取、传输、存储、分析、挖掘及应用面
17、临的各种挑战。理解互联网大数据和物联网大数据的异同,掌握物联网大数据的特征5HY。了解物联网大数据应用面临的技术需求及价值目标,及在此基础上进一步提出的面向物联网大数据进行处理分析的技术体系。掌握感知数据的概念,掌握物联网应用中的两种数据即结构化数据和半结构化数据。掌握物联网中感知数据处理的三个层次,感知数据的采集与传输、感知数据管理与实时计算、物联网平台与大数据中心。二、课程内容(考试内容)三、考核知识点与考核要求1 .物联网中的大数据挑战识记:互联网大数据的特征5Vo大量化Volume非结构数据的超大规模和增长,总数据的8090%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到
18、50倍。价值密度低Value大量的不相关信息,数据规模大但价值不高。数据类型繁多Variety大数据的异构和多样化,很多不同的形式(文本、音频、图片、视频、模拟信号),无模式或者模式不明显,不连贯的语法或句义处理速度快Velocity数据增长速度快,处理速度也快,时效性要求高,这是大数据区分于传统数据挖掘的显著特征。真实性Veracity大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。识记:物联网大数据的特征5HVo数据体量更大High-Volume:物联网的主要特征之一是传感器节点的海量性;同时,物联网节点数据生成频率高并且全
19、时工作,数据流源源不断,会快速积累更大体量的数据。传感器类型多,数据类型更多High-Variety:&数据真实性要求更高High-Veracity:物联网是真实物理世界与虚拟信息世界的结合,其对数据的处理及基于此进行的决策将直接影响物理世界,甚至一些反馈信息关乎设备的运行安全及周边环境与生命安全。数据量与数据价值成正比High-Value:积累越多的传感器数据越能发现数据变化的规律;有些情况下,甚至需要非常完整的数据集才能分析出所需的结果所以说数据量与数据价值成正比。数据产生速率更高,处理的及时性要求很高High-Velocity:领会:数据的可视化可视化是大数据分析与应用的重要途径,能够更
20、加直观的展现大数据的完整视图,并充分挖掘大数据的价值。大数据是大容量、高速度并且数据之间差异很大的数据集,因此需要新的处理方法来优化决策的流程。可视化方法可以通过表格、图标、图像等直观的表示数据。领会:工业大数据分析技术所需解决的“3B”问题&感觉没用不想记&D性(Beloi-Surface):洞爰数幅特征背后的意义2)碎片化(BroHo%避免数据的断续.保证连续且时态一直想的数据集.3)低质性OMBACnetCAN、1.onworks及0PC、SNP等。通过协议转换将采集的数据转变为内部数据流。感知数据采集协调器的框架和插件模型系统实现“框架插住T的结构,要求使用“松融合”设计,只有松耦合的
21、组件才可以被做成“插件”.插件的热插拔使得系统有非常好的可扩展性,以及方便系统升级与更新。感知数据采集协调器的数据交互模型感知数据采集协调器把源源不断涌来的数据按照优先级放入不同的数据队列,以便基于内存的实时数据管理器处理。感知数据的流数据处理典型特征感知数据属于典型的流数据。其具有流数据处理的典型特征1.数据触发模式,处理过程始终在线。2 .在数据流动的过程中进行处理与计算。3 .只对一段时间内的数据进行处理,感知数据对象内置的在线处理过程必须能够在确定的时间内完成否则会影响整个系统的性能。流数据在线处理过程针对采集的数据进行的常规处理内容1 .标记时间就:由于系统所采集的数据都具有很强的时间性,因此,所有