《大数据教程01第一章大数据概述.pptx》由会员分享,可在线阅读,更多相关《大数据教程01第一章大数据概述.pptx(52页珍藏版)》请在课桌文档上搜索。
1、,大数据基础教程,Fundamentals of Big Data,教材及参考书,内容安排,第一章,大数据基础,大数据基础教程 Fundamentals of Big Data,第一章 大数据基础,第一章 大数据基础,本章目标,1.1 大数据发展背景概述,1.1.1 引言,随着IT社区日益庞大,全球的大数据技术和服务市场,都有着巨大的收益。大数据的市场融合技术以及服务,正在形成迅猛发展的势头。学习掌握大数据技术,不仅是提高自身的竞争优势,同时也是顺应时代的要求。,1.1 大数据发展背景概述,1.1.2 发展历程,提出数据增长的挑战和机遇有三个方向:量、速与多变。,提出“BigData”的概念。
2、大数据得到较为广泛的认可。,欧洲领先的研究型图书馆与科技信息研究机构建立伙伴关系。,工信部发布的物联网“十二五规划”,信息处理技术被作为4 项关键技术创新工程之一被提出来。,德国联邦政府启动“数字德国2015”战略,实现全球互联。,1.1.2 发展历程,联合国在纽约发布大数据政务的白皮书大数据促发展:挑战与机遇。,互联网巨头发布机器学习产品。,“大数据”成为国内热议词汇。,大数据的在企业中的应用比例逐步上升。,大数据“十三五”规划出台。,第一章 大数据基础,1.2 大数据相关概念及特点,1.2.1 大数据特点,1.2 大数据相关概念及特点,1.2.2 相关概念介绍,1.云计算(Cloud co
3、mputing)NIST定义:云计算是一种按使用量付费的模式。中国云计算专家刘鹏教授定义:“云计算是通过网络提供可伸缩的廉价的分布式计算能力。”2.集群(Clustering)指将多台计算机或者服务器通过物理上以及软件上的部署,使其像一台计算机一样被使用。集群强调的是扩展。3.分布式(Distribute)指是将任务或者数据切分到不同的服务器进行计算或者存储,分布式强调的是切分。4.数据挖掘(Data mining)通过算法从海量的数据中搜寻隐藏的有意义的信息,这一过程被称之为数据挖掘。,第一章 大数据基础,1.3 大数据应用过程,1.3.1 数据采集,对数据进行采集是大数据应用生命周期中的第
4、一个环节,通常是使用ETL(Extract-Transform-Load)工具将分布的、异构的数据源中的数据。采集的方法主要包括以下三类:1.系统日志采集:收集业务日志数据供离线和在线的分析系统使用。目前常用的开源日志收集系统有Flume、Scribe等。2.网络数据采集:网络数据采集是指通过网络爬虫或调用网站公开API等方式从网站上获取数据的过程。3.数据库采集:一些企业会使用传统的关系型数据库MySQL或者Oracle等来存储数据。此外,像Redis和MongoDB这样的NoSQL数据库也常用于数据库的采集。,1.3 大数据应用过程,1.3.2 预处理,数据预处理是对采集到的原始数据进行清
5、洗、填补、平滑、合并、规格化以及检查一致性等操作的过程。数据预处理通常包含以下三个部分:1.数据清理:对源数据进行过滤、去噪,从中提取出有效的数据,主要的处理内容包含:遗漏值处理、噪音数据处理、不一致数据处理。2.数据集成与变换:将多个数据源中的数据整合到一个数据库的过程。集成数据需要重点解决模式匹配、数据冗余、数据值冲突检测与处理三个问题。3.数据规约:数据规约主要包括:数据聚集、维规约、数据压缩、数值规约和概念分层等。使用数据规约技术可以将数据集进行规约表示,在减小数据集规模的同时能保持原数据的完整性。,1.3 大数据应用过程,1.3.3 数据存储管理,将采集到的数据进行预处理后,需要将其
6、存储起来,便于管理和调用。用来对大数据进行存储和管理的数据库系统:1.分布式文件存储系统:主要特点是将复杂的问题进行分解,将大任务分解为多个小任务,然后通过使用多个处理器或多个计算机节点来进行计算从而提高解决问题的效率。2.NoSQL数据库:采用异于传统关系型数据库的设计思想,采用新的方案来解决传统关系型数据库在扩展性方面的不足。3.NewSQL数据库:NewSQL数据库既能提供SQL数据库的质量保证,也能提供NoSQL数据库的可扩展性。,1.3 大数据应用过程,1.3.4 数据挖掘分析,对数据进行挖掘分析的主要目的是找出隐藏在大量数据中有价值的信息,将其进行提炼,发现其中的内在规律,并根据实
7、际的业务需求,将这些有价值的信息应用到决策中。对大数据挖掘分析的研究主要有以下几个方面:1.可视化分析:将数据进行可视化,可以使数据的特点和规律更加直观清晰的展示出来,容易被读者接收,还能提高分析效率,加快分析速度。2.预测性分析:帮助分析结构化和非结构化数据中的趋势、模式和关系,并运用这些指标来洞察预测未来事件,为决策者进行决策提供帮助支持3.数据语义引擎:是语义技术最直接的应用,让用户更快、更准确、更全面地获取到所需要的信息。4.数据质量和数据管理:保证结果的真实性和价值性。,第一章 大数据基础,1.4 大数据技术,1.4.1 大数据集群,大数据集群是指由网络互相连接的多个独立服务器的集合
8、。主要用于解决数据库的负载均衡以及增加数据库服务器的可持续性,高可用性等问题。,1.4.1 大数据集群,大数据集群的模式负载均衡和冗余基于 DNS 负载均衡是通过 DNS 服务中的域名解析来实现负载均衡,在 DNS服务器中,可以为多个不同的地址配置同一个名字,而最终查询这个名字的客户机将在解析这个名字时得到其中一个地址。冗余模式,主要分为全冗余备份、互为冗余备份、中央备份服务器三种模式。,1.4.1 大数据集群,大数据集群的部署硬件部署、软件部署和高可用性部署硬件的部署:大数据集群目前支持所有主流的操作系统,如CentOS,Fedora,Ubuntu,AIX,Windows,SLES,Debi
9、an,RedHat等。软件的部署:在硬件集群已经建立完成的基础上,并行在各个节点上安装大数据分析处理系统,如Spark Cluster。高可用性部署:在硬件和软件部署的基础上,要达到高性能的部署,通常需要有主节点和多个次节点构成,以保证对海量数据的高效分布式并行计算。,1.4.1 大数据集群,大数据集群的优点高可扩展性集群。多个服务器可以执行相同的应用程序和数据库操作。高可用性群集。高可用性是指防止系统故障或自动从故障中恢复而无需操作员介入的能力。高可管理性集群。系统管理员只需要便捷的通过远程管理一个甚至是一组集群。高安全性集群。集群可以定时定期对整个集群系统进行备份,以保证数据的安全和可追溯
10、性。同时如果集群崩溃或出重大故障,集群可通过容灾机制快速恢复整个系统。,1.4 大数据技术,1.4.2 大数据技术架构,1.4.2 大数据技术架构,HDFS(Hadoop Distributed File System)HDFS是Hadoop的一个分布式文件系统,设计用于在商品硬件上运行。HDFS 采用的是主/从(Master/Save)架构。Master是Namenode,Slave是Datanode,HDFS集群由一个名称节点(Namenode)和一定数量的数据节点(Datanode)组成。其中 Namenode控制客户端对数据的访问和负责管理文件系统命名空间,是一个负责管理文件系统命名空
11、间和客户端访问文件的中央服务器。Datanode通常用于管理连接到节点的存储,即管理正在运行的节点上的数据存储。在内部,Datanode节点包含有一个或多个块(blocks)并将数据存储在其中,HDFS是使用Java语言构建的;任何支持Java的机器都可以运行NameNode或DataNode。,1.4.2 大数据技术架构,HDFS体系结构图,1.4.2 大数据技术架构,MapReduceMapReduce是一个用于处理和生成大型数据集的编程模型,其在集群上使用并行算法处理大规模数据集。MapReduce有两个阶段执行:Map(映射)阶段,Reduce(化简)阶段。Map阶段,先将输入的数据划
12、分成若干个独立的数据块,由Map任务并行将这些数据块分配到集群中的多个节点,形成Map 阶段。Reduce(化简)阶段,将Map的输出进行分布式并行计算,把计算结果合并到Reduce任务,从而得到最终计算结果。,1.4.2 大数据技术架构,MapReduce两阶段,1.4.2 大数据技术架构,YARN(分布式操作系统)YARN旨在提供更高效和灵活的工作负载调度以及资源管理功能,其基本思想是将资源管理和作业调度/监控的功能分解成单独的守护进程。Yarn框架有一个全局的资源管理器(RM)和一定数量应用程序的ApplicationMaster(AM)。,1.4.2 大数据技术架构,YARN工作原理,
13、1.4.2 大数据技术架构,HiveHive是一个数据仓库基础架构工具,用于处理Hadoop中的结构化数据。它位于Hadoop的顶部,用于概述大数据,并使查询和分析变得简单。HBase(分布式数据库)HBase是一个建立在Hadoop文件系统之上的分布式列式数据库。HBase位于Hadoop文件系统之上,提供读写访问能力。ZooKeeperZooKeeper是面向分布式应用程序的分布式开源协调服务。它允许分布式进程通过与标准文件系统组织相似的共享分层名称空间相互协调。,1.4.2 大数据技术架构,SparkApache Spark是一个开源的集群计算框架。用于大规模数据处理的快速和通用引擎。S
14、park有助于实现迭代算法,循环访问数据集多次,实现交互式/探索性数据分析,即进行重复的数据库式数据查询。Pig(用于开发MapReduce操作脚本的过程语言平台)Pig执行环境有两种模式:本地模式。所有脚本都在一台机器上运行Hadoop模式。也称为MapReduce模式,所有脚本都在Hadoop集群上运行。,1.4.2 大数据技术架构,Sqoop(SQL-to-Hadoop)主要是用于在HDFS和RDBMS之间导入和导出数据,能够从非Hadoop数据存储中提取数据,将数据转换为Hadoop可用的形式,然后将数据加载到HDFS中。Sqoop有四个关键特性:批量导入。直接输入。数据交互。数据导出
15、。Flume(日志收集)Flume是一个分布式的、可靠的、可用的服务,可以高效地收集、汇总和移动大量的日志数据。它具有基于流式数据流简单而灵活的体系结构。同时它有可调谐的可靠性机制和许多故障转移的恢复机制,具有强大的容错能力。它使用一个简单的可扩展的数据模型,允许在线分析应用程序。,第一章 大数据基础,1.5 大数据应用行业,医疗健康行业实时评估和监测服务质量、支撑医生的决策、分析临床数据、提供医疗服务的用户化,金融行业客户体验的优化,操作运营优化以及员工敬业度的提升。,零售业识别顾客行为,发现顾客购物模式和趋势,提高顾客服务质量,分析设计出更有效的货物运输和分销政策,来降低商业成本。,互联网
16、与电子商务行业实现用户个性化需求导向,个性偏好导向和关系导向等方向的方式,实现精准化,个性化的网络营销,交通行业改善交通案件侦查能力、改善交通警察对机动车辆的监督、容易轻松访问相关车辆并分析数据,政府机构优化战略,增强公民的公共服务,确保连续的监督和监测,以保护公民和减轻犯罪的影响。,第一章 大数据基础,1.6 大数据的挑战和机遇,1.6.1 大数据的挑战,隐私和安全这些问题包括概念、技术和法律意义。通过个人信息与外部大数据相结合可以推断出有关该人的新信息,这种信息可能对于个人是保密的,并且不希望数据信息被所有者或任何了解他们的人知道。异构性和不完备性非结构化数据几乎代表了社交媒体交互、记录会
17、议、处理PDF文档、传真传输、发送电子邮件等所有类型的数据。即使在数据清理和处理之后,数据中的一些不完整性和一些错误也可能保留下来。,1.6.1 大数据的挑战,数据质量收集大量的数据和存储是有代价的。实时处理大量的数据时,分析哪些数据是重要的,也是大数据的一个巨大的挑战。数据的访问和信息共享如果需要将数据访问及时作出准确的决定,就必须准确、完整、及时地提供信息。这使得数据管理和治理过程变得复杂,增加了数据信息开放的必要性,从而需要更好的决策、商业智能和生产力将数据信息以标准化的方式与标准化的API、元数据和格式提供给政府机构。,1.6.1 大数据的挑战,存储和处理问题大数据的云问题可以分为容量
18、和性能两个方面的问题。从存储点到处理点的数据传输可以通过两种方式来避免。技能由于大数据处于年轻化和新兴技术阶段,因此需要吸引具有多种新技能的人才,有效管理大数据需要合适的人员。这些技能不应局限于技术方面,还应扩展到研究、分析、解释和创造性技能。这些技能需要在个人中得到发展,因此需要组织的项目培训。此外,大学需要引入大数据课程,以培养熟练的员工。,1.6 大数据的挑战和机遇,1.6.2 大数据的机遇,大数据的使用将成为个体企业竞争和成长的重要基础。大数据可以生成更详细的学校信息,推广虚拟云课程,可以使学生更灵活的学习课程及了解学业动态。保险、政府部门、农业和制造业等都将通过使用大数据来提高生产力。在医疗保健方面,大数据将有助于更好的为患者的提供诊断和治疗。大数据对移动网络非常重要,其对提高网络质量、交通规划、硬件维护预测等也是十分有用。各种科学分支产生大量的实验数据。大数据正是满足科学需求需要一种新的数据处理方式。,大数据基础教程,Fundamentals of Big Data,THE END,