《大数据云计算.pptx》由会员分享,可在线阅读,更多相关《大数据云计算.pptx(10页珍藏版)》请在课桌文档上搜索。
1、一、大数据概念,大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。大数据首先是指数据体量大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要
2、有效的信息之力以确保其真实性及安全性。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。,大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。当你的技术达到极限时,也就是数据的极限。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据
3、库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。,二、大数据分析,从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实 是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。,1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈
4、现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了 2、数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。,3、预测性分析能力 大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来
5、的数据。4、数据质量和数据管理 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。,三 大数据特点,1、数据体量巨大。从TB级别,跃升到PB级别。2、数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。3、价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。4、处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、
6、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。,云计算的概念可以从用户、技术提供商和技术开发人员三个不同角度来解读。,2.1 用户看云计算 从用户的角度考虑,主要根据用户的体验和效果来描述,云计算可以总结为:云计算系统是一个信息基础设施,包含有硬件设备、软件平台、系统管理的数据以及相应的信息服务。用户使用该系统的时候,可以实现“按需索取、按用计费、无限扩展,网络访问”的效果。简单而言,用户可以根据自己的需要,通过网络去获得自己需要的计算机资源和软件服务。这些计算机资源和软件服务是直接供用户使用而无需用户做进一步的定制化开发、管理
7、和维护等工作。同时,这些计算机资源和软件服务的规模可以根据用户业务变化和需求的变化,随时进行调整到足够大的规模。用户使用这些计算机资源和软件服务,只需要按照使用量来支付租用的费用。,2.2 技术提供商看云计算 技术提供商对云计算理解为,通过调度和优化的技术,管理和协同大量的计算资源;针对用户的需求,通过互联网发布和提供用户所需的计算机资源和软件服务;基于租用模式的按用计费方法进行收费。技术提供商强调云计算系统需要组织和协同大量的计算资源来提供强大的IT能力和丰富的软件服务,利用调度优化的技术来提高资源的利用效率。云计算系统提供的IT能力和软件服务针对用户的直接需求,并且这些IT能力和软件服务都
8、在互联网上进行发布,允许用户直接利用互联网来使用这些IT能力和服务。用户对资源的使用,按照其使用量来进行计费,实现云计算系统运营的盈利。,2.3 技术开发人员看云计算 技术开发人员作为云计算系统的设计和开发人员,认为云计算是一个大型集中的信息系统,该系统通过虚拟化技术和面向服务的系统设计等手段来完成资源和能力的封装以及交互,并且通过互联网来发布这些封装好的资源和能力。所谓大型集中的信息系统,指的是包含有大量的软硬件资源,并且通过技术和网络等对其进行集中式的管理的信息系统。通常这些软硬件资源在物理上或者在网络连接上是集中或者相邻的,能够协同来完成同一个任务。,云计算与大数据的关系,本质上,云计算与大数据的关系是静与动的关系;云计算强调的是计算,这是动的概念;而数据则是计算的对象,是静的概念。如果结合实际的应用,前者强调的是计算能力,或者看重的存储能力;但是这样说,并不意味着两个概念就如此泾渭分明。大数据需要处理大数据的能力(数据获取、清洁、转换、统计等能力),其实就是强大的计算能力;另一方面,云计算的动也是相对而言,比如基础设施即服务中的存储设备提供的主要是数据存储能力,所以可谓是动中有静。如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!,