漫谈大数据陈国良.pptx

上传人:夺命阿水 文档编号:363050 上传时间:2023-04-27 格式:PPTX 页数:26 大小:4.01MB
返回 下载 相关 举报
漫谈大数据陈国良.pptx_第1页
第1页 / 共26页
漫谈大数据陈国良.pptx_第2页
第2页 / 共26页
漫谈大数据陈国良.pptx_第3页
第3页 / 共26页
漫谈大数据陈国良.pptx_第4页
第4页 / 共26页
漫谈大数据陈国良.pptx_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《漫谈大数据陈国良.pptx》由会员分享,可在线阅读,更多相关《漫谈大数据陈国良.pptx(26页珍藏版)》请在课桌文档上搜索。

1、漫谈大数据Talking Something About Big Data,2,摘要:本报告从人类文明社会发展历程及其标志性技术讲起,引出新一代信息技术之一:大数据的概念;接着引导大家认识大数据,理解什么是大数据,包括大数据的定义、作用以及挑战与威胁等;最后在结论阐明大数据不仅能引领发展,还会推动经济转型,并且还能提供重塑国家竞争优势的新机遇!,3,目 录引言人类文明社会发展历程工业社会发展历程信息化革命进程信息时代的标志性技术认识大数据大数据一词的渊源澄清说法从科学高度认识大数据什么是大数据大数据的来源大数据的定义大数据带来的挑战和威胁变革思维研究大数据全生命周期研究大数据大数据引领社会、经

2、济和科技发展大数据及其相关技术物联网云计算高通量计算大数据计算理论数据科学计算科学计算复杂类问题结论和倡导结论倡导,1、引言,人类文明社会发展历程,4,1、引言,工业社会的发展历程,5,尼古拉特斯拉交流电之父,1、引言,信息化革命进程,6,猿,人,信息得以交流和传递,信息可以被存储在文字中进行传播,解决了语言的时间和空间局限性,扩大了信息交流和传递的能量和范围,声音、图片影像、文字实现同时远距离实时传播,突破人类大脑及感觉器官加工利用信息的能力,人类进入信息社会时代,1、计算理论与计算复杂性,计算信息时代的标志性技术信息技术的标志性代表数字计算机:运算速度快、运算精度高、通用性强、具有记忆功能

3、和逻辑判断功能、具有自动控制能力;集成电路:微小型化、低功耗、智能化和高可靠性;光纤通信:绝缘、抗电磁干扰性能强;还具有抗腐蚀能力强、抗辐射能力强、可绕性好、无电火花、泄露小、保密性强;Internet 互联网:信息储存量大、高效、快,成本低,互动性高。新一代信息技术的三大亮点物联网(Internet of things):以互联网为基础将用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信;云计算(Cloud Computing):提供安全可靠数据存储中心、降低客户端要求、增强计算能力、无限的存储容量;大数据(Big Data):让海量数据产生价值,使数据成为宝贵“资产”。,7,2、认

4、识大数据,大数据一词的渊源学术界:早已存在,只是叫法不同巨量数据、海量数据(Mass Data);大规模数据(Large Scale Data);天文数字数据(Astronomical-Level Data);“大数据”一词演变2008年英国Nature 杂志率先出版了“大数据”专刊来分析大数据对当代科学的影响和意义;2011 年美国Science 杂志推出“数据处理”专刊;2012 年联合国发布大数据政务白皮书大数据促发展:挑战与机遇;2012年,美国奥巴马政府宣布投资2亿美元启动大数据研究和发展计划,希望增强收集海量数据、分析萃取信息的能力;2015年中国提出推行国家大数据战略,英、日、德

5、、加等国纷纷效仿;社会上流行语-飞入寻常百姓家。科学性及普适性Big Data似乎通俗,不尽文雅的名称;大数据一词走出学术界,“飞入寻常百姓家”,影响深远,推动了科技和社会发展,改变人们的生活、思维方式。,8,2、认识大数据,澄清说法“大数据时代”,称呼欠妥“时代”隐含着一段相当长的历史时期(Period Of History)和历史阶段(Time Of History),如农业时代、工业时代、信息时代。称“大数据时代”在科学上不够严谨。大数据是信息时代“标志性技术”,似“勉为其难”信息时代的标志性技术如上所述,应是:数字计算机、集成电路、光纤通信、互联网等。大数据作为新一代信息技术的三大亮点

6、(物联网、云计算、大数据)还是比较恰当。从科学高度认识大数据大数据的内部属性大数据不仅是一种“资源”:大数据可等同20世纪的石油,是一种资源;大数据还是一种“资产”:信息经济早期,大数据作为一种“资源”,但现今它还被视为“资产”,是企业的核心竞争“能力”。大数据的外部效应“蜜蜂模型”:蜜蜂采花酿蜜不仅供人间美食,更主要是传播花粉,给农业带来丰收。大数据不仅优化生产,节能增收,而且隐藏在大数据中的高价值产生很多科学问题。大数据的长远影响大数据不仅具有内部属性和外部效应,而且具有潜在的暂时看不出的长远影响。犹如当年发明交流电只是为了照明,而今交流电已经无处不用了一样。,9,3、什么是大数据,大数据

7、的来源网络连接世界涌现出大数据互联网和社交网产生的数据;无线移动互联网络产生的数据;物联网上采集和观测数据;社会发布的信息数据。大科学工程产生了大数据大型强子碰撞(LHC:Large Hadron Collider)试验;斯隆数字天空勘探(SDSS:Sloan Digital Sky Survey)计划;基因测序(DNA sequencing)。新技术新应用催生的大数据新技术:传感技术、新型通信技术、物联网技术;新应用:物联网和云计算等。,10,CERN的大型强子对撞机,国际空间站,基因测序,3、什么是大数据,大数据的定义大数据的直观定义:用目前常用的软件工具无法在容许的时间内进行获取、存储、

8、管理、分析的数据集。大数据的4V定义Volume(Amount of Data):大容量(主要体现数据存储量大和计算量大);Velocity(Speed of Data in&out):快速率(主要指数据更新、增长速度快,数据存储、传输、处理速度快);Variety(Range of Data Types&Sources):多样性(包括结构化的原数据库表格数据和半结构化、非结构化的文本、视频、图像等信息);Value(Usefulness of Data):高价值(大海捞针,“在大数据困难面前,不被利用就是成本”。大数据的4层技术架构基础层:横向可扩展存储和计算平台;虚拟化、网络化的分布式架构

9、;管理层:并行、分布式管理平台;结构化和非结构化的统一管理;分析层:基于统计学的数据挖掘和机器学习算法;分析和解释数据,提供自动服务;应用层:提供实时决策;内置预测能力。,11,3、什么是大数据,大数据带来的挑战和威胁大数据所带来的技术挑战:大数据存储与管理:虽然大数据价值稀疏,但保留它还是非常有价值的!解决大数据的存储问题首先是对其进行去重和压缩;其次是降低副本比,提高存储效率和降低存储成本。传统IT系统到大数据系统的过渡:在现有的数据软/硬件平台基础上做渐进式改进;大数据分析要平民化;大数据应用要直观、易用和网络化。大数据分析:需要革命性理论和新算法;不能抽样分析,要全数据聚合分析;以计算

10、为中心转移到以数据为中心;系统架构应分布式和并行化兼顾;将结构化数据的分析方法、工具与新兴的非结构化数据方法、工具相结合;提供数据实时分析能力;云计算是提高大数据分析能力的一种可行方案等。大数据安全:发展信息安全技术;加强技术保护;提高全民信息安全意识;完善信息安全政策和流程;完备信息安全标准等。大数据的兴起催生了数据科学:数据科学可简单理解为预测分析和数据挖掘,是统计分析和机器学习技术的结合,相关方法包括回归分析、关联规则、优化技术和仿真建模。大数据所带来的威胁无处不在的“第三只眼”和大数据的二次利用会使人们惶恐不安,威胁公众的隐私,伤害人类的自由和尊严。运用大数据预测来判断和惩罚人类潜在行

11、为,可能会给社会和人类带来不公和无法弥补的损伤。数据的质量不高、数据的不客观性、数据分析中的差错等所导致的人们对数据的执迷和崇拜,形成了数据独裁是可怕的,应引以为戒。,12,3、什么是大数据,变革思维处理大数据数据的获取面对数据纷繁杂乱的局面,要接受处理大数据无理论、无模型的理念与现实。不能避免数据纷繁多样、优劣共存的混杂性,要容忍模糊性和不精确性的处理方法。不建立新模型,没有统一的理论和机械式的证明,科学也可以照样进步。数据的分析大数据时代,无需紧紧盯着事物之间为什么的因果关系,要侧重寻找事物之间是什么的相关关系。知道“是什么”是大数据从业人员急需的,知道“为什么”可容后让科学家们去分析。数

12、据的解释不能依靠随机采样进行分析,采样无法揭示细节信息,不能期望像小数据时代那样,可用最少的数据获得最多的信息。大数据时代要利用尽可能多的全样数据,收集与某事物相关的所有的数据。数据的处理在大数据时代,分析如此之多的数据,不能热衷于追求精确性,也无法实现精确性。须知,大数据的简单算法比小数据的精确复杂算法会更有效。,13,3、什么是大数据,全生命周期研究大数据大数据采集使用ETL技术:Extraction(提取)、Transformation(转换)、Loading(加载);大数据传输使用SDN(Software Defined Network)集中式路由算法控制;大数据存储可采用集中与分布式

13、存储结构以及行与列并存方法;大数据挖掘可采用迭代性与探索性等新型数据挖掘技术;大数据可采用各种分析方法和集成多种学习算法进行分析;大数据处理可采用高通量结构、高性能云计算平台、普及性高性能计算机系统;大数据可采用分布式软件架构Hadoop和Map/Reduce编程框架等;大数据可采用静态并行NC类计算和交互式IP计算以及动态概率近似(Probably Approximate Correct)计算;大数据展示可采用时间趋势可视化和空间趋势可视化等。,14,3、什么是大数据,大数据引领社会、经济和科技发展大数据对国家社会的作用增强国家安全通过海量数据挖掘出高价值的军事情报,通过海量数据的分析迅速布

14、置军事行动;通过海量数据处理实现军事决策自动化、精准化和快速化。促进政府开发数据开放:通过数据开放,可为政府决策提供真实数据;基于数据驱动的政府决策;使用大数据可以提升公共服务的透明度,辅助公共服务部门更好地发现需求、提升绩效、降低运营开支成本等。提高政策预见性和响应性利用互联网、社交网和手机信息等,对社会舆论、失业率、疾病爆发、天气预报、股票走势等。大数据推动国民经济发展人类社会的三次浪潮引领人类社会的三次浪潮,给人类社会带来了巨大深刻的影响,极大地推动了人类社会经济的发展。大数据是第三次浪潮的华彩乐章让海量数据产生价值,使数据成为宝贵“资产”。大数据产生大价值大数据所催生的硬件、软件及服务

15、市场产生了巨大的价值;通过大数据推动的相关行业(制造业、医疗业、零售业等)产生巨大的价值。,15,3、什么是大数据,大数据引领社会、经济和科技发展大数据促进科技发展引领科学发现的“第四范型”从实验科学、理论科学、计算科学到大数据引领的第四范式的数据密集型科学。范型(式)(Paradigm):是科学家群体对某学科理论体系或方法上的共同信念。大数据引领互联网技术创新大数据的快速率:促使互联网行业推出诸如流式处理、实时计算、内存计算等技术。大数据的大容量:促使互联网公司构造分布式架构,利用大量廉价的服务器与存储器来应付大数据集,并灵活进行弹性部署。大数据的多样性:促使互联网公司采用非关系型数据库技术

16、,不断强化对日益增加的非结构化数据的驾驭能力。,16,4、大数据及其相关新兴技术,物联网物联网的定义、特征和架构物联网的定义:通过装置在物体上的各种信息传感设备(如RFID、红外传感器、GPS、激光扫描器等等)赋予物体智能,并通过接口与互联网相连而形成的一个物品与物品相连的巨大分布式协同网络。物联网的四层体系结构模型:感知识别层、网络构建层、管理服务层、综合服务层。物联网三大特征:普通对象设备化、自治终端互联化、普适服务智能化。物联网的四大关键技术RFID射频识别技术:使人类对事物设施等在静止或者动态等状态下的管理和自动识别;传感技术:从设施获取信息并处理;网络通信技术:指通过计算机和网络通讯

17、设备对图形和文字等形式的资料进行采集、存储、处理和传输等,使信息资源达到充分共享;云计算:提供数据的存储和计算能力。物联网和大数据物联网酿成了大数据;物联网感知识别数据的设备;大数据技术使物联网采集的数据产生了价值。,17,4、大数据及其相关新兴技术,云计算云计算的概念、特征和架构物云计算的概念:云计算是提供便捷的、通过互联网访问一个可定制的、能够快速部署的IT资源(包括网络、服务器、存储、应用服务等)共享池能力的、按使用量付费的计算服务模式。云计算的四层体系结构模型:物理层、虚拟层、管理层、业务层。云计算大特征:超大规模、虚拟化、高可靠性、高扩展性、按需服务、设备廉价。云计算的三大关键技术虚

18、拟化技术;分布式海量存储;海量数据管理;分布式变成模式;云平台管理技术。云计算和大数据,18,4、大数据及其相关新兴技术,高通量计算高通量计算的概念大数据使用的是高通量(High Throughput)并行处理模型“Scale-out”;所谓吞吐量(Throughput)是指:穿过系统(进程)的数据项(Items)的数目(Amount of number of items);所谓“Scale-out”意思是指:在分布式系统中,利用连续不断地加入低成本的计算和存储节点而维持系统吞吐率的增加。大数据处理利用高通量分布处理结构分布自治的工作站机群(COW:Cluster of Workstation

19、s)系统结构高通量机群的特点每个节点是一台独立自治的PC机或服务器工作站等;各节点之间通过标准商用或低成本的网络(千兆位以太网等)连接;整个系统可包含成百上千乃至更多的服务器;为适应大数据需要,系统中需配置不同形式的诸如固态存储器(SSD)和高容量的SATA硬盘等磁盘阵列。,19,5、大数据计算理论,数据科学数据科学的渊源1966 年,丹麦天文学家、计算机科学家图灵奖得主彼得 诺尔(Peter Naur)提出“数据科学(datalogy)”数据科学,即“数据处理的科学”;1993 年,日本统计数学研究所Chikio Hayashi 教授提出“Data Science”;2002 年,CODAT

20、A 创办了官方学术期刊Data Science Journal,首个关于数据科学的学术期刊诞生;2007 年,图灵奖得主吉姆 格雷阐述了“指数级增长的科学数据”背景下数据密集型科学研究的第四范式;第四范式的提出引起广泛的认同,已经被学界理解为“大数据范式”。数据科学的概念概念:“数据科学是一个综合的概念,包括统计学、数据分析和它们的相关方法和结果。其目标是从新的视角,用数据揭示复杂的自然、人类和社会现象的特征或潜在结构。数据科学包括三个阶段:数据设计,数据收集和数据分析。”狭义定义:数据科学是研究数据的科学。它利用统计学知识和计算机技术对专业领域的对象进行现实大数据分析与挖掘及其它方式的数据处

21、理,以使组织获取更大的经济效益。数据科学的专业知识计算机科学数学统计学,20,机器学习专业领域数据可视化,5、大数据计算理论,计算科学计算科学的历史 计算机科学的形式化研究起源于数学的基础研究:康德集合论与罗素悖论:数学家们在集合论中发现了逻辑矛盾Let R=x|x x then RR R R形式判定与哥德尔不完备性:Hilbert纲领,即在通用的形式逻辑系统中可以机械地判定任何给定命题的真伪(完备性),证明每一形式系统的相容性,从而导出全部数学的相容性。哥德尔判定不完备性:Gdel提出了形式系统的不完备性,它不能穷举全部数学命题,任何足够强的相容形式系统中均存在着该系统中所不能判定真伪的命题

22、。问题可解性:Hilbert纲领的失败启发人们不要花费大量精力去证明那些不能判定的问题,而应集中精力研究“可计算求解性”问题。在此思想指引下,A.M.Turing从计算一个数的一般过程入手,将可计算性概念与机械程序的执行过程统一起来,此即有名的图灵计算模型。计算的本质计算手段的机械化;计算描述的形式化;计算过程的自动化;,21,5、大数据计算理论,计算复杂类问题P类问题与NP类问题传统情况下的P类问题与NP类问题P类问题:指在多项式时间内可解问题,亦称为易解问题,例如最短路径、最小生成树、二分图匹配、网络最大流等;NP类问题:指在多项式时间可验证的问题,亦称难解问题,如背包问题、整数分解问题、

23、矩阵覆盖问题、陪集重量问题。大数据情况下的P类问题与NP类问题 常见的P 类问题在大数据情形下,即使低阶多项式的求解也会变成不可应对(Intractable)的,因此:在大数据情形下为提升P类问题的精确求解速度可采用并行的办法,例如NC类计算;在大数据情况下为改进NP类问题的猜测精度可采用交互的办法,例如IP类计算;在大数据情况下对P类问题也可以采用概率近似计算(Probably Approximated Correct Computing,PAC),就是在给定置信度范围内,找到一个多项式近似算法,其概率误差不大于。,22,5、大数据计算理论,计算复杂类问题大数据的NC类并行计算NC类计算定义

24、:在PRAM模型上,使用多项式数目的处理器,运行在对数多项式时间的一类计算。例如,整数的加减乘除、选择排序、矩阵运算、线性方程组的求解、串匹配、欧拉回路、图的连通片、计算几何等。大数据的NC类并行计算大数据NC类计算:在PRAM模型上,首先将大数据D划分成多项式数目个子集Di;然后对Di在对数多项式时间施行并行处理。如果上述步骤证明是可行的,则称此类计算为大数据NC类计算。大数据可解(BD-Tractable:BDT):在PRAM模型上,可在nc个处理器于O(n1-clogkn)时间内可并行求解者称为BDT,0c1。注:在小数据时,P类问题被认为在RAM机上是易解的;在大数据时,BDT问题被认

25、为在PRAM机上是易解的。NC类计算的折中选择(建议),23,5、大数据计算理论,计算复杂类问题大数据的IP交互计算IP问题定义:在计算复杂性理论中,IP类是采用交互式证明系统可求解的一类问题,IP表示交互式多项式时间(Interactive Polynomial Time)IP与NP关系:IP可以看成是从NP问题发展而来的,IP提供了一种新的解决问题和判断结论的方法:通过prover和verifier的反复交互,使得verifier得以正确判定问题的解。verifier的判定算法是多项式的,而prover以“神谕”的方式提供判定问题的证据。大数据IP交互计算大数据IP计算对策:大数据难于精确

26、计算,则可采用近似的计算;难于一次完成计算,则可反复多次计算;难于单方完成,则可双方交互等。大数据IP计算办法:将交互式证明系统的“理论证明”理念为“大数据计算”方法。即借助IP交互计算,实现“问题待解者”和“计算求解者”多次交互,达到逐步求精的目的。大数据IP计算实施:假设有两台图灵机,第一个图灵机TM(1)为“计算解给出者”,第二个图灵机TM(2)为“计算解验证者”:当计算解验证者TM(2)输入x时,计算解验给出者TM(1)计算出证据y(y长度不超过x长度的多项式),并反馈给TM(2),TM(2)进行验证,以确信y是否满足预定要求。此过程既可一次完成,也可多次交互。,24,计算解验证者,计

27、算解给出者,X,Y,6、结论和倡导,结论大数据可以引领社会、经济和科技的发展;大数据成为推动经济转型的发展新动力;大数据能提供重塑国家竞争优势的新机遇!倡导计算科学是随着时间快速变化的学科:从串行计算并行计算分布式计算网络计算网格效用计算云计算等。各个计算学科,不是各领风骚“数百年”,可能只是“十数年”!计算机各学科的出现与变化:“制无美恶,期于适时;变无迟速,要在当可。”(严复:宪法大义)!现在“大数据浪潮席卷全球”,“大数据潮流浩浩荡荡”,大数据时代已经到来了。我们要“顺乎时代之潮流”不断学习新知识,与时俱进,跟上时代之步伐!计算机事业永远是年轻人的天下,大数据对年轻的一代而言,既是挑战更是机遇,“无限风光在险峰”!,25,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号