《2019大数据管理概论.docx》由会员分享,可在线阅读,更多相关《2019大数据管理概论.docx(119页珍藏版)》请在课桌文档上搜索。
1、大数据管理概论2019第1章概述1.1大数据的基本概念已故的图灵奖得主JimGmy在其事务处理一书中提到:6000年以前,苏美尔人(SUmeHanS)就使用了数据记录的方法,已知最早的数据是写在土块上上而记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况。随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文、古埃及纸莎草纸、羊皮纸等。19世纪后期打孔卡片出现,用于1890年美国人口普查,用卡片取代土块,使得系统可以每秒查找或更新一个“土块”(卡片)。可见,用数据记录社会由来已久,而数据的多少和系统的能力是与当时社会结构的复杂程度和生产力水平密切相关的。随着人类进入21
2、世纪,尤其是互联网和移动互联网技术的发展,使得人与人之间的联系日益密切,社会结构曜复杂,生产力水平得到极大提升,人类创造性活力得到充分释放,与之相应的教据规模和处理系统发生了巨大改变,从而催生了当下众人热议的大数据局面。从历史观的角度看,数据(D)和社会(三)形成了一定的对应关系,BP:Dff(SSumerians),Dbigf(SPreSem),Dnf(Sfuture)。从量的关系上,Db-,Dbig,)Dn可能存在大小关系,还可形成包含关系,但它们只是与当时的社会发展状况相对应:Dbig不可能反映代表未来的Drv因为我们不知道未来会有什么新的社会结构(诸如当下社交网络一类的事物)出现,也不
3、知道会有什么新的生产活动(诸如电商一类的事物)产生;同样Dl也不需要具有DHg的规模,因为当时人们并没有如此频繁的联系。近期,美国加州大学伯克利分校MthaelLJOrdan教授提出“大数据的冬天即将到来如果我们能历史地认识Dbig的地位,没有把DHg当Dn,就不存在“冬天”与“春天”的问题。这是历史客观发展的事实。基于以上分析,当下大数据的产生主要与人类社会生活网络结构的复杂化、生产活动的数字化、科学研究的信息化相关,其意义和价值在于可帮助人们解释复杂的社会行为和结构,以及提高生产力,进而丰富人们发现自然规律的手段。本质上大数据具有以下三方面的内涵,即大数据的“深度”、大教据的“广度”以及大
4、数据的“密度所谓“深度”是指单一领域数据汇聚的规模,可以进一步理解为数据内容的“维度“广度”则是指多领域数据汇聚的规模,侧重体现在数据的关联、交叉和融合等方面;“密度”是指时空维上数据汇聚的规模,即数据积累的“厚度”以及数据产生的“速度”。面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的教据库技术侧重考虑数据的“深度”问题,主要解决数据的组练存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。这里提出的大数据管理是要综合考虑数据的“广度”“深度”“密度”等问题,主要解决数据的获取、抽取、集成
5、、复杂分析、解释等技术难点。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。第1章概述1.1 大数据的基本概念已故的图灵奖得主JmGmy在其事务处理一书中提到:6000年以前,苏美尔人(SUmManS)就使用了数据记录的方法,已知最早的数据是写在土块上,上而记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况。随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文、古埃及纸莎草纸、羊皮纸搴19世纪后期打孔卡片出现,用于1890年美国人口普查,用卡片取代土块,使得系统可以每秒查找或更新一个“土块”(卡片)。可见,用数据记录社会由来己久,而数据的
6、多少和系统的能力是与当时社会结构的复杂程度和生产力水平密切相关的。随着人类进入21世纪,尤其是互联网和移动互联网技术的发展,使得人与人之间的联系日益密切,社会结构日趋复杂,生产力水平得到极大提升,人类创造性活力得到充分释放,与之相应的数据规模和处理系统发生了巨大改变,从而催生了当下众人热议的大数据局面。从历史观的角度看,数据(D)和社会(三)形成了一定的对应关系,即:Dlf(SSUmerianS),.DIygf(Spresem),“,Drf(Sfuture)。从量的关系上,Db,Dbg,Dn可能存在大小关系,还可形成包含关系,但它们只是与当时的社会发展状况相对应:DHg不可能反映代表未来的Dn
7、,因为我们不知道未来会有什么新的社会结构(诸如当下社交网络一类的事物)出现,也不知道会有什么新的生产活动(诸如电商一类的事物)产生;同样Dl也不需要具有Dbig的规模,因为当时人们并没有如此频繁的联系。近期,美国加州大学伯克利分校MiChaeUJOrdan教授提出“大数据的冬天即将到来如果我们能历史地认识Db区的地位,没有把Dbig当Dn,就不存在“冬天”与“春天”的问题。这是历史客观发展的事实。基于以上分析,当下大数据的产生主要与人类社会生活网络结构的复杂化、生产活动的数字化、科学研究的信息化相关,其意义和价值在于可帮助Ml解释复杂的社会行为和结构,以及提高生产力,进而丰富人们发现自然规律的
8、手段。本质上大数据具有以下三方面的内涵,即大数据的“深度”、大数据的“广度”以及大数据的“密度”。所谓“深度”是指单一领域数据汇聚的规模,可以进一步理解为数据内容的“维度“广度”则是指多领域数据汇聚的规模,侧重体现在数据的关联、交叉和融合等方面;“密度”是指时空维上数据汇聚的规模,即数据积累的“厚度”以及数据产生的“速度”。面对不断涌现的大数据应用,数据库乃至数据管理技术蒯躅的挑机传统的数据库技术恻重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。这里提出的大数据
9、管理是要综合考虑数据的“广度”“深度”“密度”等问题,主要解决数据的获取、抽取、集成、复杂分析、解释等技术难点。因此,与传统教据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。1.2 大数据的演变过程从数据库(Database,DB)到大数据(BigData,BD),看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。大数据的Ill现必将颠覆传统的数据管理方式,在数据来源、数据处理方式和数据思维等方面都会带来革命性变化。如果要用简单的方式来比较传统的数据库和大数据的区别的话,我们认为“池塘捕鱼”和“大海捕鱼”是一个很好的类比。“池塘捕鱼”代表着传统数据库时代的数据
10、管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据。“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。这些差异主要体现在如下几个方面:1)数据规模:“池塘”和“大海”最明显的区别就是规模。“池塘”规模相对较小,即便是先前认为比较大的“池塘”,譬如VLDB(VeryLargeDataBase),与“大海XLDB(ExtremelyLargeDataBase)相比仍旧偏小。“池塘”的处理对象通常以MB为基本单位,而“大海”则常常以GB甚至是TB、PB为基本处理单位。2)数据类型:过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。
11、而在“大海”中,数据的种类繁多,数以千计,而这些数据又包含着结构仇、半结构化以及小结构化的数据,并且半结构化和非结构化数据所占份额越来越大。3)模式(SChema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼而大教据时代在很多情况下难以预先确定模式,模式只有在教据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断地增长。鱼的变化会使大海的成分和环境处于不断的变化之中。4)处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海
12、”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象,而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。5)处理工具:捕捞“池塘”中的“鱼一种渔网或少数几种基本就可以应对,也就是所谓的OneSizeFitsAlF。但是在“大海”中,不存在一种渔网能够捕获所有鱼类的情况,也就是所谓的wNoSizeFitsAllw0从“池塘”到“大海”,不仅仅是规模的变大。传统的数据库代表着数据工程(dataengineering)的处理方式,大数据时代的数据已不仅仅是工程处理的对象,需要采取新的数据思维来应对。图灵奖获得
13、者、著名数据库专家JimGray博士观察并总结指出,人类自古以来,在科学研究上先后历经了实验、理论和计算三种范式。当教据量不断增长和累积到今天,这三种传统范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,需要有一种全新的范式来指导新形势下的科学研究。基于这种考虑,JimGray提出了一种新的数据探索型研究方式,他称之为科学研究的“第四种范式(TheFourthParadigm)。四种范式的比较如表H所示。第四种范式的实质就是从以计算为中心,转变到以教据处理为中心,也就是我们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的捕鱼方式的转变,在大数据时代,教据不再仅仅是捕
14、捞的对象,而应当转变成一种基础资源,来协同解决其他诸多领域的问题C例如,计算社会科学(ConiputationalsociaIscience)基于特定社会需求,在特定的社会理论指导下,收集、整理和分析数据足迹(dataprint),以便进行社会解释、监控、预测与规划的过程和活动。计算社会科学是一种典型的需要采用第四种范式来做指导的科学研究领域。DUnCanJ.Watts在Nazre杂志上的文章rtAtwenty-firstcenturysciencew也指出借助于社交网络和计算机分析技术,21世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。表IT科学研究上发现的四种范式科学范
15、式出现时间主要方法实验数千年前通过观察来描述自然现象理论近百年建立模型、概论计算近几卜年对复杂现象利用计算机进行仿真模拟数据探索(dataexploration)目前仪器或仿真器产生数据,计算机软件将这些数据进行处理,而后存储于不同地方,最后要将这些数据高效地汇集、整理、统计、分析、共享和归档,并加以再利用.KristinMTolle,DStewariW,Tansley,eal.TheFourthParadigm:Dala-intensiveScientificDiscoveryC.ProceedingsoftheIEEE.NJ:IEEE,2011,99(8):1334-1337.1.3大数据
16、应用人类历史上从未有哪个时代同今天一样产生如此海量的数据。教据的产生已经完全不受时间、地点的限制。从采用数据库作为数据管理的主要方式开始,人类社会的教据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。1)运营式系统阶段:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统。比如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录系统等。人类社会数据量第一次大的飞跃正是从运营式系统广泛使用数据库开始的。这个阶段最主要的特点是数据往往伴随着一定的运营活动耐:生并记录在数据库中,比如超市每销售一件商品就会在数据
17、库中产生一条相应的销售记录。这种数据的产生方式是被动的。2)互联网系统阶段:互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web20时代,而Web2O的最重要标志就是用户原创内容(USerGeneratedContent,UGO。这类数据近几年一直呈现爆炸性增长,主要有两个方面的原因。首先是以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这种数据的产生方式是主动的。3)感知式系统阶段:人类社会数据量第
18、三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使曲随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。简单来说,教据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动产生的数据共同构成了大数据的数据来源,但其中自动式数据才是大数据产生的最根本原因。正如谷歌公司的首席经济学家HalVarian所说,数据是广泛可用的,所缺乏的是从中提取出知识的能力。数据收集的根本目的是根据需求从数据中
19、提取有用的知识,并将其应用到具体的领域之中。不同领域的大数据应用有不同的特点,表1-2列举了若干具有代表性的大数据应用及其特征。表1-2典型大数据应用的比较应用类型典型用例用户数响应时间数据规模可靠性要求数据精度科学计算生物信息学少慢TB级普通极高金融数据高频交易多极快GB级极高高社交网络Facebook等极多快PB级较高较高移动数据GPS数据多快TB级较高较高(续)应用类型典型用例用户数响应时间数据规模可靠性要求数据精度物联网传感器网络极多快TB级较高高Web数据新闻网页等极多快PB级较高较高多媒体数据视频网站多较快PB级较高普通正是由于大教据的广泛存在,才使得大数据问题的解决极具挑战性。而
20、它的广泛应用,则促使越来越多的人开始关注和研究大数据问题。如图IT所示,大数据应用的三要素包括大数据(bigdata)、大知识(bigknowledge)和大应用(bigapplication)。“大数据”关联和融合凝聚成“大知识”,促使开发“大应用”。图IT大数据应用的三要素1.1大数据的处理模式无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MaPRedUce。这些系统将分布式编程简化为自动提供位置感知(locality-aware)调度、容错以及负载均衡,使得大量用户能够在商用集群上分析庞大的数据集。大多数现有的集群计算系统都是基于非循环数据流模型(acyc
21、licdataflowmodel),从稳定的物理存储(如分布式文件系统)中加载记录,一组确定性操作构成一个有向无环图(DirectedAcyclicGraph,DAG),记录被传入这个DAG,然后写回稳定存储。通过这个DAG数据流图,运行时自动完成调度工作及故障恢复。尽管非循环数据流是一种很强大的抽象方法,但有些应用仍然无法使用这种方式描述,包括:机器学习和图应用中常用的迭代算法(每一步对数据执行相似的函数);交互式数据挖掘工具(用户反复查询一个数据子集)。此外基于数据流的架构也不明确支持这种处理,所以需要将数据输出到磁盘,然后在每次查询时重新加载,从而带来较大的开销。当前大数据分析处理系统的
22、发展趋势主要有两个方向:一种是以HadOOP和MaPRedUCe为代表的批处理(batchprocessing)系统,另一种是为各种特定应用开发的流处理(StreamProCeSSMg)系统,批处理是先存储后处理(store-then-process),而流处理则是直接处理(straight-throughprocessing)。1.11批处理Goog!e公司于2004年提出的MaPRedUCe编程模型是最具代表性的枇处理模式。一个完整的MaPRedUCe过程如图卜2所不O中间文件输入文件MaP状态(位于本地硬盘)RCdUCC状态输出文件图1-2MaPRedUCe执行流程图MaPRedUCe模
23、型首先将用户的原始数据源进行分块,然后分别交给不同的MaP任务去处理。MaP任务从输入中解析出键/值对集合,然后对这些集合执行用户自行定义的MaP函数得到中间结果,并将该结果写入本地硬盘。RedIICe任务从硬盘上读取数据之后,会根据key值进行排序,招具有相同key值的数据组织在一起C最后用户自定义的ReduCe函数会作用于这些排好序的结果并输出最终结果。从MaPRedUCe的处理过程我们可以看出,MaPRedUCe的核心设计思想在于:将问题分而治之;把计算推至数据而不是把数据推至计算,有效避免数据传输过程中产生的大量通信开销。MaPRedUCe模型简单,且现实中很多问题都可用MaPRedU
24、Ce模型来表示。因此该模型公开后立刻受到极大的关注,并在生物信息学、文本挖掘等领域得到广泛应用。无论是批处理还是流处理,都是大数据处理的可行思路。大数据的应用类型很多,在实际的大数据处理中,常常并不是简单地只使用其中的某一种,而是将二者结合起来。互联网是大数据最重要的来源之一,很多互联网公司根据处理时间的要求将自己的业务划分为在线(online)近线(nearline)和离线(offline),比如著名的职业社交网站LinkedIn。这种划分方式是按处理所耗时间来划分的。其中在线的处理时间一般为秒级,甚至是毫秒级,因此通常采用上而所说的流处理;离线的处理时间可以以天为基本单位,基本采用枇处理方
25、式,这种方式可以最大限度地利用系统I/O;近线的处理时间一般为分钟级或者是小时级,对处理模型并没有特别的要求,可以根据需求灵活选择,但在实际中多采用批处理模式。流处理的基本理念是数据的价值会随着时间的流逝而不断减少,因此尽可能快地对最新的数据作出分析并给出结果是所有流数据处理模式的共同目标。需要采用流教据处理的大教据应用场景主要有网页点击数的实时统计、传感器网络和金融中的高频交易等。流处理的处理模式将数据视为流,源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。ffll-3是流处理中基本的数据流模型。数据流图1-3基本的数据流模型数据的实时处理是一个极具挑战性的工作,数据
26、流本身具有持续达到、速度快且规模巨大等特点。为了确保分布式数据流的实时处理,需要对数据流的传输和模型进行说吼数据流传输。为保证实时、完整且稳定地将数据流传输到处理系统,一殷可通过消息队列和网络SOCket传输等方法完成”以保证将数据发送至每个物理节点,为数据处理提供保障。利用消息队列的方式进行数据采集和传输是较为常用的一种方法,常见的消息队列产品有FaCebOok的SCribe、Linkedln的Kafka和CIoUdera的FhIme等O数据流模型。在查询处理过程中,由于数据流的来源不同,需要针对不同的数据源制订不同的数据样式。一般来讲,通用的数据流管理系统支持关系型数据模型,数据定义语言是
27、基于关系型的原子类型,便于以属性和元组的形式划分和发送数据;针对特殊领域的数据流管理系统,可根据领域数据的特点设计基于对象类型的复合数据类型。1.5大数据管理的关键技术琮上所述,大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临着新的挑战,下面会对其中的主要挑战进行详细分析。1.5.1 大数据融合数据的广泛存在性使得数据越来越多地散布于不同的数据管理系统中,为了便于进行数据分析,需要进行数据集成。数据集成看起来并不是一个新的问题,但是大数据时代的数据集成却有新的需求,因此也面临着新的挑战。D广泛的
28、异构性。传统的数据集成也会面对数据异构的问题,但是在大数据时代这种异构性出现了新的变化。主要体现在:数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合。数据产生方式的多样性带来了数据源的变化。传统的电子数据主要产生于服务器或者是个人计算机,这些设备位置相对固定。随着移动终端的快速发展,手机、平板电脑和GPS等产生的数据量呈现爆炸式增长,且产生的数据带有很明显的时空特性。教据存储方式发生变化。传统教据主要存储在关系数据库中,但越来越多的数据迫使人们开始采用新的数据存储方式来应对数据爆炸,比如存储在HadOoP的HDFS中。这就必然要求在集成的过程中进行数据转换,而这种转换的过程是
29、非常复杂和难以管理的。2)数据质量。数据量大不一定就代表信息量或者数据价值的增大,相反很多时候意味着信息垃圾的泛滥。一方面很难有单个系统能够容纳下从不同数据源集成的海量数据;另一方面如果在集成的过程中仅仅简单地将所有数据聚集在一起而不进行任何数据清洗,会使得过多的无用数据干扰后续的数据分析过程。大数据时代的数据清洗过程必须更加谨慎,因为相对细微的有用信息混杂在庞大的数据量中。如果信息清洗的粒度过细,很容易将有用的信息过滤掉;清洗的粒度过粗,又无法达到真正的清洗效果,因此在质与量之间需要进行仔细的考量和权衡。胤大数据分析传统意义上的数据分析主要针对结构化数据展开,且已经形成了一整套行之有效的分析
30、体系。首先利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(OnIineArlalytiCaIProCeSSing,OLAP),可以进行多个维度的下钻(drill-down)或上卷(roll-up)操作。对于从数据中提炼更深层次的知识的需求导致数据挖掘技术的产生,并促使人们发明了聚类、关联分析等一系列在实践中行之有效的方法。这一整套处理流程在处理相对较少的结构化教据时极为高效。但是随着大教据时代的到来,半结构化和非结构化教据量的迅磕增长给传统的分析技术带来了巨大的冲击和挑战,主要体现在如下几方面。D数据处理的实时性。随着时间的流逝,数据中所蕴含的知识价
31、值往往也在衰减,因此很多领域对于教据的实时处理有需求。随着大数据时代的到来,更多应用场景的数据分析从离线转向了在线,开始出现实时处理的需求,比如KDD2012最佳论文W所探诗的实时广告竞价问题。大数据时代的数据实时处理面临着一些新的挑战,主要体现在教据处理模式的选择及改进上。在实时处理的模式选择中,主要有三种思路,即流处理模式、批处理模式以及二者的融合。相关研究成果在上一节己经有详细介绍。虽然已有的研究成果很多,但是仍未有一个通用的大数据实时处理施架。各种工具实现实时处理的方法不一,支持的应用类型都相对有限,这导致实际应用中往往需要根据自己的业务需求和应用场景对现有技术和工具进行改造。2)动态
32、变化环境中索引的设计。关系数据库中的索引能够加速查询速率,但是传统的数据管理中模式基本不会发生变化,因此在其上构建索引主要考虑的是索引创建、更新等的效率。大数据时代的数据模式随着数据量的不断变化可能会处于不断的变化之中,这就要求索引结构的设计要简单、高效,能够在数据模式发生变化时很快进行调整来适应。在数据模式变更的假设前提下设计新的索引方案将是大数据时代的主要挑战之一。3)先验知识的缺乏。传统分析主要针对结构化数据展开,这些数据在以关系模型进行存储的同时就隐含了这些数据内部关系等先验知识。比如我们知道所要分析的对象会有哪些属性,通过属性我们又能大致了解其可能的取值范围等。这些知识使得我们在进行
33、数据分析之前就已经对数据有了一定的理解C而在面对大数据分析时,一方面是半结构化和非结构化数据的存在,这些数据很难以类似结构化数据的方式构建出其内部的正式关系;另一方面很多数据以流的形式源源不断地到来,对这些需要实时处理的数据很难有足够的时间去建立先验知识。1 PerlichC,DalessandroB,HookR,etal.BidOptimizingandInventoryScoringinTargetedOnlineAdvertisingC.Proceedingsofthel8thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandD
34、ataMining(SIGKDD).NewYork:ACM,2012:804-812.1.5,1大数据能耗在能源价格上涨、数据中心存储规模不断扩大的今天,高能耗已逐渐成为制约大数据快速发展的一个主要瓶颈。从小型集群到大规模数据中心辆临着降低能耗的问题,但是尚未引起足够多的重视,相关的研究成果也较丸在大数据管理系统也能耗主要由两大部分组成:硬件能耗和软件能耗,二者之中又以硬件能耗为主。在理想状态下,整个大数据管理系统的能耗应该与系统利用率成正比。但是实际情况并不符合预期,系统利用率较低时仍然有较高的能量消耗口。针对这个问题,纽勾时报和麦肯锡公司经过一年的联合调查,最终在纽约时报上发表文章Powe
35、r,PollutionandtheInternet,-2-FreebaSeU的提供语义感知的问答服务;专业领域,如生命科学利用Bio2RDF:M、NeUrOCOmmOnSu5:等知识图谱作问答和决策。然而,在使用这些已有技术获取知识时出现了如下问题:获取的知识规模宏大,但缺乏可理解性和可实用性。以知识库为例,如GoOg知识图谱6汩前包含多于5亿实体和350亿条实体间的关系信息,至少囊括几千种谓词,这些谓词还在不断增加和变化。要想让用户掌握这些谓词和模式不太现实,所以,当他们面对这些千丝万缕的关系时,很难从本质上理解和消化这些知识,从而降低了大数据应有的价值。得到的知识品质有差别二I,存在不一致
36、性甚至冲突,尤其是时态型数据,知识的品质更难以有效甄别。并且融合的结果缺乏可解释性,从而导致其可靠性受到质疑。酶乏与领域知识的结合,并且获取的知识只处于表层理解,导致融合结果与实际应用需求存在鸿沟,例如一些已被发现的表层现象、规律等没有进一步形成普适机理,使得这种规律性的发现不能有效反馈给融合过程。经研究发现引发这些问题的关键是大数据在不断动态演化,并且需要从多个维度、多种粒度进行解释。此外,数据的组织方式不同得到的知识品质也会有差异,犹如碳原子既可以构成钻石,也可以构成石墨。所以我们认为当下面临的一个突出问题是如何有效地融合知识使大数据的价值最大化,此即大数据融合问题,其关健是突破上述局限需
37、要把目标聚焦于大数据新的特征和融合方式。为此,2.2节给出了大数据融合的概念,并分析了融合需求和融合对象的独特性。2,3节总结归纳了现有融合范式,并分析对比了这些融合范式的共同点和各自的优缺点,以及面对大数据,这些融合范式存在的共同缺陷,提出适合大数据的新型融合方法论动态演化的数据融合与多维度、多粒度的知识融合双环驱动的大数据融合。24至2.6节分别探讨大数据融合中数据融合、知识融合和驱动枢纽的内涵、实现方法和技术难点。1 SuchanekF,WeikumG.KnowledgeBasesintheAgeofBigDalaAnalyticsC.ProceedingsoftheVLDBEndowment(VLDB),2014,7(13):1713-1714.2 SuchanekF,WeikurnG.KnowledgeHarvestingintheBig-dalaEraC.Proceedingsofthe2013ACMSIGMODInternationalConferenceonManagementofData(SIGMOD).NewYork:ACM,2013:933938.3 1.enzerin:M.DataIntegration:ATheoreticalPerspectiveC.Proceedingsofthe21stACMSIGMOISIGACTSIGARTSymposi