《大数据应用解决方案.docx》由会员分享,可在线阅读,更多相关《大数据应用解决方案.docx(46页珍藏版)》请在课桌文档上搜索。
1、大数据应用解决方案1. 大数据概述错误!未定义书签。1. 1.概述错误!未定义书签。2. 2.大数据定义错误!未定义书签。3. 3.大数据技术发展错误!未定义书签。2. 大数据应用错误!未定义书签。1. 1.大数据应用阐述错误!未定义书签。2. 2.大数据应用架构错误!未定义书签。3. 3.大数据行业应用错误!未定义书签。2. 3.1.医疗行业错误!未定义书签。3. 3.2.能源行业错误!未定义书签。4. 3.3,通信行业错误!未定义书签。5. 3.4.零售业错误!未定义书签。6. 大数据解决方案错误!未定义书签。6.1. 大数据技术组成错误!未定义书签。6.1.1. 分析技术错误!未定义书签
2、。3. 1.1.1.可视化分析错误!未定义书签。4. 1.1.2.数据挖掘算法错误!未定义书签。5. 1.1.3.预测分析能力错误!未定义书签。6. 1.1.4.语义引擎错误!未定义书签。7. 1.1.5.数据质量和数据管理错误!未定义书签。3.2.大数据解决过程错误!未定义书签。3.2.1.采集错误!未定义书签。3.2.2.导入/预解决错误!未定义书签。3.2.3.记录/分析错误!未定义书签。3.2.4.挖掘错误!未定义书签。3.3.大数据解决的核心技术Tadoop错误!未定义书签。3.3.1.Hadoop的组成错误!未定义书签。3.3.2.Had。P的优点:错误!未定义书签。3.3.2.1
3、.高可靠性。错误!未定义书签。3.3.2.2.高扩展性。错误!未定义书签。3.3.2.3.高效性。错误!未定义书签。3.3.2.4.高容错性。错误!未定义书签。3.3.3.Hadoop的局限性错误!未定义书签。3.3.4.重要商业性“大数据”解决方案错误!未定义书签。3.3.2.5.IBMInfoSphere大数据分析平台错误!未定义书签。3.3.2.6.Orac1eBigDataApplianc错误!未定义书签。3.3.2.7.Micr0s0ftSQ1.Server.错误!未定义书签。3.3.2.8.SybaseIQ错误!未定义书签。3. 3.5.其他“大数据”解决方案错误!未定义书签。3.
4、 3.2.9.EMC错误!未定义书签。3. 4.大数据解决技术发展前景错误!未定义书签。3. 4.1.大数据复杂度减少错误!未定义书签。4. 4.2.大数据细分市场错误!未定义书签。5. 4.3.大数据开源错误!未定义书签。6. 4.4.Hadoop将加速发展错误!未定义书签。7. 4.5.打包的大数据行业分析应用错误!未定义书签。8. 4.6.大数据分析的革命性方法出现错误!未定义书签。9. 4.7.大数据与云计算:深度融合错误!未定义书签。10. 4.8.大数据一体机陆续发布错误!未定义书签。4. 基于基站大数据应用及案例错误!未定义书签。4.1. 气象灾害应急短信发布平台错误!未定义书签
5、。4.1.1.概述错误!未定义书签。4.1.1.1.项目背景错误!未定义书签。4.1.1.2.平台概述错误!未定义书签。4.1.2.平台建设特点与原则错误!未定义书签。4.1.2.1.建设特点错误!未定义书签。4.1.2.2.建设原则错误!未定义书签。4.1.2.3.大数据管理平台特点错误!未定义书签。4.1.3.平台整体架构错误!未定义书签。4.1.3.1.建设原理错误!未定义书签。2.平台技术架构错误!未定义书签。4. 1.3.3.平台技术思绪错误!未定义书签。5. 1.3.4.平台技术路线错误!未定义书签。1 .内存数据库错误!未定义书签。2 .短信发送多链路配置错误!未定义书签。3 .
6、队列缓存错误!未定义书签。4 .参数可配置错误!未定义书签。4. 1.3.5.平台性能规定错误!未定义书签。4.1. 4.平台网络拓扑错误!未定义书签。4.2. 5.平台关键流程错误!未定义书签。4.1.5.1.平台数据流程错误!未定义书签。4.1.5.2,平台业务主流程错误!未定义书签。4.1.5.3.短信下发审批流程错误!未定义书签。4.1.5.4.信令分析解决流程错误!未定义书签。4.1.5.5.短信发送流程错误!未定义书签。4.1. 6.平台功能模块错误!未定义书签。4.1. 6.1.信令分析子系统错误!未定义书签。4.2. 6.2.短信发送子系统错误!未定义书签。1 .短信发送功能错
7、误!未定义书签。2 .短信回执接受功能错误!未定义书签。4.1.6. 3.管理子系统错误!未定义书签。1 .用户管理错误!未定义书签。2 .权限管理错误!未定义书签。3 .实时监控错误!未定义书签。4 .日记管理错误!未定义书签。5 .基站位置信息管理错误!未定义书签。6 .系统参数配置管理错误!未定义书签。6.1. 6.4,内容数据库子系统错误!未定义书签。4.1.7. 平台外部接口错误!未定义书签。4. 1.7.1.信令采集接口错误!未定义书签。1 .接口说明错误!未定义书签。2 .数据采集模式错误!未定义书签。4. 1.7.2.短信发送接口错误!未定义书签。1 .短信发送告知接口错误!未
8、定义书签。2 .短信发送状态查询接口错误!未定义书签。3 .短信发送接口错误!未定义书签。4. 1.7.3.基站位置信息接口错误!未定义书签。1 .数据同步模式错误!未定义书签。2 .基站位置信息全量同步接口错误!未定义书签。3 .基站位置信息增量同步接口错误!未定义书签。4.2.2.整体方案错误!未定义书签。4.2.2.1.方案思绪错误!未定义书签。4.2.2.2.分析范围错误!未定义书签。4.2.2.3.方案特点错误!未定义书签。4.2.3.方案设计错误!未定义书签。4. 2.3.1.系统关系错误!未定义书签。5. 2.3.2.系统架构错误!未定义书签。1 .数据分析后台能力错误!未定义书
9、签。2 .Web前台能力错误!未定义书签。4. 2.3.3.数据采集错误!未定义书签。5. 2.3.4.业务分析错误!未定义书签。1 .总体分析流程错误!未定义书签。2 .景区综合流量记录分析错误!未定义书签。3 .景区游客来源地构成分析错误!未定义书签。4 .景区全网总游客实时估算错误!未定义书签。5 .景区流量预判模型分析错误!未定义书签。6 .景区流量上限告警错误!未定义书签。7 .旅游景点热度排名分析错误!未定义书签。8 .旅游线路归类记录错误!未定义书签。9 .景区与相关场合关联分析错误!未定义书签。2 .界面辅助功能介绍3 .运营部门应用Portal错误!未定义书签。错误!未定义书
10、签。4.用户权限错误!未定义书签。1 .大数据概述1.1. 概述大数据,IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、公司决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提高、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。2001年后.互联网迅速发展,/瑞M成倍递量变引起质变,开始对数据管理技术提出全智的要求数据技术发展历史如图一所示:I960年代,IT系绕耗模和复亲度变
11、大,数据与应用分蓬的满求开始产生,数据序技术开始至芽并蓬勃发展.并在1990年后逐步统一至J以关系型散靠史为主导1946年,电脑诞生.数据与应用展蛋捆绑在文件中,彼此不分S就人管代母发迸件时GE公司发前第一人两空理型就罡三.但仗浪于GE自己的主机被,文理SQ1.诺言祓发明1946195119561961关系矣教据至ORAC1.E发布第-RSQ1.关系效据W后会快速发凄石雷仓毒开出清理,关不敢据库芬足全面音后亘二台无关.进入成熟期1970197419791991孟绍计发介式政文布谷论分具;良典999成;为APCChe;l顶级项目.些点支持海量数里分布式管理却分布式计算20032008京图一1.2
12、. 大数据定义“大数据”是一个涵盖多种技术的概念,简朴地说,是指无法在一定期间内用常规软件工具对其内容进行抓取、管理和解决的数据集合。IBM将“大数据”理念定义为4个V,即大量化(VoIUIne)、多样化(Variety)、快速化(VeIOCity)及由此产生的价值(VaIUe)。如图二;图二要理解大数据这一概念,一方面要从大入手,大是指数据规模,大数据一般指在IOTB(ITB=IO24GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特性可以用4个V来总结(Vol-umeVarietyValue和Veloc-ity),即体量大、多样性、价值密度低、速度快。数据体量巨大。从TB级别
13、,跃升到PB级别。数据类型繁多,如前文提到的网络日记、视频、图片、地理位置信息,等等。价值密度低。以视频为例,连续不间断监控过程中,也许有用的数据仅仅有一两秒。解决速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的“大数据不仅指数据自身的规模,也涉及采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过
14、解决巨量数据解决问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何解决巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。1.3.大数据技术发展大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值,并且未来急剧增长的数据迫切需要寻求新的解决技术手段。如图三所示:IDC报告DataUniverseStudy图三在“大数据(Bigdata)时代,通过互联网、社交网络、物联网,人们可以及时全面地获得大信息。同时,信息自身存在形式的变化与演进,也使得作为信息载体的数据以远超人们想象的速度迅速膨胀
15、。云时代的到来使得数据发明的主体由公司逐渐转向个体,而个体所产生的绝大部分数据为图片、文档、视频等非结构化数据。信息化技术的普及使得公司更多的办公流程通过网络得以实现,由此产生的数据也以非结构化数据为主。预计到2023年,非结构化数据将达成互联网整个数据量的75%以上。用于提取智慧的“大数据”,往往是这些非结构化数据。传统的数据仓库系统、BI、链路挖掘等应用对数据解决的时间规定往往以小时或天为单位。但“大数据”应用突出强调数据解决的实时性。在线个性化推荐、股票交易解决、实时路况信息等数据解决时间规定在分钟甚至秒级。全球技术研究和征询公司Gartner将“大数据”技术列入2023年对众多公司和组
16、织机构具有战略意义的十大技术与趋势之一,而其他领域的研究,如云计算、下一代分析、内存计算等也都与“大数据”的研究相辅相成。Gartner在其新兴技术成熟度曲线中将“大数据”技术视为转型技术,这意味着“大数据”技术将在未来3-5年内进入主流。而“大数据”的多样性决定了数据采集来源的复杂性,从智能传感器到社交网络数据,从声音图片到在线交易数据,也许性是无穷无尽的。选择对的的数据来源并进行交叉分析可认为公司发明最显著的利益。随着数据源的爆发式增长,数据的多样性成为“大数据”应用亟待解决的问题。例如如何实时地及通过各种数据库管理系统来安全地访问数据,如何通过优化存储策略,评估当前的数据存储技术并改善、
17、加强数据存储能力,最大限度地运用现有的存储投资。从某种意义上说,数据将成为公司的核心资产。“大数据”不仅是一场技术变革,更是一场商业模式变革。在“大数据”概念提出之前,尽管互联网为传统公司提供了一个新的销售渠道,但总体来看,两者平行发展,鲜有交集。我们可以看到,无论是GOOgIe通过度析用户个人信息,根据用户偏好提供精确广告,还是FaCebOOk将用户的线下社会关系迁移在线上,构造一个半真实的实名帝国,但这些商业和消费模式仍不能脱离互联网,传统公司仍无法嫁接到互联网中。同时,传统公司通过传统的用户分析工具却很难获得大范围用户的真实需求。公司从大规模制造过渡到大规模定制,必须掌握用户的需求特点。
18、在互联网时代,这些需求特性往往是在用户不经意的行为中透露出来的。通过对信息进行关联、参照、聚类、分类等方法分析,才干得到答案。“大数据”在互联网与传统公司间建立一个交集。它推动互联网公司融合进传统公司的供应链,并在传统公司种下互联网基因。传统公司与互联网公司的结合,网民和消费者的融合,必将引发消费模式、制造模式、管理模式的巨大变革。大数据正成为IT行业全新的制高点,各公司和组织纷纷助推大数据的发展,相关技术呈现百花齐放局面,并在互联网应用领域崭露头角,具体情况如下图四所示:商业解决方案 HP2011年推出VertIC唉据匹 Orade2011年堆出rQ数据层 EMC2010年收购GreenOk
19、Im Teradoto2011Asterdata,并搜出SQ1.-Mapreduce IBM0rtea SAP2011年收购反洗落开源解决方案开源组织Ap。Ch=2008年将目agQ2列为顶级项目2010#HBgSO自IjggQQp上诞生开源组织GNU2010#员KMCngog VmWqre2010年提供开供产品RQCliW Twitter2011年更供开源产品StOrm商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧垂.目前尚无统一的行业技术标准或技术领域细分规则传统企业互联网企业.互联隋企业IT实力强且海量数据处理猾求复为迫切,是大数据发起者.绰号者开发者和最
20、终使用者,大故军应用透景十分清峰 Google研发Giglgole并自行使用 Yoh。发起H229Hbase开源并自用.FACEBOOK.百度.旬宝等均使用 TWIttef开发SkXE自用并提供开深传统企业IT能力有袈.数据处遑工作主要依颊于系统集成窟,重点在应用实现,IT技术路线上以跟随成鲂技术.含升源技术:为主目前还是以数茹厚、数据仓庄技术为主,对大数据技术仍处于认知或小范克接素实验吃展,应用身景仍在分析后星中图四大数据将带来巨大的技术和商业机遇,大数据分析挖掘和运用将为公司带来巨大的商业价值,而随着应用数据规模急剧增长,传记录算面临严重挑战,大规模数据解决和行业应用需求日益增长和迫切出现
21、越来越多的大规模数据解决应用需求,传统系统难以提供足够的存储和计算资源进行解决,云计算技术是最抱负的解决方案。调查显示:目前,11专业人员对云计算中诸多关键技术最为关心的是大规模数据并行解决技术大数据并行解决没有通用和现成的解决方案对于应用行业来说,云计算平台软件、虚拟化软件都不需要自己开发,但行业的大规模数据解决应用没有现成和通用的软件,需要针对特定的应用需求专门开发,涉及到诸多并行化算法、索引查询优化技术研究、以及系统的设计实现,这些都为大数据解决技术的发展提供了巨大的驱动力,2.大数据应用2.1.大数据应用阐述大数据能做什么?我们那么多地方探讨大数据,无非总结下来就做三件事:第一,对信息
22、的理解。你发的每一张图片、每一个新闻、每一个广告,这些都是信息,你对这个信息的理解是大数据重要的领域。第二,用户的理解,每个人的基本特性,你的潜在的特性,每个用户上网的习惯等等,这些都是对用户的理解。第三,关系。关系才是我们的核心,信息与信息之间的关系,一条微博和此外一条微博之间的关系,一个广告和此外一个广告的关系。一条微博和一个视频之间的关系,这些在我们肉眼去看的时候是相对简朴的。比如有条微博说这两天朝鲜绑架我们船的事,那条微博也大约是谈这件事的。人眼一眼就能看出来。但是用机器怎么能看出来这是一件事,以及他们之间的因果关系,这是很有难度的。然后就是用户与用户之间的关系。哪些人你乐意收听,是你
23、的朋友,哪些是你感爱好的领域,你是一个音乐达人,你是一个吃货,那个用户也是一个吃货,你乐意收听他。这就是用户与用户之间的关系理解。尚有用户与信息之间的理解,就是你对哪一类型的微博感爱好,你对哪一类型的信息感爱好,假如牵扯到商业化,你对哪一类的广告或者商品感爱好。其实就是用户与信息之间的关系,他无非是做这件事。推荐系统大数据说的那么悬,其实重要是做三件事:对用户的理解、对信息的理解、对关系的理解。假如我们在这三件事之间还要提一件事的话,一个叫趋势。他也是关系的一种变种,只是关系稍微远一点,情感之间的分析,尚有我们政府部门做的舆情监控。他可以监控大规模的数据,可以分析出人的动向。在美国的好莱坞,这
24、两年也是基于FACEBOOK和TIWTTER的数据来预测即将上映的电影的票房。他也是一个趋势的分析,只是我们把这个趋势提前来。核心就是这三件事。2.2.大数据应用架构大数据应用平台成平食包括可视化输入苫数据接入平台一数据仓库2.3.大数据行业应用2.3.1.医疗行业1 .SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许公司找到大量病人相关的临床医疗信息,通过大数据解决,更好地分析病人的信息。2 .在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院可以提前知道哪些早产儿出现问题并且有针对性地采用措施,避
25、免早产婴儿夭折。3 .它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂己经代谢完毕会自动提醒你再次服药。2. 3.2.能源行业1 .智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励运用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来23个月时间里,整个电网大约需要多少电。有了这个预测后
26、,就可以向发电或者供电公司购买一定数量的电。由于电有点像期货同样,假如提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以减少采购成本。2 .维斯塔斯风力系统,依靠的是BigInSightS软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。运用大数据,以往需要数周的分析工作,现在仅需要局限性1小时便可完毕。2.3.3.通信行业1 .XoCommUniCatiOnS通过使用IBMSPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采用措施,保存客户。此外,IBM新的NeteZ
27、Za网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信公司制定更科学、合理决策。2 .电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的公司,这是全新的资料经济。3 .中国移动通过大数据分析,对公司运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕获市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。4 .NTTdOCOmO把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。2. 3.4.零售业1 .我们的某个客户,是一家领先的专业时装零售商,通过本地
28、的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从Twitter和Facebook上收集社交信息,更进一步的理解化妆品的营销模式,随后他们结识到必须保存两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。InfOnnatiCa的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目的性。2 .零售公司也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时
29、调整售价上给出意见,此类方法已经帮助某领先零售公司减少了17%的存货,同时在保持市场份额的前提下,增长了高利润率自有品牌商品的比例。3 .大数据解决方案3. 1.大数据技术组成大数据技术由四种技术构成,它们涉及:3.1.1. 分析技术分析技术意味着对海量数据进行分析以实时得出答案,由于大数据的特殊性,大数据分析技术还处在发展阶段,老技术会日趋完善,新技术会更多余现。大数据分析技术涵盖了以下的的五个方面3.1.1.1. 可视化分析数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。3.1.1.2,数据挖掘算法图像化是将机器语言翻译给
30、人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析尚有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要可以应付大数据的量,同时还具有很高的解决速度。3.1.1.3.预测分析能力数据挖掘可以让分析师对数据承载信息更快更好地消化理解,进而提高判断的准确性,而预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。3.1.1.4.语义引擎非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中积极地提取信息。3.1.1.5.数据质量和数据管理数据质量与管理是管理的最佳实践,透过标准化流程和机
31、器对数据进行解决可以保证获得一个预设质量的分析结果。我们知道大数据分析技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了连续增长的海量数据集。这些大数据中蕴藏着大量可以用于增强用户体验、提高服务质量和开发新型应用的知识,而如何高效和准确的发现这些知识就基本决定了各大互联网公司在剧烈竞争环境中的位置。一方面,以GoOgle为首的技术型互联网公司提出了MaPRedUCe的技术框架,运用便宜的PC服务器集群,大规模并发解决批量事务。运用文献系统存放非结构化数据,加上完善的备份和容灾策略,这套经济实惠的大数据解决方案与之前昂贵的公司小型机集群+商业数据库方案相比,不仅没有丢失
32、性能,并且还赢在了可扩展性上。之前,我们在设计一个数据中心解决方案的前期,就要考虑到方案实行后的可扩展性。通常的方法是预估此后一段时期内的业务量和数据量,加入多余的计算单元(CPU)和存储,以备不时只需。这样的方式直接导致了前期一次性投资的巨大,并且即使这样也仍然无法保证计算需求和存储超过设计量时的系统性能。而一旦需要扩容,问题就会接踵而来。一方面是商业并行数据库通常需要各节点物理同构,也就是具有近似的计算和存储能力。而随着硬件的更新,我们通常加入的新硬件都会强于已有的硬件。这样,旧硬件就成为了系统的瓶颈。为了保证系统性能,我们不得不把旧硬件逐步替换掉,经济成本损失巨大。另一方面,即使是当前最
33、强的商业并行数据库,其所能管理的数据节点也只是在几十或上百这个数量级,这重要是由于架构上的设计问题,所以其可扩展性必然有限。而MaPReCiUCe+GFS框架,不受上述问题的困扰。需要扩容了,只需增长个机柜,加入适当的计算单元和存储,集群系统会自动分派和调度这些资源,丝毫不影响现有系统的运营3.1.2.存储数据库存储数据库(In-MemoryDatabaSeS)让信息快速流通,大数据分析经常会用到存储数据库来快速解决大量记录的数据流通。比方说,它可以对某个全国性的连锁店某天的销售记录进行分析,得出某些特性进而根据某种规则及时为消费者提供奖励回馈。但传统的关系型数据库严格的设计定式、为保证强一致
34、性而放弃性能、可扩展性差等问题在大数据分析中被逐渐暴露。随之而来,NOSQ1.数据存储模型开始风行。NoSQ1.,也有人理解为NOtOnlySQ1.,并不是一种特定的数据存储模型,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQ1.并不是单纯的反对关系型数据库,而是针对其缺陷的一种补充和扩展。典型的NoSQ1.数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等NoSQ1.数据库是一种建立在云平台的新型数据解决模式,NoSQ1.在很多情况下又叫做云数据库。由于其解决数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种
35、交互性应用快速解决过程中的海量数据。它为Zynga、AO1.Cisco以及其它一些公司提供网页应用支持。正常的数据库需要将数据进行归类组织,类似于姓名和帐号这些数据需要进行结构化和标签化。但是NoSQ1.数据库则完全不关心这些,它能解决各种类型的文档。在解决海量数据同时请求时,它也不会有任何问题。比方说,假如有1000万人同时登录某个Zynga游戏,它会将这些数据分布于全世界的服务器并通过它们来进行数据解决,结果与1万人同时在线没什么两样。现今有多种不同类型的NoSQ1.模式。商业化的模式如CouchbaseAIOgen的mongoDB以及Oracle的NoSQ1.;开源免费的模式如Couch
36、DB和CaSSandra;尚有亚马逊最新推出的NOSQ1.云服务。3.1.3.分布式计算技术分布式计算结合了NoSQ1.与实时分析技术,假如想要同时解决实时分析与NoSQ1.数据功能,那么你就需要分布式计算技术。分布式技术结合了一系列技术,可以对海量数据进行实时分析。更重要的是,它所使用的硬件非常便宜,因而让这种技术的普及变成也许。SGl的SUnnySUndStrom解释说,通过对那些看起来没什么关联和组织的数据进行分析,我们可以获得很多有价值的结果。比如说可以分发现一些新的模式或者新的行为。运用分布式计算技术,银行可以从消费者的一些消费行为和模式中辨认网上交易的欺诈行为。分布式计算技术让不也
37、许变成也许,分布式计算技术正引领着将不也许变为也许。SkyboxImaging就是一个很好的例子。这家公司通过对卫星图片的分析得出一些实时结果,比如说某个城市有多少可用停车空间,或者某个港口目前有多少船只。它们将这些实时结果卖给需要的客户。没有这个技术,要想快速便宜的分析这么大量卫星图片数据将是不也许的。如图五所示:图五分布式计算技术是Google的核心,也是Yahoo的基础,目前分布式计算技术是基于GoogIe创建的技术,但是却最新由Yahoo所建立。GOOgle总共发表了两篇论文,2023年发表的叫做MapReduce的论文介绍了如何在多计算机之间进行数据解决;另一篇于2023年发表,重要
38、是关于如何在多服务器上存储数据。来自于YahOo的工程师DougCutting在读了这两篇论文后建立了分布式计算平台,以他儿子的玩具大象命名。如图六所示1l三S)0PoweredbyApacheHadoop图六而Hadoop作为一个重量级的分布式解决开源框架己经在大数据解决领域有所作为3.2.大数据解决过程3.2.1.采集大数据的采集是指运用多个数据库来接受发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简朴的查询和解决工作。比如,电商会使用传统的关系型数据库MySQ1.和Oraele等来存储每一笔事务数据,除此之外,RediS和MOngoDB这样的NOSQ
39、1.数据库也常用于数据的采集。在大数据的采集过程中,其重要特点和挑战是并发数高,由于同时有也许会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达成上百万,所以需要在采集端部署大量数据库才干支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要进一步的思考和设计。3.2.2.导入/预解决虽然采集端自身会有很多数据库,但是假如要对这些海量数据进行有效的分析,还是应当将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简朴的清洗和预解决工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流
40、式计算,来满足部分业务的实时计算需求。导入与预解决过程的特点和挑战重要是导入的数据量大,每秒钟的导入量经常会达成百兆,甚至千兆级别。3.2.3.记录/分析记录与分析重要运用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlumOracle的Exadata,以及基于MySQ1.的列式存储Infobright等,而一些批解决,或者基于半结构化数据的需求可以使用Hadoop0记录与分析这部分的重要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。3.2.4.挖掘与
41、前面记录和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,重要是在现有数据上面进行基于各种算法的计算,从而起到预测(PrediCt)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的KmeanSs用于记录学习的SVM和用于分类的NaiveBayes,重要使用的工具有HadOoP的MahOUt等。该过程的特点和挑战重要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。整个大数据解决的普遍流程至少应当满足这四个方面的环节,才干算得上是一个比较完整的大数据解决3.3.大数据解决的核心技术-HadOOP大数据技术涵盖了硬软件多个方面的技
42、术,目前各种技术基本都独立存在于存储、开发、平台架构、数据分析挖掘的各个相对独立的领域。这一部分重要介绍和分析大数据解决的核心技术一一Hadoop03.3.1.Hadoop的组成大数据不同于传统类型的数据,它也许由TB甚至PB级信息组成,既涉及结构化数据,也涉及文本、多媒体等非结构化数据。这些数据类型缺少一致性,使得标准存储技术无法对大数据进行有效存储,并且我们也难以使用传统的服务器和SAN方法来有效地存储和解决庞大的数据量。这些都决定了“大数据”需要不同的解决方法,而HadoOP目前正是广泛应用的大数据解决技术。HadOOP是一个基于Java的分布式密集数据解决和数据分析的软件框架。该框架在
43、很大限度上受Google在2023年白皮书中阐述的MapReduce的技术启发。Hadoop重要组件包含如图七:PigQatoFIDW)Hive(SQ1.)Programming1.anguagesZeqE4MapReduce(OfttbUtodPttQramngFrwnMorti)ComputationHCataIog(MetaDMa)HBase(CaiUrmrStorage)TableStorageObjectStorageHDFS(H4dopDatnbUdFteSyeemj图七HadoopCommon:通用模块,支持其他Hadoop模块HadoopDiStributedFi1eSyste
44、m(HDFS):分布式文献系统,用以提供高流量的应用数据访问HadoopYARN:支持工作调度和集群资源管理的框架HadoopMapReduce:针对大数据的、灵活的并行数据解决框架其他相关的模块尚有:ZooKeeper:高可靠性分布式协调系统Oozie:负责MaPRedUCe作业调度HBase:可扩展的分布式数据库,可以将结构性数据存储为大表HiVe:构建在MapRudece之上的数据仓库软件包Pig:架构在HadOOP之上的高级数据解决层在Hadoop框架中,最底层的HDFS存储Hadoop集群中所有存储节点上的文献。UDFS的架构是基于一组特定的节点构建的(如图八),Replicated
45、datablocks图八这些节点涉及一个NameNode和大量的DataNOde。存储在HDFS中的文献被提成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAlD架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文献时由客户机决定。NameNode可以控制所有文献操作。HDFS内部的所有通信都基于标准的TCP/IP协议。NalneNOde在HDFS内部提供元数据服务,负责管理文献系统名称空间和控制外部客户机的访问。它决定是否将文献映射到DataNode上的复制块上。DataNode通常以机架的形式组织,机架通过一个互换机将所有系统连接起来。HadoopMapRe
46、duce是GoogleMapReduce的开源实现。MapReduce技术是一种简洁的并行计算模型,它在系统层面解决了扩展性、容错性等问题,通过接受用户编写的Map函数和Reduce函数,自动地在可伸缩的大规模集群上并行执行,从而可以解决和分析大规模的数据6。HadOOP提供了大量的接口和抽象类,从而为HadooP应用程序开发人员提供许多工具,可用于调试和性能度量等。在Had。P应用实例中,一个代表客户机在单个主系统上启动MapReduce的应用程序称为JobTraCkero类似于NameNOde,它是Hadoop集群中唯一负责控制MaPRedUCe应用程序的系统。在应用程序提交之后,将提供包含在HDFS中的输入和输出目录。JobTracker使用文献块信息(物理量和位置)拟定如何创建其他TaskTracker从属任务。MapReduce应用程序被复制到每个出现输入文献块的节点,将为特定节点上的每个文献块创建一个唯一的从属任务。每个TaSkTraCker将状态和完毕信息报告给JObTraCkero如图显示一个示例集群中的工作分布,如图九:图九3.3.2.Hadoop的优点:Hadoop可以使用户轻松开发和运营解决大数据的应用程序。它重要有以下几个优点:3.3.2.1.高可靠性。Hadoop按位存储和解决数据的能力值得人们信赖。3.3.2.2.高扩展性。Hadoop是在可用的