2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx

上传人:夺命阿水 文档编号:942521 上传时间:2024-01-23 格式:DOCX 页数:151 大小:1.90MB
返回 下载 相关 举报
2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx_第1页
第1页 / 共151页
2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx_第2页
第2页 / 共151页
2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx_第3页
第3页 / 共151页
2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx_第4页
第4页 / 共151页
2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx_第5页
第5页 / 共151页
点击查看更多>>
资源描述

《2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx》由会员分享,可在线阅读,更多相关《2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx(151页珍藏版)》请在课桌文档上搜索。

1、企业大数据处理:SparkDruidFlUme与Kafka应用实践本书分三部分展开介绍:第部分(第1章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第27堂)首先介绍Spaik的基本除理,SPark20版本的SPalkSQLSuuciuredSueaming倏理和使用方法,以及SPark的多种优化方式:然后,介绍/Dmid的基本原理、案器的搭建过程、数据摄入过阳以及在杳询过程中如月实现Dwid杳询API:接着介匏了日志收集系统FlUme的整本架构和关穗粗件,以及分层日志收集架构的设计与实践:鼠后介绍了分布式消息队列Kafka的些本架构雌

2、群搭建过黑以及使用JaVa语言实现客户端APi的脚过程.第三部分(第89南)主要介绍了企业大数据处理的两个实际应用案例,分别是基于DrUd构建多维数据分析平台和基HMX指标的监控系统.第一部分准备工作1AS础环境ift稿第1章基础环境准备1.1软件襁准备软件版本选择:操作系绦CentOS66版本;JDK:17版本:Maven:3,2版本:Scala:210版本。所有软件安装目录:/data/Soft。确定了软件版本后,即将具体介绍软件的安装,本节主要介绍基曲的款件安装方式。IJDK安装JDK是JaVaDevebpmemK:t的简称,为JaVa语言开发的程序梃供开发工具包和运行环境,JDK安装的

3、步骤如下:(1卜,载JDK二进制安装包WgCthttpzdwnlad.oracle.aotn-pubjavajclk7ul5-b03jdk-7ul5-limtx-x64.tar.gz(2解压安装tar-zxvfjdk-7ul5-liux-x64.tar.gz(3)创建软连接软连接相当于快捷方式,便于后续版本更新升级。Is-Sdatasoftjdk-7ul5-linux-x64usrlocaljdk(配置环境变量vim etcproflcEusrlocaljdk=SIAVA H0WEj,e=.:$JAVA_HOME/1 ibdt. iar:$IAVA_HOME/l ibtls. jar:SJ R

4、E,H0WE ib: SCISSPAIMexportPAIB:SPAlIk$JAvAJK)ME/bin刷新环境变量使其生效:source/etc/profile(5)验证安装是否成功查看JDK版本命令:java-vers:On2Maven安装XaYen是APaehe开源的一个目前比较湍行的项Fl管理和整合工具,能够自动完成项目的构建,并根据配置文件自动下就依敕组件,提供代理笫译、打包、发布等功能,下面介绍MaYeMm羊细安装过程。NaYen安装的步骤如下:(I)下载MaVen二进制安装包WRethttpxapache(navenfiaven-33.3-9binariesapache-ffa,e

5、n-3.3.9-bin-tar.gz(2解压安装tar-zxvfapachenaven-3.3.9-bln.tar.gz(3)创建软连接软连接相当于快捷方式,便于后绘版本更新升级。IS-sdatasoftapachc-maven-3.3.9-binusrlocalravtn配置环境变垃vimetcproflcexportM2JI0WE=usrlottilravcnexportPAlB=SPAnk$JAVAJoME/bin:JMZJOHbin刷新环境变量使其生效:source/etc/profile(5)验证安装是否成功查看MaYen版本命令:mvn-versionSScaIa安装SCaIa编程

6、语言是一种面向对象的函教式编程语言,充分屣现了函数式编程语言简约,高效的特点,在程序开发的过程中可以引入JHVa语言,可扩展性强,由于SCaM具有很多优秀的特性,越耒越多的开源项目使用SCaIa语言开发,比如SPark、Kafka等。下面详缰介绍SCaIa开发环境的安装过程.ScaIa安装的步骤如下:(1)下就JDK二进制安装包wgethttp:/dcmnloads.Iscala2.10.6scala-2.10.6.tgz(2)解压安装tar-zxvfscala-2.10.6.t(3)创建软连接软连接相当于快捷方式,便于后续版本更新升级。IS-Sdatasoftscala-2-10.6usrl

7、ocalsc下载JDK二进制安装包WgCthttp:/donnlaads.lightbcnd.cs0la2.10.6scala-2.10.6.tgz(2解压安装tar-zxvfscala-2.10.6.tgz创建软连接软连接相当于快捷方式,便于后续版本更新升级。Is-Sdatasoftscala-2.10.6usrlocalla(4)配置环境变显vimetcprofilcexportSCAIA.HOME=/usr/local/scalaexportPATlI:SfWnk$JAVAJi0WE/bin:$M2JI0H/bin:$SCALA_H0WE/bin刷新环境变量使其生效:source/etc

8、/profile(5)验证安装是否成功查看SCaHiI本命令:scala-version1.2集群环境准备121ZoOkeePer集群部署ZoOkeePer是大数据系统中常用的分布式框架,主要用于公共配置管理、集群资源一致性管理、状态管理、部分分布式系统Leader选举等,卜面通过完全分布式搭建方式进行介绍.1维需规划由于Zookeeper采用FaStLeadeIEMUon算法选举Leader集群中过半的机器正常运行才能够成功选举Leadeh为保证集群正常运行.集群部署的节点数为奇数个,见少节点个数为3,生产环境建议都署5个以上的奇数个节点,因为3个实例其中只要有个实例不可用,整个ZOOkee

9、Per案神将无法成功选举,仍然不可以提供服务。2.部署过程本例将以三个节点的部署为例,分别在192.16&1.1、192168.L2、192168J.3三台服务器孤署一个ZookeePeT实例。详细都署过程如下:(1)下载安装包并解压wgethttpzapacle.fayea.co(zookeeperz(x)keeper-3.4.6z0keeper-3.4.6.tar.gz解压到/data/SOft目录下:tar-wcvfhttp:/aache.fhyea.cozodkeeerzookeeer-3-4-6zookeeer-3-4-6-tr.g-Cdatasoft(2)创建软连接创建软连接便于以

10、后升级版本,方便统一管理。Is-Sdatasoftzkeeper-3.4.6.usrlocalzookecpcr(3设置环境变量vimetcprofileexportZOOKEEPERJK)ME=usr1oca1/zkeeperexportPAiB:SPRTH:$JAVA_HOME/l)in:W_HOH/l)in:$SCAIA_HOWE/l)in:SZooKH/RjioYE/Mn刷新环境变量使其生效:Source/etc/profile配置进入到ZoOkeeP。佞装目录:cd/usr/local/zookeeper拷贝一份COMll录下的配J?文件,重命名为ZOodg:cp./con(yzoo

11、_saniple.c厄,Confzoocfg编辑配置文件设置关健参数:tiCkTirre=ZO(X)initLimit=5SyncLimit3crataDir=datazkecperdataserwr-l=192.168.1.1:2888:3888server.2=192.168.1.2:2f8:3ft88scrvcr.3=192.168.1.3:2888:3888关键参数说明:tidirw,ZOokEper中的幕稿卷为时同.所打与时间相关的设亶和为tidcTime时间的整数倍,峨位是修沙- initLimit:ZookeeperLeaderljFo11ower新WiJ生接明FoIlOWer九

12、醛从LeaderH步最斯致也.垓侑&示FOllOWerN小数檄的最大WS时时同.殷为祭敬.表示是tickT1me的触数ftWJ.- SyncLImitLeader和FOllOwerZ向心跳检般的我力面时时阿超过这个时问则认为FOlIgen眼卜线,i妾*数值为婺数,表不是tid创建hadoop用户和组groupaddhadoopuseraM-m-ghadoopltadp(3)下教安装包并解压先安装hadoop01,然后将配置好的安装包拷贝到其他节点。wgethttpzw*w.apache.ogdynclGser.-2.6.5.tar.解Ik到指定目录datasoft下tar-ZXVrhaloop

13、-2.6.5.tar.g-C/data/Softz(4)创建软连接并修改属生为hadoop创建软连接便于以后升级版本,方便统一管理。In-S/data/Soft/hadoop-2.6.Susrlocalhadoopdhm-Rhadoopxnadpusrlocalhadp(5)设置环境变量vimetcprlcexportHAlXK)P-HME=usrloca1/IwdoopCXPortPHI=SPA1H:$JAVA_fOWE/bin:$tajlON/bin:$SCAlA_HONE/bin:$ZO0KEEPERJ1OME/bin:$HADOOPJaME/bin刷新环境变量使其生效sourceetc

14、profilc(6)设置配置文件aHDFS相关的酣S文件COreFiexinl和hd仔3e.xmLCOre-site,m置置信息如下:f.defhultFS-y11frehdfs:/nslhadp.tp.dirusrlocalhadwptpha-ZoOkeq)erquorumhadp01z218Lhadoop02218Lhadoop03三2181nflgMmtionhdfssiiaxm【配置信息如下:dfnacscrvincionsldf.ha.nancnodcs.nslnnl,nn2!-nnl的RPC通矽地址dfs.nacn(xle.rpc-addrss.nsl.nnlrurohadpl:9

15、000!-nnl(11httpi!jJtkM:df.nancrxxie.http-acklrcss.nsl.nnlhadpl:50070!-nn2的RPcja曾珈址a!- nn2的http通信地址dts.had.nsl.m2dfsamcnode.rpc-addrcss.nsl.n2hadoop02:9000dfs.naenode.shaed.edits.dirqjoumal:/hadwp01:848S;hadwp02:848S;hadoop03:8485/nsldfs.joumalnode.cdits.dirusrlocalhadoopjoumaledts.ha.autatic-fai1wer

16、.enabledtuedfs.client.failover.pxy.provider.nsl(H-R.apache.hadcx)p.hdfs.server.na(nenode.ha.CongrcclFaiIovcrProxyFrovidcrdf.ha.fcncin.methodsnamosshfenceenamexlf.ha.fcncing.ssh.PriVutC-key-flcsroot.sshi-rsaamexlfs.datanodc.filcd.volucs.tolcrtcd2dfs.rolication3!-fsirrRgefueditZ件/f砧环amexff.nancnode.na

17、me.clirdatahadpdataldfnatnedfdatanodc.datii.dirnancdatahadpdataldfdata,datahadpdata2dfdata!-blod*大小512M-Qamexlfs.block.sizeS36870912/propertynfgtion向StaVeS文件潘jtadatanode,nodemanagej节点的hostname:bYARN相关配置文件。yam-siteXinl配置信息如下:U-TfA=ResourceManagerHAyjrn.rurcxranagabltdtre!-JFjftReSOUrCeManager多;改门动切换y

18、m.rvsourccmanagr.ha.autatic-fiilovr.cablcdtreey5im.rsourxtmanagrrecovery.tfublltrueyiim.FCsOUrXemanagwha.rm-idsrmUr2W2r25gJ溢华未指定队列名时.指定用户名作为应用程序所在的队列名-ym.scheduler,fiir.uscr-is-icfult-quctrueym.rsourcanagr.store.classorg.apache.hadcxp.ya.server.rcsurcefranagcr.recvery.ZKRNtnteStoreyamresourcemanager

19、cluster-ick/nane*yam-layam.resournanager.hostname,rmlmlyamresournanager.webapp.address.nlityam.resourcemanaer.bostna(De.nl:8088yarn.resourcemanager,hostume.i2r2elueyarn.n?sxircxffarugcr.wxpp.acklrss.rm$yam.resurcefnanager.l)ostname.r2):!MJdeManger方点可使用的总内存大小-ayam.nodemanager,resource.mexry-rrb81920y

20、am.nodemanager,nesource.cpu-vcones10yam. resourccmanagr. zk-addressbadoop01:218Uhadoop02:218Uhadoop03:2181!-NM4Hyam. nodanagerfilezdataha,Hledatairs 1talyamlog data2yamlog!-.AppliCationMasterlS用的内“大小一yarn.app.apreduce.am.resource.b2048v!-单个任务可申请的被少物理内“Myam.schcduler.minirru-allocation-b1024V!一单个任务DJ

21、申请的外名物理内喊一AVPrOPertyyam.schedulcr.三xirru-allocati-rrb8192eV常个任务11J申请的级少VCoreMayam.scheduler.minimu-allocation-vcreslv!小个任务可申语的4名VCoreh1yam.scheduler.maxirru-allocation-vcones10yam.iog-aggregation-cnabletuev!邂合H力保“时长,取位秒一yam.log-aggregation.retain-seconds2S92v!一聚介HAHDFS“储路恰ayam.nodeanagcr.rarotc-app-

22、log-dirdatahadoopyan-1ogsv!一破用小中网度器-Ayam.resourcemanager,scheduler.classot*g.apache.hacicp.yam-sevev*.r*esourcefranager.scheduler.fair.FaicSciKxIuIc使用公平典电愿配Bt文件路彼yscheduler,fiir.aIIoaition.filcusrlocalhadoopetrhadpfair-scheduler.!nl“configuration,mapred-site.xmi配置信息如下:rraprcduce.jobhistxrv.addressha

23、dpl:10020frnpreduce.Jobhistory.*ebapp.addresshadpl:19888VaiueArrapreduce.jobhistoy.joblist.cache.size200000rapreduce.frameoik.naeycmvrraDreduce.rap.mefrory.b1024errnpreduce.reduce.mefrory.tnb819211flpreduce.nap.java.opts-Xwl700n-Xrs900rraprducc.reduce.java.opts-Xrw716-Xms3000ttfrnpreduce.client.sulxit.le.replicatiowme20!-buser.na

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号