云计算基础知识归纳.docx

上传人:夺命阿水 文档编号:1575247 上传时间:2024-08-05 格式:DOCX 页数:5 大小:54.46KB
返回 下载 相关 举报
云计算基础知识归纳.docx_第1页
第1页 / 共5页
云计算基础知识归纳.docx_第2页
第2页 / 共5页
云计算基础知识归纳.docx_第3页
第3页 / 共5页
云计算基础知识归纳.docx_第4页
第4页 / 共5页
云计算基础知识归纳.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《云计算基础知识归纳.docx》由会员分享,可在线阅读,更多相关《云计算基础知识归纳.docx(5页珍藏版)》请在课桌文档上搜索。

1、由于云计算分为IaaS、PaaS和SaaS三种类型,不同的厂家又供应了不同的解决方案,目前还没有一个统一的技术体系结构,对读者了好云计算的原埋构成了障碍.为此,本文综合不同厂家的方案,构造了一个供商堆的云计算体系结构,这个体系结构如图3所示,它概括了不同斛决方案的主要特征,每一种方案或许只实现了其中部分功能.或许也还有部分相对次要功能尚未概括进来.SoA构立发*a第务注册服务育找*务5何服务工作.J物理货竦计算机#储器网络设俺奴搪埠软件图3云计算技术体系结构云计算技术体系结构分为4层:物理资源层、资源池层、管理中间件层和SoA构建层,如图3所示.物理资源层包括计算机、存储器、网络设施、数据库和

2、软件等:资源池层是将大承相同类型的资源构成同构或接近同沟的资源池,如计修资源池、数据资源池等,构建资源池更多是物理资源的集成和管理工作.例如探讨在一个标准集装箱的空间如何装下2000个眼芬器、解决散热和故障节点替换的问题并降低能混:包理中间件负说对云计算的资源进行管理,井对众多应用任务i三行调哎,使资源能携高效、平安地为应用供应服务:SOA构建层将云计舞实力封装成标准的WebSCrYiCCS服务,并纳入到SoA体系进行管理和运用,包括服务注册、查找、访问和构建服务工作流等.管理中间件和资源池层是云计舞技术的最关雄部分,SOA构建层的功能更多依靠外部设施供应.云计算的管理中间件负货资源管理、任务

3、管理、用户管理和平安管理等工作。资源管理负五均衡地运用云资源节点,检测节点的故障井试图发原或屏蔽之,并对资源的运用状况进行监视统计:任务管理负费执行用户或应用提交的任务,包括完成用户任务映望(Image)的部署和管埋、任务两度、任务执行、任务生命期管理等等:用户管理是实现云计算商业模式的一个必不行少的环节,包括供应用户交互接口、管理和识别用户身份、创建用户程序的执行环境、肉用户的运用进行计龙等:平安管理保障云计仪设柩的整体平安,包括身份认证、访问授权、综合防护和平安审计等.基于上述体系结构,本文以IaaS云计算为例,简述云计算的实现机制,如图4所示.用户交互接口向应用以WebSerVieeS方

4、式供应访问接口,获得用户褥求,服务书目是用户可以访问的服务清单.系统管理模块负责管理和安排全部可用的资源,其核心是例般均衡“鼠置工具负责在安排的节点上打算任务运行环境.监视统计模块负货监视节点的运行状态.并完成用户运用节点状况的统计执行过程并不困雄:用户交互接门允许用户从书目中选取并调用一个服务,该国求传递给系统管理模块后,它将为用户安排恰当的资源,然后调用配汽工具来为用户打算运行环境。I1.adoUPHDFS特性简介一、设计里想1、硬件失效是“常态件务而非”偶然事务”.HDFS可能是有上千的机据组成(文档中描述的YahOO!一个HadOoP集群有4096个节点),任何一个SI件都有可能始终失

5、效.因此数据的健壮性错误检测和快速、自动的复原是IIDFS的核心架构目标。2、流式数据访问.运行在HD图上的应用和一般的应用不同,须要流式访问它们的数据集.HPFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关槌的在于数据并发访问的高吞吐量.POSIX标准设置的许多硬性约束对IIDFS应用系统不是必需的.为了提高数据的吞吐量,在一些关使方面对POSIX的语义做一些修改.3、HDFS应用对文件要求的是Writeone-readmany访问模型“一个文件经过创建、写.关闭之后就不须要变更.这一假谀简化了数据样性向即,使鬲吞吐JN的数据访问成为可能.典型的如Ya

6、PRedUCe框架,或者一个WebCraWIer应用都很适合这个模型。4、移动计算的代价比之移动数据的代价低,个应用恳求的计算,面它掾作的数据越近就越高效,这在数据达到海量级别的时候更是如此。将计算移动到数据旁边,比之将数据移动到应用所在明显更好,HDFS供应应应用这样的接口.5、在异构的软硬件平台间的可移抗性.二、Naaenode和Datanode的划分一个HDFS集群有一个Naenodc和肯定数目的Datanodc组成.Niiiiieriode是一个中心服务港,负费管理文件系统的naiiiespace和客户端对文件的访问.Datanode在集群中会有多个一般是一个节点存在一个,负贲管理其自

7、身/点上它们附带的存储.在内部,一个大文件其分成一个或多个b1.ock,这些b1.ock存储在DatanQde集合里。NamemXie执行文件系统的namespace相关探作,例如打开、关闭、重命名文件和书目,同时确定了b1.ock到具体DaIanode节点的映射。Dd1.iJnodC在Namenodc的指挥卜进行b1.ock的创建、删除和复制.单一节点的Namenode大大简化了系统的架构,Namcncde负法保管和管理全部的HDFS元数据,因而在恳求Namenode汨到文件的位词藉就不须要通过Namenode参加而干.卯:从Patanode进行。为了提高Na三node的性能,全部文件的na

8、mespace数据摆在内存中维护,所以就天生存在了由于内存大小的限制导致一个HDFS集群的供应服芬的文件数属的上限.依据目前的文档,一个元数据(一个HDFS文件块儿占用200ByteS,假如是页面抓取的小文件,则32GB内存能承载1.5亿左右的文件存储(有待精确具体测试)三、文件系统操作和aespece的关系H1.)FS支持传统的层次型文件组织,与大多数其他文件系统类似.用户可以创建书目,并在其间创建、删除、移动和由命名文件。HDFS不支持USerquotas和访问权限,也不支持链接(1.ink),不过当前的架构并不解除实现这些特性,Nuiiienude维护文件系统的namespace,任何对

9、文件系统namespace和文件随性的修改都将被Namenode记录下来.应用可以设置HM:S保存的文件的副本数目,文件副本的数口称为文件的rep1.ication因子,这个估息也是由Naeenode保存。四、M复制HDFS被设计成在,个大集群中可以跨机器地牢隼地存储海M的文件。它将好个文件存储成b1.ock序列,除了G终一个b1.ock,全部的b1.。Ck都是同样的大小.文件的全部bkCk为了容错都会被更制.每个文件的b1.ock大小和rep1.ication因子都是可配置的.Rep1.ication因子可以在文件创建的时快配置.以后也可以变更.HDFS中的文件是“ite-on。,并且严格要

10、求在任何时候只有一个WriIer。NamenOde全权管理b1.ock的复制,它周期性胞从集群中的每个Datanodc接收心跳包和一个B1.ockrcport.心跳包的接收表示该DaIanodC节点正常工作,而H1.ockreport包括了该Datanode上全部的b1.ock组成的列表.1、副本的存放副本的存放是HDFS牢辕性和性能的关键.浩大的HDFS实例一般运行在多个机架的计算机形成的维即上,不同机架间的两台机器的通讯须要通过交换机,明显通常状况下,同一个机架内的两个节点间的带宽会比不I司机架间的两台机器的带宽大。在大多数状况下,rep1.ication因子抽3,HDFS的存放策略是将一

11、个副本存放在本地机架上的节点,一个副本放在同一机架上的另一个节点,最终一个副木放在不同机架上的一个节点。机架的错误远远比节点的错误少,这个策略不会影响到数据的牟瑾性和有效性,三分之一的副本在一个节点上,三分之二在-个机架上,其他保存在剜下的机架中,这一策略改进了写的性能.2,剧本的选择,为了降低整体的带宽消耗和读延时,HDFS会尽Iftikreader读最近的副本.假如在reader的同一个机架上有一个副本,则就读该副本.假如一个HDPS集群盼越多个数据中心,则reader也将首先尝试读本地数据中心的副本。3、SafeModeNiiiiieriode启动后会进入一个称为SafcModc的特别状

12、态,处在这个状态的NamenUdC是不会进行数据块的更制的.NamenOd。从全部的Datanode接收心跳包和B1.oCkrePort。B1.ockreport包括了某个Datanode全部的数据块列表,每个b1.ock播有指定的最小数目的副木。当NaMnMe检测确认某个Da1.an1.Xie的数据块副本的最小数目,则该Datanode就会被认为是平安的:假如落定百分比这个参数可配置)的数据块检测确认是平安的,则Namenode将退H1.SafeMode状态,接下来它会确定还有哪些数据块的副本没有达到指定数目.并将这些b1.ock更制到其他Datanode.五、文件系烧元数据的长久化Na1.

13、nenOde存储H1.)FS的元数据.对于任何对文件元数据产生修改的操作,Namenode都运用一个称为EdiUog的小务11忐记录下来。例如,在HDFS中创建一个文件,Naeenode就会在Edi1.Iof(中插入-条记录来表示;同样,修改文件的rep1.ica1.ion因子也将往Edi1.1.OR插入一条记录.Xunenodc在本地OS的文件系统中存谛这个Edit1.og.整个文件系统的namespace.包括b1.。Ck到文件的映射、文件的属性,都存储在称为Fs1.age的文件中,这个文件也是放在NRenOde所在系统的文件系统上.Namenode在内存中保存着整个文件系统naespac

14、e和文件B1.ockmap的映像,这个关键的元数据设计得很紧凑,一股为200By1.cs的内存占用,因而一个带有4G内存的NamCnUde足弊支掠海量的文件和书目.当Namenode启动时,它从硬盘中读取Edit1.Og和Fsage.符全部EditIOg中的事务作用(app1.y)在内存中的FS1.1.nage,并将这个新板本的FSImage从内存中f1.ush到硬fit上,然后再truncate这个旧的Edit1.og,因为这个旧的Bdit1.og的事务都已经作用在FS1.ma上了。这个过程称为ChCCkPoin1.o在当前实现中checkpoint只发生在N三enode启动时,在不久的招来

15、我们构实现支持周期性的checkpoint.DatnnOdC弁不知道关于文件的任何东西,除了将文件中的数据保存在本地的文件系统上,它把年个HDFS数据块存储在本地文件系统上隔离的文件中。Datanode并不在同一个书目创健全部的文件,相反,它用启发式地方法来确定每个曲目的最佳文件数目,并且在适当的时候创建子书目.在同一个书目创建全部的文件不足最优的选择,因为本地文件系统可能无法高效地在雎一书目中支持大破的文件.当一个DatanOde启动时,它扫描本地文件系统,对这些本地文件产生相应的一个全部HDFS数据块的列表,然后发送报告到NamenOde,这个报告就是B1.ockreporte六、通讯林议

16、全部的HDFS通讯协议都是构建在TCP/IP协议上,客户如通过一个可配置的湘11连接到Namenode,通过CIien1.ProtoCO1.与Namenode交互。而Datanode是运用DatanodeProtoco1.与Naaenode交互。从CIienCprOtoCo1.和Datanodeprotoco1.抽象IH-个远程调用(RPe),在设计上,Nwnode不会主动发起RPC.而是是晌应来自客户端和Etatanode的RPC恩求.七、健壮性HPFS的主要目标就是实现在失败状况下的数据存储率库性。用.见的三种失败;Mmenodefai1.ures,Datanodcfai1.ures和网络

17、分别(networkpartitions)1,怏盘数据饰以、心跳检测和重新复制每个DatanCde节点都向Namenode用期性地发送心跳包.网络切割可能导致一部分Datanode跟NaBenOde失去联系。WmenOde通过心跳包的缺失检测到这一状况,并将这些Datanode标记为dead,不会将新的IO恳求发给它们。寄存在deadDaianodc上的任何数据将不再有效.Datanode的死亡可能引起一些b1.ock的副本数目低于指定值,Namenode不断地跟踪须可复即的b1.ock,在任何须要的状况下启动复缸在下列状况可能须要更新复孙某个Daanode节点失效,某个副本遭到投坏,DaIa

18、node上的硬盘错误,或者文件的rep1.ication因子增大。2、集群均衡HDFS支持数据的均衡安排,假如某个Da1.anOde节点上的空闱空间低于特定的临界点,则就会启动一个安排自动地将数据从一个Datanode掖移到空闲的Iatanode.当对某个文件的思求突然增加,则也可能启动一个安排创建该文件新的剧本并分布到维M中以满意应用的要求.这些均衡安排目前还没有实现。3、数据完整性从某个Datanode获得的数据块有可能是损坏的,这个损坏可能是由于Datanode的存储设得错误、网络错误或者软件bug造成的.HDFS客户端软件实现了HDFS文件内容的校验和.当某个客户媪创建一个新的HDFS

19、文件,会计算这个文件每个b1.ock的校验和,井作为一个单独的胞藏文件保存这些校龄和在同一个HDFSnamespace下。当客户端检索文件内容,它会确认从Datanode获得的数据跟相应的校5金和文件中的校验和是否匹配,假如不匹配,客户端可以选择从其他Datanode获得该b1.ock的副本.4、元数据横做错设FS1.Bage和Edit1.og是HDI-S的核心数窕结构.这些文件假如损坏了,整个HDFS实例都将失效。因而,Namenode可以配讯成支持维护多个FSIi1.age和Edit1.og的拷贝,任何对FSImage或者Edit1.oR的修改,都将同步到它们的副本上,这个同步操作可能会降

20、低WmCnode”杪能支持处理的namespace事务.这个代价是可以接受的,因为HDFS是数据密集的,而非元数据密集.当Nan1.emde曳启的时候,它总是选取最近的一样的FSImagO和EditIOg运用.Namenode在HnFS是单点存在,假如Namenode所在的机器错误,手工的干f是必需的,目前.在另一台机器上重启因故障而停止服务的Nu三e11ode这个功能还没实现.八、数据蛆期1,数据块兼在HDFS的应用椰是处埋大数据集合的.这些应用椰是写数窕一次,读却是一次到多次,并且读的速度要涌您流式读。HDFS支持文件的rite-once,read-many一个典型的b1.ock大小是61

21、MB.因而.文件总是依据61M切分成chunk.祗个chunk存储于不同的Datariodc上.2、数据产生步骤某个客户端创建文件的恳求其实并没有马上发给Nawnode.事实上HDFS客户端会将文件数据缓存到本地的一个暗时文件.应用的写被透亮地更定向到这个临时文件.当这个临时文件累枳的数据超过一个b1.。Ck的大小(默认64M),客户端才会联系NamenodeXHnCnode将文件名插入文件系统的层次结构中,并且安排一个数据块给它,然后返回Da1.anodC的标识符和目标数据块给客户端.客户端将本地临时文件f1.ush到指定的Datanode4当文件关闭时,在临时文件中剩余的没有f1.ush的

22、数兆也会传输到指定的DatanCde,然后客户端告知Nwnode文件己经关闭。此时、amenode才将文件创建掾作提交到长久存储。假如Namenode在文件关闭前挂了,该文件将丢失.上述方法是对通过对HDFS上运行的目标应用仔细考虑的结果.假如不采纳客户端缓存.由于网络速度和网络堵窜会对吞估Jft造成比较大的影响.3.数据块复制当某个客户端向HDPS文件写数据的时候,一起先是写入本地临时文件,假设该文件的rep1.ication因子设附.为3,则客户端会从Namenode获得一张Datanode列表来存放副本。然后客户端起先向第一个Da1.anUde传输数据,第一个Datanode一小部分一小

23、部分(4kb)地接收数据.招每个部分写入本地仓库.并且同时传给该部分到其次个Datanode节点.其次个Datanode也是这样.边收边传,一小部分一小部分地收.存储在本地仓库.同时传给第三个DaIanOde,第三个Daum。加就仅仅是接收并存储了。这就是流水线式的发制。九、访问接口HDFS给应用供应了多种访问方式,可以通过DFSShc1.1.通过吩咐行与HDFS数据进行交互,可以通过javaAPI调用,也可以通过C语吉的封装AP1.访问,并且供应了阅读访问的方式-正在开发通过WebDaY协议访问的方式.具体运用参芍文档.十、空闾的回收I、文件的捌除和复原用户或者应用删除某个文件,这个文件并没

24、有马上从HDFS中删除.相反,HDFS将这个文件mv到“rash节目。当文件还在“rash曲目时,该文件可以被快速地复原。文件在1.rash中保存的时间是可配置的.当超过这个时间.Namenode就会招Jtrash文件批量:从namespace中删除.文件的捌除.也将择放关联该文件的数据块.并且须要他总的是,在文件被用户刷除和HDFS空闲空间的增加之间会有一个等待时间延迟。当被删除的文件还保由在/trash书目中的时候,假如用户想复原这个文件,可以检索阅读/trash书目并检索该文件/trash书目仅仅保存被删除文件的最近一次拷贝./trash书目与其他文件书目没有什么不同,除了一点:HDFS在该书目上应用了一个特别的策略来自动删除文件,目前的默认策略是删除保留超过6小时的文件,这个策珞以后会定义成可配置的接口。2、RePIiCation因子的减小当某个文件的rep1.ication因子取小,Namcnode会选择要删除的过剩的副本。卜次心跳检测就将该信息传递给DatanodeDatanode就会移除相应的b1.ock并拜放空间.同样,在调H1.SetRep1.ication方法和集群中的空闲空间增加之间会有一个时间延迟,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号