云计算基础知识归纳.docx_课桌文档desk33.com

资源描述

《云计算基础知识归纳.docx》由会员分享，可在线阅读，更多相关《云计算基础知识归纳.docx（5页珍藏版）》请在课桌文档上搜索。

1、由于云计算分为IaaS、PaaS和SaaS三种类型,不同的厂家又供应了不同的解决方案,目前还没有一个统一的技术体系结构,对读者了好云计算的原埋构成了障碍.为此，本文综合不同厂家的方案，构造了一个供商堆的云计算体系结构，这个体系结构如图3所示，它概括了不同斛决方案的主要特征，每一种方案或许只实现了其中部分功能.或许也还有部分相对次要功能尚未概括进来.SoA构立发*a第务注册服务育找*务5何服务工作.J物理货竦计算机#储器网络设俺奴搪埠软件图3云计算技术体系结构云计算技术体系结构分为4层：物理资源层、资源池层、管理中间件层和SoA构建层，如图3所示.物理资源层包括计算机、存储器、网络设施、数据库和

2、软件等：资源池层是将大承相同类型的资源构成同构或接近同沟的资源池，如计修资源池、数据资源池等，构建资源池更多是物理资源的集成和管理工作.例如探讨在一个标准集装箱的空间如何装下2000个眼芬器、解决散热和故障节点替换的问题并降低能混：包理中间件负说对云计算的资源进行管理，井对众多应用任务i三行调哎，使资源能携高效、平安地为应用供应服务：SOA构建层将云计舞实力封装成标准的WebSCrYiCCS服务，并纳入到SoA体系进行管理和运用，包括服务注册、查找、访问和构建服务工作流等.管理中间件和资源池层是云计舞技术的最关雄部分，SOA构建层的功能更多依靠外部设施供应.云计算的管理中间件负货资源管理、任务

3、管理、用户管理和平安管理等工作。资源管理负五均衡地运用云资源节点,检测节点的故障井试图发原或屏蔽之，并对资源的运用状况进行监视统计：任务管理负费执行用户或应用提交的任务,包括完成用户任务映望(Image)的部署和管埋、任务两度、任务执行、任务生命期管理等等：用户管理是实现云计算商业模式的一个必不行少的环节，包括供应用户交互接口、管理和识别用户身份、创建用户程序的执行环境、肉用户的运用进行计龙等：平安管理保障云计仪设柩的整体平安,包括身份认证、访问授权、综合防护和平安审计等.基于上述体系结构，本文以IaaS云计算为例,简述云计算的实现机制，如图4所示.用户交互接口向应用以WebSerVieeS方

4、式供应访问接口，获得用户褥求，服务书目是用户可以访问的服务清单.系统管理模块负责管理和安排全部可用的资源，其核心是例般均衡“鼠置工具负责在安排的节点上打算任务运行环境.监视统计模块负货监视节点的运行状态.并完成用户运用节点状况的统计执行过程并不困雄：用户交互接门允许用户从书目中选取并调用一个服务，该国求传递给系统管理模块后，它将为用户安排恰当的资源，然后调用配汽工具来为用户打算运行环境。I1.adoUPHDFS特性简介一、设计里想1、硬件失效是“常态件务而非”偶然事务”.HDFS可能是有上千的机据组成（文档中描述的YahOO!一个HadOoP集群有4096个节点）,任何一个SI件都有可能始终失

5、效.因此数据的健壮性错误检测和快速、自动的复原是IIDFS的核心架构目标。2、流式数据访问.运行在HD图上的应用和一般的应用不同，须要流式访问它们的数据集.HPFS的设计中更多的考虑到了数据批处理，而不是用户交互处理。比之数据访问的低延迟问题,更关槌的在于数据并发访问的高吞吐量.POSIX标准设置的许多硬性约束对IIDFS应用系统不是必需的.为了提高数据的吞吐量,在一些关使方面对POSIX的语义做一些修改.3、HDFS应用对文件要求的是Writeone-readmany访问模型“一个文件经过创建、写.关闭之后就不须要变更.这一假谀简化了数据样性向即，使鬲吞吐JN的数据访问成为可能.典型的如Ya

6、PRedUCe框架，或者一个WebCraWIer应用都很适合这个模型。4、移动计算的代价比之移动数据的代价低，个应用恳求的计算，面它掾作的数据越近就越高效，这在数据达到海量级别的时候更是如此。将计算移动到数据旁边，比之将数据移动到应用所在明显更好,HDFS供应应应用这样的接口.5、在异构的软硬件平台间的可移抗性.二、Naaenode和Datanode的划分一个HDFS集群有一个Naenodc和肯定数目的Datanodc组成.Niiiiieriode是一个中心服务港，负费管理文件系统的naiiiespace和客户端对文件的访问.Datanode在集群中会有多个一般是一个节点存在一个,负贲管理其自

7、身/点上它们附带的存储.在内部，一个大文件其分成一个或多个b1.ock,这些b1.ock存储在DatanQde集合里。NamemXie执行文件系统的namespace相关探作,例如打开、关闭、重命名文件和书目，同时确定了b1.ock到具体DaIanode节点的映射。Dd1.iJnodC在Namenodc的指挥卜进行b1.ock的创建、删除和复制.单一节点的Namenode大大简化了系统的架构，Namcncde负法保管和管理全部的HDFS元数据，因而在恳求Namenode汨到文件的位词藉就不须要通过Namenode参加而干.卯:从Patanode进行。为了提高Na三node的性能,全部文件的na

8、mespace数据摆在内存中维护,所以就天生存在了由于内存大小的限制导致一个HDFS集群的供应服芬的文件数属的上限.依据目前的文档，一个元数据（一个HDFS文件块儿占用200ByteS,假如是页面抓取的小文件，则32GB内存能承载1.5亿左右的文件存储（有待精确具体测试）三、文件系统操作和aespece的关系H1.)FS支持传统的层次型文件组织，与大多数其他文件系统类似.用户可以创建书目,并在其间创建、删除、移动和由命名文件。HDFS不支持USerquotas和访问权限，也不支持链接(1.ink),不过当前的架构并不解除实现这些特性,Nuiiienude维护文件系统的namespace,任何对

9、文件系统namespace和文件随性的修改都将被Namenode记录下来.应用可以设置HM：S保存的文件的副本数目，文件副本的数口称为文件的rep1.ication因子，这个估息也是由Naeenode保存。四、M复制HDFS被设计成在，个大集群中可以跨机器地牢隼地存储海M的文件。它将好个文件存储成b1.ock序列，除了G终一个b1.ock,全部的b1.。Ck都是同样的大小.文件的全部bkCk为了容错都会被更制.每个文件的b1.ock大小和rep1.ication因子都是可配置的.Rep1.ication因子可以在文件创建的时快配置.以后也可以变更.HDFS中的文件是“ite-on。，并且严格要

10、求在任何时候只有一个WriIer。NamenOde全权管理b1.ock的复制，它周期性胞从集群中的每个Datanodc接收心跳包和一个B1.ockrcport.心跳包的接收表示该DaIanodC节点正常工作，而H1.ockreport包括了该Datanode上全部的b1.ock组成的列表.1、副本的存放副本的存放是HDFS牢辕性和性能的关键.浩大的HDFS实例一般运行在多个机架的计算机形成的维即上，不同机架间的两台机器的通讯须要通过交换机，明显通常状况下，同一个机架内的两个节点间的带宽会比不I司机架间的两台机器的带宽大。在大多数状况下,rep1.ication因子抽3,HDFS的存放策略是将一

11、个副本存放在本地机架上的节点,一个副本放在同一机架上的另一个节点，最终一个副木放在不同机架上的一个节点。机架的错误远远比节点的错误少，这个策略不会影响到数据的牟瑾性和有效性，三分之一的副本在一个节点上,三分之二在-个机架上,其他保存在剜下的机架中,这一策略改进了写的性能.2,剧本的选择,为了降低整体的带宽消耗和读延时,HDFS会尽Iftikreader读最近的副本.假如在reader的同一个机架上有一个副本，则就读该副本.假如一个HDPS集群盼越多个数据中心，则reader也将首先尝试读本地数据中心的副本。3、SafeModeNiiiiieriode启动后会进入一个称为SafcModc的特别状

12、态，处在这个状态的NamenUdC是不会进行数据块的更制的.NamenOd。从全部的Datanode接收心跳包和B1.oCkrePort。B1.ockreport包括了某个Datanode全部的数据块列表，每个b1.ock播有指定的最小数目的副木。当NaMnMe检测确认某个Da1.an1.Xie的数据块副本的最小数目，则该Datanode就会被认为是平安的：假如落定百分比这个参数可配置)的数据块检测确认是平安的，则Namenode将退H1.SafeMode状态,接下来它会确定还有哪些数据块的副本没有达到指定数目.并将这些b1.ock更制到其他Datanode.五、文件系烧元数据的长久化Na1.

13、nenOde存储H1.)FS的元数据.对于任何对文件元数据产生修改的操作，Namenode都运用一个称为EdiUog的小务11忐记录下来。例如，在HDFS中创建一个文件，Naeenode就会在Edi1.Iof(中插入-条记录来表示；同样，修改文件的rep1.ica1.ion因子也将往Edi1.1.OR插入一条记录.Xunenodc在本地OS的文件系统中存谛这个Edit1.og.整个文件系统的namespace.包括b1.。Ck到文件的映射、文件的属性,都存储在称为Fs1.age的文件中,这个文件也是放在NRenOde所在系统的文件系统上.Namenode在内存中保存着整个文件系统naespac

14、e和文件B1.ockmap的映像,这个关键的元数据设计得很紧凑，一股为200By1.cs的内存占用，因而一个带有4G内存的NamCnUde足弊支掠海量的文件和书目.当Namenode启动时,它从硬盘中读取Edit1.Og和Fsage.符全部EditIOg中的事务作用(app1.y)在内存中的FS1.1.nage,并将这个新板本的FSImage从内存中f1.ush到硬fit上,然后再truncate这个旧的Edit1.og,因为这个旧的Bdit1.og的事务都已经作用在FS1.ma上了。这个过程称为ChCCkPoin1.o在当前实现中checkpoint只发生在N三enode启动时,在不久的招来

15、我们构实现支持周期性的checkpoint.DatnnOdC弁不知道关于文件的任何东西，除了将文件中的数据保存在本地的文件系统上，它把年个HDFS数据块存储在本地文件系统上隔离的文件中。Datanode并不在同一个书目创健全部的文件，相反，它用启发式地方法来确定每个曲目的最佳文件数目，并且在适当的时候创建子书目.在同一个书目创建全部的文件不足最优的选择,因为本地文件系统可能无法高效地在雎一书目中支持大破的文件.当一个DatanOde启动时，它扫描本地文件系统，对这些本地文件产生相应的一个全部HDFS数据块的列表，然后发送报告到NamenOde,这个报告就是B1.ockreporte六、通讯林议

16、全部的HDFS通讯协议都是构建在TCP/IP协议上,客户如通过一个可配置的湘11连接到Namenode,通过CIien1.ProtoCO1.与Namenode交互。而Datanode是运用DatanodeProtoco1.与Naaenode交互。从CIienCprOtoCo1.和Datanodeprotoco1.抽象IH-个远程调用(RPe),在设计上,Nwnode不会主动发起RPC.而是是晌应来自客户端和Etatanode的RPC恩求.七、健壮性HPFS的主要目标就是实现在失败状况下的数据存储率库性。用.见的三种失败；Mmenodefai1.ures,Datanodcfai1.ures和网络

17、分别(networkpartitions)1,怏盘数据饰以、心跳检测和重新复制每个DatanCde节点都向Namenode用期性地发送心跳包.网络切割可能导致一部分Datanode跟NaBenOde失去联系。WmenOde通过心跳包的缺失检测到这一状况，并将这些Datanode标记为dead,不会将新的IO恳求发给它们。寄存在deadDaianodc上的任何数据将不再有效.Datanode的死亡可能引起一些b1.ock的副本数目低于指定值,Namenode不断地跟踪须可复即的b1.ock,在任何须要的状况下启动复缸在下列状况可能须要更新复孙某个Daanode节点失效，某个副本遭到投坏，DaIa

18、node上的硬盘错误，或者文件的rep1.ication因子增大。2、集群均衡HDFS支持数据的均衡安排，假如某个Da1.anOde节点上的空闱空间低于特定的临界点，则就会启动一个安排自动地将数据从一个Datanode掖移到空闲的Iatanode.当对某个文件的思求突然增加，则也可能启动一个安排创建该文件新的剧本并分布到维M中以满意应用的要求.这些均衡安排目前还没有实现。3、数据完整性从某个Datanode获得的数据块有可能是损坏的,这个损坏可能是由于Datanode的存储设得错误、网络错误或者软件bug造成的.HDFS客户端软件实现了HDFS文件内容的校验和.当某个客户媪创建一个新的HDFS

19、文件,会计算这个文件每个b1.ock的校验和，井作为一个单独的胞藏文件保存这些校龄和在同一个HDFSnamespace下。当客户端检索文件内容，它会确认从Datanode获得的数据跟相应的校5金和文件中的校验和是否匹配,假如不匹配,客户端可以选择从其他Datanode获得该b1.ock的副本.4、元数据横做错设FS1.Bage和Edit1.og是HDI-S的核心数窕结构.这些文件假如损坏了，整个HDFS实例都将失效。因而，Namenode可以配讯成支持维护多个FSIi1.age和Edit1.og的拷贝,任何对FSImage或者Edit1.oR的修改，都将同步到它们的副本上,这个同步操作可能会降

20、低WmCnode”杪能支持处理的namespace事务.这个代价是可以接受的,因为HDFS是数据密集的,而非元数据密集.当Nan1.emde曳启的时候，它总是选取最近的一样的FSImagO和EditIOg运用.Namenode在HnFS是单点存在，假如Namenode所在的机器错误，手工的干f是必需的，目前.在另一台机器上重启因故障而停止服务的Nu三e11ode这个功能还没实现.八、数据蛆期1,数据块兼在HDFS的应用椰是处埋大数据集合的.这些应用椰是写数窕一次，读却是一次到多次，并且读的速度要涌您流式读。HDFS支持文件的rite-once,read-many一个典型的b1.ock大小是61

21、MB.因而.文件总是依据61M切分成chunk.祗个chunk存储于不同的Datariodc上.2、数据产生步骤某个客户端创建文件的恳求其实并没有马上发给Nawnode.事实上HDFS客户端会将文件数据缓存到本地的一个暗时文件.应用的写被透亮地更定向到这个临时文件.当这个临时文件累枳的数据超过一个b1.。Ck的大小（默认64M）,客户端才会联系NamenodeXHnCnode将文件名插入文件系统的层次结构中，并且安排一个数据块给它,然后返回Da1.anodC的标识符和目标数据块给客户端.客户端将本地临时文件f1.ush到指定的Datanode4当文件关闭时，在临时文件中剩余的没有f1.ush的

22、数兆也会传输到指定的DatanCde,然后客户端告知Nwnode文件己经关闭。此时、amenode才将文件创建掾作提交到长久存储。假如Namenode在文件关闭前挂了，该文件将丢失.上述方法是对通过对HDFS上运行的目标应用仔细考虑的结果.假如不采纳客户端缓存.由于网络速度和网络堵窜会对吞估Jft造成比较大的影响.3.数据块复制当某个客户端向HDPS文件写数据的时候，一起先是写入本地临时文件，假设该文件的rep1.ication因子设附.为3,则客户端会从Namenode获得一张Datanode列表来存放副本。然后客户端起先向第一个Da1.anUde传输数据，第一个Datanode一小部分一小

23、部分（4kb）地接收数据.招每个部分写入本地仓库.并且同时传给该部分到其次个Datanode节点.其次个Datanode也是这样.边收边传,一小部分一小部分地收.存储在本地仓库.同时传给第三个DaIanOde,第三个Daum。加就仅仅是接收并存储了。这就是流水线式的发制。九、访问接口HDFS给应用供应了多种访问方式，可以通过DFSShc1.1.通过吩咐行与HDFS数据进行交互，可以通过javaAPI调用,也可以通过C语吉的封装AP1.访问,并且供应了阅读访问的方式-正在开发通过WebDaY协议访问的方式.具体运用参芍文档.十、空闾的回收I、文件的捌除和复原用户或者应用删除某个文件，这个文件并没

24、有马上从HDFS中删除.相反，HDFS将这个文件mv到“rash节目。当文件还在“rash曲目时，该文件可以被快速地复原。文件在1.rash中保存的时间是可配置的.当超过这个时间.Namenode就会招Jtrash文件批量:从namespace中删除.文件的捌除.也将择放关联该文件的数据块.并且须要他总的是，在文件被用户刷除和HDFS空闲空间的增加之间会有一个等待时间延迟。当被删除的文件还保由在/trash书目中的时候,假如用户想复原这个文件,可以检索阅读/trash书目并检索该文件/trash书目仅仅保存被删除文件的最近一次拷贝./trash书目与其他文件书目没有什么不同,除了一点：HDFS在该书目上应用了一个特别的策略来自动删除文件，目前的默认策略是删除保留超过6小时的文件，这个策珞以后会定义成可配置的接口。2、RePIiCation因子的减小当某个文件的rep1.ication因子取小，Namcnode会选择要删除的过剩的副本。卜次心跳检测就将该信息传递给DatanodeDatanode就会移除相应的b1.ock并拜放空间.同样,在调H1.SetRep1.ication方法和集群中的空闲空间增加之间会有一个时间延迟，

展开阅读全文