《云平台存储运维中如何进行故障诊断.docx》由会员分享,可在线阅读,更多相关《云平台存储运维中如何进行故障诊断.docx(3页珍藏版)》请在课桌文档上搜索。
1、随着云计算、大数据等新兴技术体系的快速发展.云数据中心运维需求应运而生,传统的运维人员,以往接触最多的是硬件,如服务器、集中式存储、网络设备、空调、UPS等,但是在云数据中心时代运维人员已经从面向物理设备,逐步转变为面向虚拟化、SDS(软件定义存能)云的管理方式.从云计算概念和实践中延伸出了一种新的存储模式云平台存储,我们可以从两方面理解云平台存储的定义:第一,在面向用户的服务形态方面,它是一种提供按需服务的应用模式,用户可以通过公/私网络连接云端存储资源,在公/私有云端随时随地存储数据;第二,在平台云存储服务特性方面,它是通过分布式、虚拟化、智能配声等技术,实现海量.、可弹性扩展、低成本、低
2、能耗的共享存储资源。那么云平台存储运维如何进行故障诊断呢?首先,在传统集中式存储故障诊断过程中,我们一般按照先定位外部,后定位内部的原则.在进行系统的故獐定位时,应该首先排除外部设备的问题,外部设备问题包括光纤、光缆、客户设备和断电等向超,内部问题包括硬盘、控制器、接口模块等故障问题.具体的发生故障收集信息诊断过程包括但不限于:1)检肯主机端信息.如检肯多路径是否安装正确,直看物理珞径状态、虚拟磁盘信息、逻辑路径状态、多路径和舌是否正常。2 )收集文件系统故障信息.如收集NTFS/EXT3/EXT4/JFS2等文件系统的故障信息日志等.3 )收集卷管理故障信息.收集1.VM配置及1.V/PV/
3、VG等相关信息,是否有损坏或告警.4 )收集数据库故障信息。查看存储磁盘的相关报错代码.5 )收集HBA信息.直看HBA卡的生产厂商和型号,收集HBA卡驱动的版本号信息是否存在兼容性问题.6)收集交换机信息.Si看端口、SFP信息,分析链路质量、SFP发光功率是否存在问题.7)收集传统集中式存储信息.查看告警日志,导出Support日志,与厂商共同分析日志报错,查明原因.传统集中式存储可以通过收集上述信息并联合存储厂商进行诊断,基本能够在短时间内快速的排除故障.由此可见传统存储呈现给用户更多的像一个黑盒子,通过自带的告警日志能够较快速的定位、解决问题,而云平台存储在故障诊断方面会略显且杂,从某
4、种程度上讲,云平台存储故陵率跟前期的规划设计存在较大关系.因此,云平台存储的故阳更多会来源于前期规划的不合理及软件BUG等.下面就以Ceph开源云存储为例探讨一下故瘴诊断和恢豆,包括但不限于如下几个方面:1)架构问Sg诊断.选型初期,需严格按照Ceph(SDS存储)官方硬件兼容列表进行硬件选型,根据不同场景(IOPS优先、吞吐量优先、存阵优先)配首相应性能和与分布式存储软件认证兼容的CPU.内存、硬盘,避免部分硬件配背的选型性能瓶颈、驱动兼容等导致不可预见故障,如常见的SDS集群进程DOWN、读写延时大、读写IO异常等.2 )NTP时间校准问题诊断。时间同步在众多集群系统中是非常至要的一个基础
5、服务,集群内时间不一致很容易造成集群内节点服务异常、认证失败,建议部署私有专网或者互联网的NTP服务器,比如当Ceph集群中,有节点出现时间不一致时,将会出现OSD数据同步问题、MoN选举问题、创建云主机失败或宕机问题、分布式存储数据分布不均衡或者脑裂等问题,在故障节点上电新进行NTP时间校准同步,一般就能解决上述问题.3 )性能间即诊断.在Ceph分布式存储中,整个集群的性能很大程度上取决于存储介质的有效选择,应该在选择存储介质之前了解到集群的工作负载和性能需求.从最佳实践看,首先,网络限面存储网和业务网做分窸,服务器选用万兆网卡,存储流量的网卡、对应交换机开启巨型帧等.其次,磁盘介质优化。
6、比如OSDZJournaI等文件优先存放在SSD硬盘上,数据盘采用JBOD,提高元数据、日志数据、业务数据的存储效率,再次,数据存储的文件系统选择.BTRFS对于生产环境来说不是很稳定,但有能力记录Journal和并行的写入数据,相对而言XFS和EXT4效果会更好.另外,以Ceph为代表的分布式云存储的参数调优还有非常多,依据不同使用场景,参数优化更为复杂,所以从日常运维故障诊断角度看,分布式云存储比传统集中式存储运维更复杂、更需具有整体技术架构的把握度。从扩展性角度看,传统集中式存储盒式交付,通过增加磁盘来获得容景,但性能受制于控制器;而分布式云存储完全可以由用户自行定制,容量可以横向扩展、性能也能够线性增加.以上简单描述了分布式云存储(以Ceph为例)与传统集中式存储在运维过程中的故障诊断思路分享,实际生产环境故障问题千奇百怪.掌握其原理、做好各系统及硬件设备的应急预案才能有效、快速的处理问迹、解决问题,保证业务系统的连续性.