云平台存储运维中如何进行故障诊断.docx

资源描述

《云平台存储运维中如何进行故障诊断.docx》由会员分享，可在线阅读，更多相关《云平台存储运维中如何进行故障诊断.docx（3页珍藏版）》请在课桌文档上搜索。

1、随着云计算、大数据等新兴技术体系的快速发展.云数据中心运维需求应运而生，传统的运维人员，以往接触最多的是硬件，如服务器、集中式存储、网络设备、空调、UPS等,但是在云数据中心时代运维人员已经从面向物理设备,逐步转变为面向虚拟化、SDS（软件定义存能）云的管理方式.从云计算概念和实践中延伸出了一种新的存储模式云平台存储，我们可以从两方面理解云平台存储的定义：第一，在面向用户的服务形态方面，它是一种提供按需服务的应用模式，用户可以通过公/私网络连接云端存储资源，在公/私有云端随时随地存储数据；第二，在平台云存储服务特性方面，它是通过分布式、虚拟化、智能配声等技术，实现海量.、可弹性扩展、低成本、低

2、能耗的共享存储资源。那么云平台存储运维如何进行故障诊断呢？首先，在传统集中式存储故障诊断过程中,我们一般按照先定位外部，后定位内部的原则.在进行系统的故獐定位时，应该首先排除外部设备的问题，外部设备问题包括光纤、光缆、客户设备和断电等向超，内部问题包括硬盘、控制器、接口模块等故障问题.具体的发生故障收集信息诊断过程包括但不限于：1）检肯主机端信息.如检肯多路径是否安装正确，直看物理珞径状态、虚拟磁盘信息、逻辑路径状态、多路径和舌是否正常。2 ）收集文件系统故障信息.如收集NTFS/EXT3/EXT4/JFS2等文件系统的故障信息日志等.3 ）收集卷管理故障信息.收集1.VM配置及1.V/PV/

3、VG等相关信息，是否有损坏或告警.4 ）收集数据库故障信息。查看存储磁盘的相关报错代码.5 ）收集HBA信息.直看HBA卡的生产厂商和型号，收集HBA卡驱动的版本号信息是否存在兼容性问题.6）收集交换机信息.Si看端口、SFP信息，分析链路质量、SFP发光功率是否存在问题.7）收集传统集中式存储信息.查看告警日志，导出Support日志，与厂商共同分析日志报错，查明原因.传统集中式存储可以通过收集上述信息并联合存储厂商进行诊断，基本能够在短时间内快速的排除故障.由此可见传统存储呈现给用户更多的像一个黑盒子，通过自带的告警日志能够较快速的定位、解决问题，而云平台存储在故障诊断方面会略显且杂，从某

4、种程度上讲，云平台存储故陵率跟前期的规划设计存在较大关系.因此，云平台存储的故阳更多会来源于前期规划的不合理及软件BUG等.下面就以Ceph开源云存储为例探讨一下故瘴诊断和恢豆,包括但不限于如下几个方面：1）架构问Sg诊断.选型初期，需严格按照Ceph（SDS存储）官方硬件兼容列表进行硬件选型,根据不同场景（IOPS优先、吞吐量优先、存阵优先）配首相应性能和与分布式存储软件认证兼容的CPU.内存、硬盘，避免部分硬件配背的选型性能瓶颈、驱动兼容等导致不可预见故障，如常见的SDS集群进程DOWN、读写延时大、读写IO异常等.2 ）NTP时间校准问题诊断。时间同步在众多集群系统中是非常至要的一个基础

5、服务，集群内时间不一致很容易造成集群内节点服务异常、认证失败，建议部署私有专网或者互联网的NTP服务器,比如当Ceph集群中,有节点出现时间不一致时，将会出现OSD数据同步问题、MoN选举问题、创建云主机失败或宕机问题、分布式存储数据分布不均衡或者脑裂等问题,在故障节点上电新进行NTP时间校准同步，一般就能解决上述问题.3 ）性能间即诊断.在Ceph分布式存储中，整个集群的性能很大程度上取决于存储介质的有效选择，应该在选择存储介质之前了解到集群的工作负载和性能需求.从最佳实践看，首先，网络限面存储网和业务网做分窸,服务器选用万兆网卡，存储流量的网卡、对应交换机开启巨型帧等.其次，磁盘介质优化。

6、比如OSDZJournaI等文件优先存放在SSD硬盘上，数据盘采用JBOD,提高元数据、日志数据、业务数据的存储效率,再次，数据存储的文件系统选择.BTRFS对于生产环境来说不是很稳定，但有能力记录Journal和并行的写入数据，相对而言XFS和EXT4效果会更好.另外，以Ceph为代表的分布式云存储的参数调优还有非常多，依据不同使用场景,参数优化更为复杂，所以从日常运维故障诊断角度看，分布式云存储比传统集中式存储运维更复杂、更需具有整体技术架构的把握度。从扩展性角度看，传统集中式存储盒式交付，通过增加磁盘来获得容景，但性能受制于控制器；而分布式云存储完全可以由用户自行定制，容量可以横向扩展、性能也能够线性增加.以上简单描述了分布式云存储（以Ceph为例）与传统集中式存储在运维过程中的故障诊断思路分享，实际生产环境故障问题千奇百怪.掌握其原理、做好各系统及硬件设备的应急预案才能有效、快速的处理问迹、解决问题，保证业务系统的连续性.

展开阅读全文