《某银行核心业务双活存储架构升级建设实践分享.docx》由会员分享,可在线阅读,更多相关《某银行核心业务双活存储架构升级建设实践分享.docx(10页珍藏版)》请在课桌文档上搜索。
1、一、项目背景某银行在2014年建设数据中心时采购了2套存储设备,当时容量规划满足是3至4年的需求,可用容JR为45T,预计存放300台虚拟机的数据,这些虚拟机运行若除核心系统以外的所有关键业务。由于这两套存腐设备已经上线运行了五年多时间,存储设备的存储空间使用率都接近80%安全值,因此我行启动双活存储设备升级替换采购项目,采购两套新存储设备替换现网两套存阵,并将核心业务的业务虚拟机和文件系统迁移至新采购的两套上运行.通过新老存储的替换,满足我行未来数据增长和业务发展需求.二、存储架构技术路线选型和功能测试(一)技术路线选择我行在2014年通过两套存储设备构建的银行数据中心同城双活的高等级灾备体
2、系架构,对于电要信息系统的安全稳定运行起到了关键作用.该套双活存储的灾备架构经受了各种考验,包括单台光交机故障、裸光纤光衰异常等情况下也没有影响生产主中心的系统运行.双活存博架构降低了日启运维成本,各系统只需要维护一套生产环境,避免了人为运维灾备失效时导致无法切换的问题.因此,我行通过灾备技术的跟踪和对比,计划未来继续在数据中心采用双活存储的解决方案来构建开放平台的数据中心业务连续性架构体系。(1)调研存储厂商我行在调研主流存储厂商时,重点关注同城双活案例数量、是否支持对称双活、是否支持NAS,产品关键功能和厂商报价等多个方面,选择了存储业界主流厂商华为、EMC,HDS,HP等迸行调研和交流,
3、并开展严格的POC测试。(2)设计测试案例和场景我行根据近几年双活存储的实际运维经验以及双活存腐的设计原理制定了全面的测试用例,常见的用例有:主机屈、存储层少量链路中断,一台存储的单个引擎故障,主售中心的一条巨制链路中断等;极端情况下的用例有:主备中心任一台存储完全故障,主备中心的所有复制链路中断,主机出现APD(所有路径丢失)故障,主机出现PD1.(连接存储路径永久丢失)故障,以及存储和仲裁同时故障等这些日常运堆中不常见但有可能出现的场景.对所有故障测试场景都是采用直接断电的形式进行,最大程度的模拟突然停电等极端情况。测试包含硬件冗余性测试和性能测试.硬件冗余性和性能测试又分别包括隼存储和双
4、活存储的测试.测试内容如下:编号测试内容1访问QFS共享2访问NFS共享3NAS双活的创建和删除4NAS双活主从切换5本地1.UN和双活1.UN的性能测试6双活1.UN扩容7双活优先站点存镭故障8双活非优先站点存储故障9站点间FC拉远传输链路单链路故障10站点间FC拉远传输链路全部故障11仲裁服务器故障12仲裁服务器和优先站点存储同时故障13仲裁服务器和非优先站点存储同时故障14非优先站点存储和仲裁服务器同时故障15优先站点存储和仲裁服务器同时故障16非优先站点存储业务端口故障17优先站点存储业务端口故障18非优先站点存储到仲裁服务器道路故障19优先站点存储到仲裁服务器链路故障20仲裁服务器腌
5、路全部故獐21双活存储豆制链路单链路故障22双活存储复制链路全部故障23虚拟机APD24单存储NMP和Ultrapath多路径性能对比25双活存储NMP和Ultrapath多路径性能对比26日志服务器系统性能测试27数据仓库业务系统性能测试28事删压缩性能测试29控制器故障测试30电源模块故障测试31SAS级联线线故障测试32硬盘框级联模块故障测试33接口模块故障测试34硬盘故障测试(3)POC测试结论通过POC测试,当前主流存储厂商基本都通过了上述功能和用例场景的测试,不同厂商的产品,在测试中表现的效果也有一些差异.(三)招标采照通过公共招标,展终华为公司的OCeanStor18000系列高
6、端存储选型中标了我行的存储升级犷容项目.以下章节将介绍我行使用两套华为存储OCeanStor18000系列高端存储设备.替换老的存储设备,创建新的双活集群,建立双活容灾机制,保障我行的业务连续性.三、存储架构方案设计(一)双活存储组网架构下图是我行使用两套华为高端存储设备在两个数据中心之间构建双活存储架构图:华为双活存储架构图主数据中心同城数据中心1.四台光纤交换机两两级联,并承载主机到存储的通信(块业务).2、两套华为OCeanStor18000系列高端存储之间通过光交交涣机互联,承载心跳通信和数据同步.3、两台IOGE以太网交换机和与现网VMware仲裁业务网络打通,组成仲裁网络,当两端存
7、储系统间链路故障或设备故障时,由仲裁服务器根据仲裁结果决定由哪一端存慵继续向主机提供业务.仲裁服务器配置两个网口,分别处于不同的网段,一个网口与两套华为OCeanStor18000系列高端存慵的1.1M0P0/1.1M1P0/R1M0P0/R1M1P0网口通信,另一个网口与两套华为OceanStor18000系列高端存慵的1.1M0P0/1.1M1P0/R1M0P0/R1M1P0网口通信。(二)存储划分规划生产数据中心双活存储华为OCeanStOrI880OFV5高端存储初步规划SAN业务使用约253T(RAID6)空间.同城数据中心另一台双活存储华为OCeanStor18800FV5高端存储
8、初步规划SAN业务使用约253T(RAID6)空间,分别创建用于生产数据中心存储进行双活容灾.四、实施经验及难点分享(一)制订应用系统迁移计划为了顺利完成新存储设备的升级替换,做好应用系统的迁移计划是非常*要的。我行制订了应用系统规则:先边缘业务到核心业务、先简单到豆杂、宿主机资源合理利用、目标存储资源合理利用等原则.在此原则基础上列出了业务迁移详细计划,主要包括两个阶段进行,第一阶段是迁移管理类业务,第二阶段是迁移在线交易类业务.我们制定了首套搬迁业务为日志服务器系统,二套屐迁数据仓库业务系统。在完成了首套和二套业务系统的搬迁,验证了业务搬迁的可行性后,按照虚拟机的业务级别进行蹴迁.以我行应
9、用系统分类为基准,依次搬迁四类业务、三类业务、二类业务、一类业务。每次搬迁结束预留一周的观察时间,确认业务运行稳定后再进行下一次的业务做迁.(1)SAN存储数据迁移SAN存储的迁移主要涉及VMware虚拟机的迁移。对于VMware虚拟机的迁移,使用VMWare自身的StOrageVMotion功能,StOrageVMotion迁移对上膻虚拟机和业务没有影响,能够平滑迁移,而且使用VMWare多路径,避免了主机停机.迁移之前在华为OCeanStor18800FVS系列高端存储上按照之前VMware各集群Datastor的大小划分目标1.un大小,挂载到VMware主机下,开始进行VMotion迁
10、移.GuestOSVMMZGuestStoraqeZDatastoreSourceDestinationNAS迁移借助于MigrationDirectorforNAS存储数据迁移工具来完成.MigrationDirectorforNAS可实现不同存储系统之间的数据迁移,保障迁移过程中的数据安全,同时也避免业务在迁移过程中长时间停机完整的迁移过程至少包含1次迁移任务(首次迁移)和1次同步任务(增里数据同步迁移),业务切割前需要离线进行最后一次同步.(三)存储运行状态监测1、在项目实施过程中,我们重点对两套华为OCeanStOrI8000系列高端存储进行了深度巡检,检直存储的运行状况和稳定性,及时
11、对存懂进行热补丁的升级,保障新存储设备上线后稔定运行.2、在数据迁移中和数据迁移完成后,我们对核心存储OCeanStor18800FV5进行了性能分析,并输出了性能分析报告,监测OCeanStor18800FV5在迁移过程中和数据全部迁移完成后的性能表现,都达到了预期的目标。3、我们部署DME和eservice管理监控工具来管理和监控存储运行状态,及时获取存储告瞥异常信息.4、在新存储设备上线后,我们还每季度定期对存储进行巡检,了解存储的运行状态五.风险管理将数据中心生产环境使用华为高端存储升级替换原核心存储是本行非常电大的升级操作.本行是首次在数据中心核心关键区域使用华为高端存储设备替换原国
12、外的存储设备,并且实现双活数据中心架构,存在较大的操作风险和运行风险.为了避免在核心存储升级替换过程,以及后续使用过程中因新的存储设备自身问题引起业务中断等风险,本行认真货理了该升级替换项目可能存在的风险,并采取了相应的风睑控制措施:1、开展充分的技术测试和功能验证.本行制订了详细和周密的技术测试方案和功能验证方案,并且还搭建了接近生产环境实际情况的测试环境,用以验证新存储设备的各项技术指标和功能指标.2、采用稳妥的迁移替换策略,包括应急预案和切实可行的回退方案.要圭点关注新设备上线后的设备故障风险,要做好新存储设备上发生数据丢失等极端突发情况的预案.3、实施前务必要做好环境调研和项目规划工作
13、。本次项目共历经现网情况调研,功能测试,存储网络改造,项目实施,数据迁移五个阶段,前两个阶段所用工时只占到整个交付过程的1/3,但却是豉电要的阶段,根据收集到的正确现网信息,对做出正确的规划有指导性的菽义.3、认真细致的变更操作,函点是要在应用系统在迁移前后,分别做好数据分析和记录,要对比迁移前后的数据,及时做好参数优化和方案调整。4、有效的项目管理。重点要做行内和厂商的人力资源调配,以及组织和协调工作.六、总结我行在数据中心生产中首次使用华为高端存储设备替换原来的设备,构建起新的同城双活数据中心双活存储架构,解决了原双活存储空间不足和原存储设备老旧等问题.我行新采购的华为OCeanStOr18000系列高端存储上线后,存储的性能稳定,存储端压力正甫,读写时延正常.通过迁移后的的虚拟机性能基线分析,在性能和稳定性上都有了明显提升.我行成功实现在生产核心上使用华为高端存储替代国外存储设备,在银行数据中心构建双活存储架构.目前已经隐定运行一年多时间,各项关键参数和指标运行正常.本次项目的成功上线,使我们更加坚定在银行核心业务上使用国产存储产品和技术.