《上海农商行 - IT运维大数据应用方案建议书_1.0.docx》由会员分享,可在线阅读,更多相关《上海农商行 - IT运维大数据应用方案建议书_1.0.docx(43页珍藏版)》请在课桌文档上搜索。
1、上海农商行IT运维大数据应用方案建议书方案建议书上海擎创信息技术有限公司2016年12日文档说明本文档所涉及到的文字、图表等,仅限于上海农商银行内部使用,未经双方书面许可,请勿扩散到第三方。文档属性属性内容客户名称:上海农商银行项目名称:IT运维大数据应用项目文档主邈:方案建议书文档编号:文档版本:版本日期:文档状态:作者:文档变更版本修订日期修订人描述1.02016412月初稿文档送呈单位姓名目的上海农商银行审阅目录1项目t述52总体方案介绍62.1 方案概述62.2 方案设计理念73平台规划104平台框架115平台建设需求(一期)135.1功能需求135.1.1采集功能需求135.1.2告
2、警分析145.1.3批量作业分析165.1.4性能指标分析185.1.5安全和合规分析195.1.6硬件故障率周期分析统计215.2非功能需求215.2.1高可用性215.2.2高性能225.2.3高可靠性225.2.4易维护性225.2.5可扩展性235.2.6易操作性236技术方案236.1需求方案236.1.1采集接口方案236.1.2告警分析方案246.1.3批量作业分析方案256.1.4性能指标分析256.1.5安全和合规分析276.2技术架构296.2.1逻辑架构296.2.2物理架构306.2.3平台能力316.2.4平台安全316.2.5数据采集326.2.6数据处理346.2
3、.7数据存储366.2.8查询引擎376.2.9告警引擎386.2.10分析引擎396.2.11展现引擎396.2.12平台管理407实施方案417.1部署方案417.2 资源需求417.3 项目计划及交付物427.4 项目交付物437.5 i)447.6 项目资源447.6.1组织机构447.6.2人员组成441项目概述随着上海农商银行业务的快速发展,信息系统日渐庞大和复杂,当前行内的IT架构早已不是单一系统或是单一设备的单纯环境,伴随而来,是规模不断扩大的IT系统,日益复杂的系统架构,以及海量的IT运维数据。数据中心运维管理难度和重要性也日渐凸显,对业务连续性要求和运维服务质量的要求也不断
4、提高,迫切需要建设一套科学、高效的运维管理体系。面对这些新形势下的挑战,IT运维管理需要从原有的人工加被动响应,转变为更高效,更智能化的运维体系,为新形势下的IT系统保驾护航。在数据大集中背景下,如何使组织和机构的IT数据进行整合,管理,维护,分析并使之再生效益,那就催生了“IT运维分析”(以下简称ITOA),是一种将大数据分析和机器学习的技术应用于现代IT运维及业务运营管理体系中的概念,它为IT运维和运营提供了全新的管理思路。本次项目的目标为在上海农商行现有IT运维管理工具的基础上建设“IT运维分析平台,帮助打破现有各个孤立系统中的运维数据孤岛,实现对上海农商行的IT运维数据的全面采集及综合
5、分析。该项目除包含端到端可视化的IT数据展示、满足规模化智能化的运维需求、通过机器学习,做到故障智能化的定位和自动处理等功能。此文档的目的是为收集、分析和定义上海农商行“IT运维分析系统”的需求,提供建议技术方案、资源方案、实施方案等,并规划未来三年的平台发展蓝图。2总体方案介绍2. 1方案概述伴随着新技术的出现和管理复杂度的增加,IT运维部门将面临前所未有的挑战: 来自传统IT及非传统IT系统的高度分散、多样和非结构化数据。 基于科技技术在数字化业务中所扮演的重要角色,结合实际业务厘清IT应用和服务对企业在营收、成本和风险方面的影响度。 预测在多大程度上技术能够支持不断变化的业务,为数字化企
6、业领导提供基于技术的重要决策咨询。 与业务保持同速,通常传统的IT运营流程无法企及,且需要尽可能规避由于提速所带来的风险。当前,上海农商行数据中心在集中的生产环境中,运行的服务器已达上千台,其上运行着重要的应用、数据库、中间件及各种辅助系统。随着业务的发展,被管理对象不断增多,通过常规的IT运营技术及工具已经不能满足需求。当前,IT部门主要通过人工的方式进行运行维护及问题检测,这种方式不但大大消耗了技术人员宝贵的时间,也无形中带来了各种操作隐患,并难以稳定的保证运维水平靠人工检查已无法满足业务发展需求,无法做到及时发现故障,快速定位问题,日检及周检工作占用了大量工作时间。方案将基于IT运维分析
7、平台框架夏洛克SharP1.OOk平台进行建设。在建设中将体现以下思路:/高效安全的集中式运维分析工具 集中高效管理通过高效数据采集手段,实现对现有IT环境的快速数据采集,打破各个孤立运维工具中的数据孤岛,对所有运维数据集中高效的存储,查询,及可视化展TPo 智能自动化处理如果故障或问题确定是由某个特定的原因引起,可进行自动监控、自动诊断,甚至自动维护。通过机器学习方式快速区分故障,降低故障率,并通过智能的故障关联方式关联相关告警及信息,如变更记录、流程工单、监控指标等,降低人工维护的成本,并能对故障进行精确定位,加快故障解决速度。 开放且符合标准的平台平台提供符合业界标准的集成接口,其体系架
8、构符合行业大数据的技术发展路线。在架构中,已经采用了成熟的行业开源技术标准中的大量组件,并支持在后期的扩展开发中,统一采用上海农商行的技术标准。/以应用为视角的业务系统管理方案还考虑以应用为视角的业务系统管理更强调的是搭建业务系统相对应的IT应用端到端视图,能够便于运维团队从用户访问侧开始,经过网络、应用服务器到后端的数据库系统,实时并直观地掌握所负责系统的应用状况与性能。同时,为了能够提高平均故障修复时间(MTTR),运维部门能够结合应用监控的数据和基础架构监控数据,利用平台的分析优化能力,快速定位出业务系统故障现象的根原因,甚至在用户未感知故障发生前主动发现问题并解决,从而提高业务可用性。
9、/决策支持的大数据支撑通过统一运维平台,建立支撑未来运维的大数据平台,提供支撑IT运维管理的分析数据。产生面向系统运行的历史分析数据,为IT运维的决策提供强有力的支持。可以实时对历史数据进行分析、挖掘来分析业务系统的发展趋势,为新业务的推出提供数据化的决策依据。通过夏洛克SharP1.oOk技术框架,并通过后期的优化开发,实现对上海农商行IT运维分析需求,做到快速数据采集、灵活方便配置、动态阈值、容量预测、集中展示,并在系统出现问题时能够快速发现问题,定位问题,同时也将提供针对运维大数据分析的能力。本次项目以夏洛克平台为基础框架,针对智能化场景(智能阈值,关联分析等场景)基于用户的实际数据进行
10、二次开发和建模工作,以满足上海农商行实际运维大数据平台的建设雪球.2.2方案设计理念本方案都助用户应对IT运维管理中的常见问题: 精细化告警:海量告警中的有效告警 追踪性能指标波动,分析连锁反应,找出根源组件、主机,并实现对未来容量的预测 日志及数据追踪查询,快速提取和展示、实时分析运维中的关键KPl指标 运维数据关联分析(指标,告警,日志,工单,变更,问题,CMDB配置库等),找出深层原因 获得实时的安全/合规事件预警,快速响应 应用的深度监控,及历史运行数据统计分析实际鞋的分析及处理历史数据的挖隘!洞察未来趋势的做I及分析运维数曳的集成和多视角的展现快速雌定位及根本原因分析业务KP【挖掘及
11、决策支持智能预泄故度数据性能数据日志数据配置数据工单数据通过运用人工智能和大数据分析技术,实现智能运维一个愿景两个目标三条主线四项能力五位一体IT运维分析中,通常需要关注以下几点: 一个愿景:通过通过运用人工智能和大数据分析技术,实现智能运维 两个目标:变被动为主动,从IT到业务。通过ITOA平台的建设,让IT运维不再是被动的救火,并且能够通过积极的介入,更多地作为业务运行中必不可少的一个环节。 三条主线:提供对实时数据的分析及处理,通过对历史数据的挖掘,能够预测对关键运行能力进行未来趋势的分析及预测。 四项能力:在ITOA平台中,必需具备数据挖掘、决策支持、故障快速定位、多角度的分析展示,才
12、能为IT运营分析提供有力支持。 五位一体:面向IT运营的平台,更多地综合IT数据中心内部的运行数据,通过对运行数据的分析,获得运营支持的关键能力。因此,数据的多方位集成是基础,通常需要的数据包括:告警故障数据、应用监控数据、系统及应用日志数据、配置相关数据以及流程服务数据(如工单、变更等)。通过IT运维分析平台的建设,可以体现的场景大致如下:(1)快速信息检索/问题定位IT运营分析平台通过收集各类数据源(包括:操作系统,系统软件,数据库,应用的日志等),统一进行管理,不同于以往每次仅可查看数量有限的几种日志,运维人员可通过平台所提供的关键字,统计函数,单条件,多条件,模糊查找等功能,多个系统中
13、快速定位故障信息,帮助运维人员从全局视角查看系统的运维数据信息。(2)复杂多维报表,应用深度监控平台将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如,应用日志,交易日志,系统日志)进行多维度、多角度深入分析及可视化展现,以业务视角实时展示各种业务指标,比如:1 .透视交易量,展示实时的交易系统指标,交易量,平均交易时长,交易成功率,返回交易码等,对核心交易系统交易超时事件进行告警,对核心系统异常错误进行告警,并在告警中带出关键相关交易日志。2 .透视应用接口调用状态,每分钟/每天对核心业务进行关键指标统计(如调用来源,调用量,接口处理时间等),体现端到端的运维的状态3 .监
14、控实际用户体验,比如为Web访问日志创建数据模型,透视响应最慢的网页,显示最多的错误代码的等4 .另外,通过建立应用、系统、物理主机之间的逻辑从属关系,从而将平面的日志变为立体的日志。通过对日志源与对应系统的逻辑关系记录,使问题的定位更加快速、直观,使得问题的解决更加容易便捷。(3)快速发现故障,精准告警实时采集各类运维数据(日志,监控系统告警,性能数据等),通过历史数据的挖掘和分析,平台可以找出哪些告警和事件频繁一起出现,并认为是一类故障的告警,把多个报警和指标综合起来,同类的报警进行合并来推送给运维人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。(4)缩短故障
15、解决时间通过运维数据可视化(复杂多维报表,热力图)以及精细化告警信息,结合以前发现问题的经验知识库和模型,从而将运维信息从平面变为立体,立体展现故障树分析,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易便捷。(5)故障预测,事先预警对运维数据进行数据挖掘,生成分析类报表,例如某些故障之间有时间上的先后关系,例如交换页不足,内存不足会逐渐导致系统故障或应用故障,该系统建立关联模型,发现前者故障,提醒用户可能后继可能发生系统故障或应用故障。在故障产生真正业务影响前,告知运维人员事先解决问题。3平台规划在运维平台建设的过程中,特别需集合上海农商行的实际环境和情况对平台的建
16、设进行规划,在建设中可以根据实际的使用场景需求分为以下四个阶段:领先优势基本以上每个阶段对运维建设的不同需求,可以在未来作为建设的路线进行考虑。2017项目重点:IT运维场景,提高IT运维的水平:1 .精准告警,解决海量告警中快速定位根源的痛点2 .智能基线,分析历史指标数据阈值的配置问题3 .关联分析,辅助故障排查/解决4 .运维可视化,运维关键KPl指标实时展现项目任务:1 .运维数据采集,采集当前环境中各类的运维分析所需数据,包含:日志数据,IT流程数据,性能指标,告警数据,批量元数据。2 .告警分析,对告警数据建模,并与其他数据源关联聚合实现精准告警的业务需求3 .指标分析,构建智能分
17、析模型,帮助构建智能基线,以及容量预测模型4 .批量作业分析,对批量作业构建智能基线对比,帮助第一时间发现批量作业的性能问题,并预测批量时间,并基于预定义关联规则辅助分析解决跑批故障。提高批量管理水平5 .服务器安全/合规审计报告和预警,从服务器日志中提取管理员登录及操作行为记录6 .运维可视化报表,辅助IT决策支持2018项目重点:智能化运维加强:基于一期的关联分析,可智能生产并推荐故障解决办法安全合规场景:通过分析用户行为日志,和运维数据,发掘潜在的系统安全和合规问题,为企业的信息安全保驾护航。通过机器学习,分析运营中可能存在的趋势及问题,提前介入。项目任务:1 .智能方案推荐系统-建模2
18、 .集成IDS,IPS,防火墙,SOC及上网行为管理等安全平台,并采集相关联的业务交易日志3 .对安全/合规进行建模2019项目重点:业务分析项目任务:1 .业务数据的采集2 .对来自业务环节中各个分布系统的数据进行整体分析,挖掘关键业务KPl指标,并指导业务作出明智决策4平台框架整体方案在逻辑上分为两个层次:IT运维专家的业务能力主动避免服务中断应用性能管理(APM)快速解决问题应用深度监控快速排障预判故障决策支持珅州数码DigitdlChina事件/变更/配置苜理NetisU包现有ITOM平台日Netcool企业运维环境bmc应用系统工作负载无境网络机厉安全主机存储资产 现有IT运维管理平
19、台(ITOM):包括各专业监控平台,如系统监控平台、应用监控平台、流程管理平台等。基于目前上海农商行的现状,相关的IT运维管理工具包括: 集中事件平台-BMCTrueSight 系统监控-BMCTrueSight 网络监控-IBMNetCooI IT流程管理平台-神州数码ITSM 应用性能监控-夭旦BPC 日志分析平台-SpIunk 批量管理-BMCControl-M数据传输平台一IBMConnectrDirect备份平台一VeritaSNBUIT运维分析平台(ITOA):该平台以ITOM平台为基础,构建在ITOM平台的上层,专注在分析能力,更多地集中在快速问题分析、趋势分析、运营支撑的能力。
20、平台通过采集和整合散落ITOM平台运维数据,通过高性能计算和分布式扩展性帮助在单一位置实现所有IT设施数据的实时监控、搜索和分析。使上海农商银行可以可视化全局信息系统资源和健康状态,以及分析关键业务系统的指标。5平台建设需求(一期)5.1功能需求5.1.1采集功能需求该功能主要负责采集各类运维数据,包括监控告警,监控性能指标,系统/应用日志,IT流程/配置数据,批量元数据等。基于上海农商行的现有环境,我们需要集成和采集如下现有IT运维管理平台:平台类型平台软件版本采集数据集中告警事件平台BMCTrueSight9.6.0003告警事件数据(包含来自于各个平台的集成告警信息)系统/平台监控平台B
21、MCTrueSight9.6.0003系统/平台性能监控指标网络监控平台IBMNetCooI7.2.1网络性能监控指标日志分析平台SpIunkUniversaIForwarder6日志数据业务应用监控数据天旦BPC端到端每笔交易明细数据IT服务管理平台神州数据ITSM工单,问题,变更,CMDB配置数据库批量管理平台BMCControl-M7.0批量作业管理元数据数据传输平台IBMConnectzDirect文件传输数据备份平台VeritasNBU备份JOB元数据Agent代理模块-兼容性要求采集模块若采用代理方式,需要兼容IBMAIX5.2-7.1、RedHat1.inux5.5及以上。兼容I
22、BMP4P5P6P7P8等多种机型,兼容HPG7系列、G8系列各型号的PC服务器。AgentIess无代理方式若采用无代理方式需支持SYS1.OG、SNMP等协议技术采集传送数据。支持通过JDBC连接数据库,采集结构化数据。影响性要求若采用代理方式,代理在每分钟采集500个指标的工作情况时,占用的CPU不超过总CPU的3%,内存占用不超过200M。性能要求1、采值误差不超过2%,2、采值时延不超过1s。5.1.2告警分析监控系统每年会产生大量的告警数据资源,但数据中心现有的监控系统对数据的利用仅仅停留在简单的告警展现层面,缺乏深度数据挖掘和价值利用。大数据时代,数据成为一种新的生产资源,挖掘监
23、控告警数据价值有助于提升运维管理的精细度。目前对于监控系统的统计分析大都需要人的参与,才能提取出有助于运维的价值信息。人为参与监控告警数据分析不仅依赖于运维人员的运维经验和专业技能,而且分析的效率比较低,难以满足高效运维工作的要求。为解决这一运维痛点,IT运维分析平台需要利用数据挖掘技术,实现需求体现在:精细化告警,告警的关联分析,告警历史数据分析,告警与系统的可视化展示:1 .精准告警-告警压缩/合并提供的报警信息量太大,信息中真实报警与虚假报警混杂其中,管理员难以在有限的时间内完全处理所有数据,更难以识别报警的真实性。通过平台建立告警分析,提供精准告警,当故障发发生时,系统能够显示根源告警
24、信息,帮助上海农商行数据中心运维人员快速定位问题。精准告警需要将相同、类似、可能相关的事件能够自动合并关联起来,整个过程是自动化的。合并思路是:1) .时间序列合并根据时间片,同一时间片中告警信息,加上资源关系进行合并2) .与CMDB集成,获取Cl之间的关联关系平台需要和上海农商行现有的CMDB相结合,当有故障发生时,根据各Cl之间的关系和影响因子,计算出根源Cl上的告警信息,并通过图形化展示业务影响,和故障节点。3)机器学习合并包括实时计算和离线计算,算法方面参考相似度、决策树、分类等算法。以相似度来说:首先采集告警的多维度信息,包括时间、主机、服务、分组hostgroups、应用appl
25、ications、标签tags等基本维度信息,计算不同告警之间关联度,告警A和告警B在历史上属于频繁项集就关联起来了。告警及时性需求命中告警阈值和告警策略的告警需要在5s内产生2 .告警关联分析-根本原因分析确定故障根源告警信息后,平台需要对告警与其他运维数据进行关联分析,目的是帮助运维人员快速分析,对故障进行精确定位,加快故障解决速度。通过智能的故障关联方式,关联相关告警与如下运维数据:关联数据关联数据价值变更记录判断是否为PDTC,诊断对象的被变更记录历史工单/问题历史经验,历史的同类故障的解决方案日志信息DEBUG信息,故障时间片下,故障对象的日志详细信息,基于“错误”特征库,自动高亮相
26、关的错误信息场景:天旦BPC发生交易告警,平台可针对这一告警进行分析,关联相关交易报文日志,并分析导致该交易失败的根源告警(如网络告警导致),同时展示与之相关的历史工单和变更等信息。3 .告警的历史数据分析1)告警事件周期性规律分析基于数据挖掘的告警事件数据分析,挖掘和分析历史告警历史数据,对告警的周期性时间规律侦察,展示出哪类告警在历史数据中总是周期性发生,辅助找出告警周期性发生的规律,以便于进行告警的关联分析。并将分析结果记录在运维分析系统中,当出现新告警信息时,直接由数据仓库中相同告警得出分析结果,对告警做出准确判断,另外,对这类具有周期性出现的告警进行回归预测,在巡检过程中重点排查隐患
27、,防止故障影响IT系统运行。2)告警关联分析(频繁项集挖掘)使用数据挖掘中的关联分析为甄别告警信息。从历史告警数据,用关联分析算法APriOri寻找不同告警间的关联关系,寻找历史上总是成组出现的告警,例如:7类告警在历史上成组出现92次,可依次跟踪其中6类告警围绕核心事件出现的相对时间,以时间线体现发现关联告警,助运维人员对告警信息进行甄别,提高对告警信息的敏感性。3)告警与系统的可视化多维展现当有服务器、存储等设备或者重要进程告警时,需要自动将该设备或者进程故障时,对业务的影响性分析处理,并可以通过图形化方式展现。平台需要和农商行现有的CMDB相结合,当有故障发生时,根据各Cl之间的关系和影
28、响因子,计算出受到影响的业务应用,通过图形化展示。5.1.3批量作业分析目前上海农商行已经构建了基于BMCControl-M的自动化批量管理平台,实现里批量作业的自动化调度管理。目前希望借助历史数据分析和关联规则,解决当前批量管理中的如下痛点:一、作业运行性能问题需要人工判断,缓慢的作业难以定性,无法第一时间找出这类具有性能问题的作业,尤其是逐渐缓慢的作业二、处理跑批故障,需要通过人工经验处理,希望能够结合跑批相关数据进行关联分析,辅助快速定位故障根源及解决方案三、对重要批量需要影响性分析,如修改相关参数后(如起始时间)的影响具体需求如下:1 .批量作业的时间数据统计分析采集BMCContro
29、l-M元数据后,实现对批量作业实现运行时间统计和分析,根据过去一段时间的作业运行数据进行数学统计,计算得出作业的运行时间同环比对比基线:同比基线-月/年同比基线-月/年,是指在相邻一月/年中的某一相同时间点进行指标数据的比较;例如,16年3月和4月是相邻时段,16年3月5日和16年4月5日是这两个相邻时段的同一个时间点,都是5日,这两个时段进行数据对比,就是同比基线-月;15年12月31日和16年12月31日的同一个时间点,这两个时段进行数据对比,就是同比基线-年;环比基线-周环比基线-周,就是相邻时间段的对比,不象同比那样,是在响铃时间段内部的某个相同时间点的对比;例如,16年3月5日和16
30、年3月12日是相邻一周相同时间段时间段,这两个时间段的数据都比,就是环比;历史平均值基线基于历史上全月所统计的平均值数据根据以上同环比基线,生产智能阈值,智能阈值定时更新计算,上限值外,还应有下限值,然后生效。分别应用于如下几种场景:1 .对于超出阈值的运行作业进行预警,例如:某作业运行时间缓慢,超过历史平均时间,以及上月相同时间。阈值将应用于如下两大KPI:a)单个作业任务最长运行时间b)整体批量作业最长运行时间2 .斜率:数据偏离基线后的变化斜率,超过斜率则预警,该预警预示着作业有逐渐缓慢的趋势需关注3 .基于历史数据针对作业运行耗时进行预测,如8点开启批量作业,几点能够完成批量。2 .批
31、量作业的故障关联分析分析作业与作于之间的依赖关系,如COntrOI-M的作业与IBMC:D中的某个传输作业之间存在依赖当批量作业运行失败,或者收到耗时预警后,运维分析平台可通过智能的故障关联方式,关联如下运维数据协助运维分析:关联数据关联数据价值IBMC:D查找相关文件传输信息,关联分析是否为文件传榆问题导致VeritasNBU查找相关备份作业报错信息,关联分析是否为备份作业问题导致变更记录判断是否为PDTC,诊断对象的被变更记录历史工单/问题历史经验,历史的同类故障的解决方案日志信息DEBUG信息,故障时间片下,故障对象的日志详细信息,基于“错误”特征库,自动高亮相关的错误信息3 .重要作业
32、的影响性分析针对重要作业的,并根据历史数据分析,分析批量作业的影响,包含如下两方面:1 .参数调整后的影响性分析,如修改起始时间变更后预测对整个批量作业的运行时间影响2 .在重大变更评审时,能够辅助分析对重要批量作业以及关联各个系统的影响5.1.4性能指标分析D容量预测平台具有容量预测功能,根据历史监控数据,按照时间预测未来1个月-36个月系统资源的使用情况;按照业务负载情况,分析实时交易情况(TPS)与系统资源使用情况的相关性,得出两者之间的数学公式;按照每日业务量分析出每日交易量与系统文件系统、数据库表空间等的相关性,得出两者之间的数学公式。主要功能功能序号功能名称功能描述1容量数据分析及
33、拟合度分析通过IToA的快速实时报表功能,能够迅速地生成容量分析视图,也可以将该视图定义为报表2应用使用率数据进行分析各个业务应用系统对IT基础设施组件资源使用的占比数据3基础设施资源池使用率各个IT基础设施的资源池资源使用率(实时,每日,每月,每年等)4容量关联分析预测可以对部分指标做按照时间进行分析预测,预测到某个时间节点,指标使用率会达到多少;预测指标到多少时,时间点在什么时候。可以对部分重要指标作交易情况和指标之间的关联性分析,分析出两者之间的数学公式,可以根据TPS.每日交易总量进行指标使用率的预估;可以根据指标使用率预估服务器可以负载的最大交易情况。2)智能计算监控指标阈值智能阈值
34、是根据过去一段时间的指标监控数据进行数学统计得出的智能阈值,智能阈值每天定时更新计算,然后生效。智能阈值除了传统的上限值外,还应有下限值。智能阅值包括:小时阈值,天阈值小时阈值:根据历史监控数据,计算出后一小时的阈值,自动生效。天阈值:根据历史监控数据,计算出后一天的阈值,自动生效。5.1.5安全和合规分析合规审计要求IT人员管理所有生成系统的活动日志,以支持有效的审核、安全取证分析和预防欺诈。日志可以在软件的不同层次、不同的计算机和网络设备上完成,日志划分为两大类:1 .交易日志:交易日志由应用软件和数据库管理系统产生,内容包括用户登录信息、数据修改、错误信息。2 .系统日志:系统日志由操作
35、系统、数据库管理系统、防火墙、入侵检测系统和路由器等生成,内容包括管理登录,系统事件,网络事件,错误信息,文件访问/读写。交易日志和系统日志需要完成的保留,以满足内部控制,并满足审计的需求。然后,目前日志管理遇到了以下的挑战: 日志较分散不便管理。 环境复杂,设备品牌较多,包括国产和国外设备,日志格式无法统一。 合规性要求:- 重要日志文件不少于半年。- 应能根据审计记录进行数据分析,并生成统计报表。- 避免审计记录遭受未预期的删除、修改或覆盖。- 实施信息系统的统一安全策略,实现集中审计。通过对采集日志的分析和处理,利用日志的统计分析手段审计服务器上的登录及操作行为,发现异常行为、运维异常等
36、;实时发现异常的服务器并实时处理及预警,具体场景需求如下:1 .合规审计场景:a)服务器登录审计一用户登录信息User1.ogon-Success/FaiIedb)服务器操作审计一用户创建UserAdd一用户密码修改UserChangePassword-用户删除UserDeIete一组创建GroupCreate一组删除GroupDeIete一组成员修改GroupChangeMember(Add/RemoveMember)一用户切换UserSu一最近一次用户登录信息1.ast1.ogonUsers一当前用户登录状态CurrentAccount1.ogonStatus一用户行为操作mvrmcpch
37、modchownc)数据库审计-审计DatabaSe用户登录/登出信息,信息包含终端IP地址,登录方式-审计Database用户运行命令2 .安全预警场景a)频繁用户登陆出错b)非授权的访问出错c)关键业务数据的修改、删除d)机密文件的拷贝和复制、删除e)对于非授权文档的阅读和非授权访问f)违规登陆g)未授权的账号创建h)策略创建i)执行可疑命令j)未授权的数据查询3 .1.6硬件故障率周期分析统计获取硬件故障的历史数据,可视化展现不同型号的硬件的生命周期及故障率数据源可来自于:CMDB配置数据库,IT服务管理平台各型号组件硬件替换率%(ClS/N更新)故障率(工单故障数量统计)平均生命周期(
38、年=avg下线时间-上线时间)HPG9系列服务器10103联想1.aPtOPT41029303EMCHarddrive16165EMCControlIer995IBMAIX2255.2非功能需求5.2.1 高可用性 运维分析平台系统本身服务保证在99.99%的时间内能正常运行,服务中断时间一年内累计不得多于两小时。 运维分析平台上部署的任何节点都需要采用双活的高可用模式,任何节点出现故障,运维分析平台能够在分钟级发现故障并隔离,分钟级内将监控切换到其他节点,期间监控数据不丢失。 运维分析平台设计采用合理架构,保证运维分析平台系统故障不影响或尽可能少影响业务运行。 运维分析平台系统软硬件系统故障
39、须确保数据的完整性,不得出现数据丢失的情况。5.2.2 高性能 运维分析平台整体架构设计需要充分考虑平台的高性能,平台能够支持并发用户数不低于100个,并发管理及监控服务器等实例不低于30000个,并发指标数不低于100万个。 运维分析平台在性能类告警发生时,分钟级产生告警,容量类发生的告警时分钟级产生告警,可用性发生告警时秒级产生告警。 运维分析平台数据库节点故障探测及自主切换时间不能超过1分钟。 运维分析平台窗口按钮平均响应时间不超过30秒钟。 若采用代理方式,代理在每分钟采集500个指标的工作情况时,占用的CPU不超过总CPU的3%,内存占用不超过200M。采值误差不超过2%,采值时延不
40、超过IS 每天至少能够处理数T的新增监控数据,性能监控指标每秒至少可以入库3万条记录,日志数据录入峰值不低于800G/天。持久化时间不得超过1so需要提供数据层调优参数窗口,重点参数在窗口调优后立刻生效。 提供数据层管理功能数据在线提取、备份和归档、保留周期、清理策略调整的窗口,调整后立即生效。 调用海量数据生成报表时,响应时间在可接受范围内,查看单台服务器前1天的报表响应时间应小于30s,查看单台服务器,1个月内数据,响应时间应小于1分钟;查看100台服务器1周内数据的报表,相应时间应小于2分钟,查看100台服务器1个月内的数据响应时间应小于3分钟。5.2.3 高可靠性 运维分析平台系统的架
41、构设计具备高可靠性,对于关键模块或者设备,应采取冗余设计,当单台设备故障时不影响备份系统的正常运转。 运维分析平台系统能够支持可靠的长时间稳定运行,支持平台本身系统软件版本滚动升级,无需停机。5.2.4 易维护性直观完善的界面,所有的操作在一个窗口中就能维护管理。运维分析平台系统应提供标准的、易于操作的实施方案,提供完备的平台维护手册和技术手册,提供完善的平台维护和使用培训方案5.2.5 可扩展性 运维分析平台系统应该具有良好的系统可扩展性,平台的个后台服务模块都能够支持进行模块节点的线性扩展伸缩,运维分析平台可以实现自动扩展功能。 运维分析平台能够支软管理的硬件资源池的扩展伸缩,并且对平台已
42、有应用不产生影响。 运维分析平台系统中硬件的升级不会引起软件的修改,软件的升级,也不能引起硬件的更换5.2.6 易操作性维护及操作界面应易于操作,具有完善易懂的提示信息提供完善的在线帮助信息6技术方案6. 1需求方案6.1. 1采集接口方案平台类型平台软件版本采集接口方案集中告警事件平台BMCTrueSight9.6.0003WebServiceURI系统/平台监控平台BMCTrueSight9.6.0003WebServiceURI网络监控平台IBMNetCooI7.2.1日志分析平台SpIunkUniversaIForwarder6SPlUnk官方文档:Forwarddatatothird
43、-partysystems注:经过测试,SplunkUniversalForwarder可同时将数据发送给SPIUnk和第三方系统,确保SPIUnk与第三方系统的共存SplunkForwarderforwa11业务应用监控数据天旦BPC经过与天旦确认,天旦可配置交易明细以JSON,XM1.或者CSV格式输出至本地服务器文件夹,我们可以通过对天旦服务器代理方式采集监控该文件来获取数据IT服务管理平台神州数据ITSMWebServiceURI或DB1.ink(Views)批量管理平台BMCControl-M7.0Control-MJavaAPI数据传输平台IBMConnectzDirect1.OG
44、日志读取备份平台VeritasNBUNBUAPI6.1.2告警分析方案夏洛克监控平台引入了流处理引擎SParkStreaming,可以复用其生态里面的机器学习组件SParkMllib,针对实时收到的告警以及日志/运维数据进行实时建模分析,可以根据历史监控数据和告警信息,产生事件关联性模型,业务影响性模型、事件智能处理模型。1 .告警与告警的关联规则-基于APriOri算法挖掘监控项的关联规则2 .告警与CMDBCl关联合并-告警HOSTIPCMDBClIP3 .告警与日志-告警HOST+时间片HOST日志+关键字(如交易关键字)+时间片4 .告警与事件/变更-告警(设备/主机字段OrIP)变更
45、/事件全文搜索关键字(设备/主机字段OrIP)6. 1.3批量作业分析方案平台引入了流处理引擎SParkStreaming,可以复用其生态里面的机器学习组件SParkMIIib,针对实时收到的性能以及日志数据进行实时建模分析,可以根据历史监控数据和告警信息,产生阈值模型、事件关联性模型,业务影响性模型、事件智能处理模型。监控阈值:基于历史数据,通过HoI1.Winters,ARIMA,以及历史同环比等算法分析过的基线为基础设定动态阅值7. 1.4性能指标分析1 .容量预测容量预测通过分析指标与指标之间的线性关系,建立预测模型,使用多元线性回归模型。U=XSRU=EArSr+UoFarformanca1.oadAnalysis(hourly)cr-CPUVtJllxtflonvvO11IBMcehfed-TotalEUtnF6WIwdC