《可视化智能IT运维系统.pptx》由会员分享,可在线阅读,更多相关《可视化智能IT运维系统.pptx(33页珍藏版)》请在课桌文档上搜索。
1、现状与痛点&IT监控运维管理诉求,云环境监控系统,虚拟化监控系统,基础设施监控系统,服务器监控系统,网络监控系统,!,日志分析系统,!,应用性能管理系统,!,!,!,风险根源问题,IT运维人员,告警风暴,从一个真实的故事开始:一天,轮到小李值班,突然几个系统同时发出告警(告警风暴),小李哪里见过这阵仗,顿时感觉手脚无措,能想到的就是马上给师傅打电话求助。小李按照师傅的建议从服务器开始慢慢排查,从系统告警到问题解决,已经过去了几个小时期间,由于用户没法访问系统服务,信息中心接到很多投诉电话。最终的结果是,由于出现被投诉等不良事件,IT运维部被内部通报批评,小李也被扣罚当月奖金这也只是运维工作中一
2、个小小的缩影。,客户场景之N,IT运维部门,?,天花板,主机数据库中间件动力环境存储网络设备.,IT资源管理,功能使用是否方便系统访问是否缓慢系统故障响应和排除是否及时.,用户体验管理,用户访问响应时间用户满意指数系统吞吐量系统错误率用户来源地系统需求执行时长网络传输时长数据库SQL执行时长,用户体验指标,业务部门,IT设备规模大且分散、管理困难缺少可视化管理&自动化管理手段,IT环境异构、业务系统繁多无法快速适应复杂环境设备的监管,人员能力层次不齐,服务范围广缺少规范的、自动的流程化管理,密室之外痛,业务负载逐年增加,无法确定功能完整可用性业务形态更加多种多样,部署环境愈加复杂为了适应发展的
3、需求,业务调整日趋频繁,云技术的成熟,一定程度上减少了企业自建运维团队的需求技术的快速演进,对运维团队提出了更高的要求,基础设施,网络,存储,服务器,虚拟化,数据库,中间件,业务应用,现状与痛点:IT监控运维密室的内与外,应用场景,运维主管,资源总览,运行统计,IT基础设施运维工程师,故障处理,根源分析,设备监管,运行报告,告警通知,流程优化,业绩考核,决策分析,流量分析,应用系统运维工程师,性能监测,健康检查,自动巡检,用户体验,预测分析,瓶颈定位,对智能化IT监控运维的期待(岗位),IT设施自动巡检,运维知识库,故障快照/自动处理,故障预测/主动预警,故障精准定位,应用性能监控预警,应用潜
4、在风险预测,应用可用性巡检,工作量统计,持续优化的支撑数据,配置/资产管理,业务可用性,SLA遵守情况,流程运转情况,战略决策支撑数据,部门运转分析支撑数据,业务优化支撑数据,应用体验分析,运维主管,IT运维工程师,应用运维工程师,对智能化IT监控运维的期待(管理),离散,人工,信息,被动,传统管理方式,自 动,知 识,一体化,主 动,信息展现,信息处理,信息提取,信息采集,智能管理方式,E,S,V,更好地进行业务保障,业务的稳定性、可靠性要求越来越高,业务系统对IT支撑的依赖性越来越强。,切实地提高服务质量,IT架构的复杂度不断加深;IT运维部门工作职责越来越重,真正地降低系统风险,IT运维
5、人员不足难以应对繁重的运维要求;IT事故将直接影响业务,责任重大,对智能化IT监控运维的期待(效果),度量中心,流程中心,监控中心,操作中心,配置管理资产管理,可视,协作,智能,自动,运维可视化展示运维大数据分析,服务流程管理运维即时协同远程桌面协助运维知识库,资源集中监控网络/应用拓扑应用性能监控应用体验分析,运维门户,业务系统自动巡检应用自动交付部署基础设施自动体检,智能化IT监控运维平台逻辑架构,统一访问门户 Portal,配置管理,配置管理,变更管理,配置模型维护,配置统计分析,IT资产管理系统,资产规划,资产申请,资产配置变更,出入库与分发,维保管理,变更管理,配置更新,配置审计,资
6、产统计分析,资产模型维护,资源分配,资产盘点,库存管理,报废管理,运维管理,工单管理,排班管理,事件管理,变更管理,配置管理,发布管理,问题管理,知识库管理,基础设施监控模块,供配电,多功能电量仪,ATS,UPS,发电机组,蓄电池,PDU,第三方监控系统,制冷环境,冷机冷塔,温湿度,CO2,精密空调,新风排风,微环境,漏水,安全防护,视频监控,门禁,入侵报警,消防系统,消防报警,气体消防,消防喷淋,统一用户管理,统一配置管理,统一权限管理,统一菜单管理,IT基础设施监控模块,服务器硬件,数据库,存储设备,应用拓扑,网络拓扑,机器数据分析,大屏展示系统,三维仿真,基于DSL的检索引擎,基于业务的
7、数据分析,容量管理,能耗管理,容量计算,容量规划,容量分析,位置推荐及模拟影响,PUE,WUE,能耗可视化,节能策略,实时数据流式处理,应用性能监控模块,预测分析,用户体验监控,代码级监控,应用性能分析,云计算管理平台,网络设备,中间件,大数据环境,业务巡检,预测分析,用户体验监控,代码级监控,业务可用性巡检,服务器登录审计,数据库访问审计,防火墙日志审计,移动设备管理模块,设备访问管理,在线情况监控,移动设备管理,智能化IT监控运维平台技术架构,统一访问门户 Portal,配置管理,配置管理,变更管理,配置模型维护,配置统计分析,IT资产管理系统,资产规划,资产申请,资产配置变更,出入库与分
8、发,维保管理,变更管理,配置更新,配置审计,资产统计分析,资产模型维护,资源分配,资产盘点,库存管理,报废管理,运维管理,工单管理,排班管理,事件管理,变更管理,配置管理,发布管理,问题管理,知识库管理,基础设施监控模块,供配电,多功能电量仪,ATS,UPS,发电机组,蓄电池,PDU,第三方监控系统,制冷环境,冷机冷塔,温湿度,CO2,精密空调,新风排风,微环境,漏水,安全防护,视频监控,门禁,入侵报警,消防系统,消防报警,气体消防,消防喷淋,统一用户管理,统一配置管理,统一权限管理,统一菜单管理,IT基础设施监控模块,操作系统监控,网络设备监控,数据库监控,应用中间件监控,存储设备监控,网络
9、拓扑展现,应用拓扑展现,告警通知框架,采集策略框架,统计分析报表,大屏展示系统,三维仿真,安全合规,业务分析,自动化巡检平台,业务巡检,基础设施巡检,自动盲检,巡检定义,巡检调度,巡检告警,巡检报告,基础设施巡检,容量状况巡检,性能状况巡检,信息安全巡检,容量管理,能耗管理,计算,规划,分析,推荐及模拟,PUE,WUE,能耗可视化,节能策略,智能化IT监控运维平台逻辑功能,应用系统自动化测试,自动化测试,从目标系统真实操作环境中创建测试用例,有效降低开发和测试成本。,可视化用例录制,轻松录制创建测试用例。参数化测试数据,保证测试覆盖度。零编码断言配置,配置选项方式设置断言。无污染事务提交,自动
10、清理测试过程垃圾数据。自动化测试任务,自动化执行定制测试任务。图形化测试报告,按需发布测试报告。,低效地手动构造测试数据,繁重的环境搭建工作,难于管理庞大的配置文件,高昂的日常维护成本,凌乱的测试任务和报告,通过自动化测试手段来有效提高开发效率和降低测试成本,接口测试边界测试,单元测试,回归测试冒烟测试覆盖率测试,集成测试,恢复测试安全测试压力测试性能测试部署测试,系统测试,确认测试准则配置评审A/B测试,确认测试,网络拓扑及流量追踪,数据中心资源,网络拓扑手动设置,拓扑自动发现及故障预警,网络设备监控,流量分析,监管设备,Request,Syslog,Trap,Response,基于SNMP
11、(MIB)协议的网络设备监控,基于ICMP(ping)、CDP、LLDP以及SNMP协议的网络自动发现,IT软硬件资源监控,基础设施监控,PDUUPSATS空调,WindowsLinuxSolarisAIX,NetAPPEMC,防火墙负载均衡路由器交换机,XenServerVmwareKVMXENRHEVPowerVM,数据库(DB2、MySQL、Oracle、SqlServer)应用服务器(Tomcat、WebSphere、Weblogic、JBoss)消息中间件(ActiveMQ),行业应用第三方应用,采集周期:1min,采集周期:2min,采集周期:3min,SNMP/Modbus,SN
12、MP/SMI-S,SNMP,资源集中监控,资源监控配置,插件开发支持新类型资源监控,从动环基础设施IT基础设施硬件数据库中间件自定义脚本,快速满足不同客户实际的IT监控需求,IT运维工程师,移动设备的安全管控,业务应用性能监控,一站解决应用性能管理问题,全面监控核心业务,实现自动化的业务系统异常监控、风险检测,以及应用性能优化。,应用系统健康体检,巡检脚本录制,跨设备巡检执行,标准遍历执行,深度遍历执行,业务可用性体检,系统状态报告,安全合规检查,业务应用系统,操作系统,中间件数据库,预处理建立关联模型,实时采集处理,实时采集处理,实时采集处理,基于业务系统的多层次机器数据,实现完善的安全合规
13、审计保障,定期安全审计,自动化威胁检查,网络攻击分析,告警分析,页面告警邮件告警短信告警微信告警声音告警,应用故障根源分析,应用发生故障告警,应用监控,设置告警策略,实际故障点,故障定位,通知,根据请求自动拓扑,应用故障快速定位,应用访问预测分析,业务价值:变被动解决风险告警为主动发现预防,提前规避问题及风险。,未来负载变化趋势预测,潜在风险及问题分析定位,资源配置策略预测分析,历史实时未来,可视化分析&展现,从分散粗放到统一精细,操作系统,网络流量,流量分析,虚拟化监控,硬件监控,存储监控,Zabbix,Nagios,Cacti,PRTG,vCenter,自身管理端,统一展现,统一策略,统一
14、告警,统一操作,不同类型资源不同单一管理工具,业务聚合指标实现故障根源追踪,应用响应时间突然增大,形成业务拓扑,发现业务异常,追踪故障根源,被动告警到主动式巡检,业务可用性自动巡检保障、追溯故障影响范围,业务巡检,发现问题,自动巡检,快速修复,告警通知,智能故障分析,业务拓扑钻取,解决告警,硬件巡检,重复运维工作自动化,运维工作,枯燥、重复、不及时,提取,脚本,发送邮件.sh,清理磁盘.sh,重启服务.sh,关闭服务.sh,数据备份.sh,.,任务,自动巡检,计划报表,计划维护,计划备份,.,触发器,自动化,传统监控转向智能分析,硬件故障率分析,Top服务器硬盘故障分析Top服务器电源故障分析
15、Top存储控制器故障分析Top存储硬盘故障分析,虚拟化资源池分析,Top剩余量存储分析Top停机时长vm分析Top磁盘消耗vm分析Top磁盘日均增长vm分析Top 磁盘读写效率vm分析Top 内存使用vm分析,服务器性能分析,Top CPU使用率机器分析Top 内存使用率机器分析Top 磁盘使用率机器分析Top 性能故障告警分析Top 磁盘读写速率分析,数据库性能分析,Top 表空间剩余量分析Top SQL性能分析Top 缓存命中率分析Top 日志日均增长分析Top 磁盘读写速率分析,网络流量分析,Top 会话流量排行分析Top 源IP流量排行分析Top 源端口流量排行分析Top 目标IP流量排行分析Top 目标端口流量排行分析Top 协议流量排行分析,各种统计报表,提升分析价值,提升运维能力积累,针对不同资源(服务器性能、硬件健康、日志状态、日志关键字、进程性能、数据库性能等)的告警处理,通过知识库可以实现运维方案的知识积累,方便知识的传递与故障的快速解决。,告警事件,告警时间,原因分析,处理方案,处理结果,告警资源,处理人,附件信息,告警类别,知识关键字,提升故障处理效率,知识共享,知识积累,知识转化,