《广东省中医院IT运维管理解决方案.docx》由会员分享,可在线阅读,更多相关《广东省中医院IT运维管理解决方案.docx(88页珍藏版)》请在课桌文档上搜索。
1、广东省中医院信息管理及运维北塔软件解决方案2017年4月1 项目总述51.1 当前广东省中医院IT需求51.2 北塔软件对广东省中医院IT运维管理建设的思路52 运维管理平台基本功能要求72.1 平台架构*72.2 平台部署*72.3 业务与数据安全*72.4 分级管理*72.5 统一页面展示72.6 资产管理*82.7 项目管理*82.8 知识库管理82.9 报表统计*92.10 IP地址资源管理93 对广东省中医院IT运维需求的理解93.1.1 网络设备层需求93.1.2 系统主机、应用管理层需求93.1.3 数据流分析管理需求103.1.4 业务管理层需求103.2整体思路103.2.1
2、 应用需求113.2.2 达到的效果123.2.3 建设目标124监控方案详细介绍134.1 产品平台介绍134.1.1 分布式采集器144.1.2 运行摘要154.1.3 日常运维164.2 运维等级管理164.2.1 停机检修管理174.2.2 软件操作审计184.3 智能运维引擎184.3.1 运用等级概念实现差异化管理184.3.2 自主学习基线实现业务异常监控194.3.3 智能策略实现管理实例落地204.4 系统智能运维214.4.1 预置智维管理方案224.4.2 智维事件监控224.4.3 智维越界提醒策略234.4.4 客户化分析策略定制244.5 故障管理244.5.1 告
3、警管理254.6 报表与分析274.6.1 性能趋势分析274.6.2 基础管理报表284.6.3 系统巡检报表294.6.4 快速报表定制314.7 系统类管理324.7.1 主机管理324.8 网络管理434.8.1 网络拓扑管理434.9 虚拟化管理464.9.1 呈现虚拟化对象健康性474.9.2 预防容量枯竭484.9.3 保障容量有效使用494.9.4 明细容量分配494.11.3根源分析614.12 数据流分析管理644.12.1 多探针部署方式644.12.2 实时信息644.12.3 智能分析664.13 机房管理674.14 专项运维704.14.1 设备性能管理704.1
4、4.2 线路性能管理715.运维方窠详细介绍725.1 事件管理725.2 任务管理765.3 资产管理775.4 服务级别管理795.5 知识库805.6 绩效管理825.7 系统管理835.8 一键报障系统845.9 提供手机APP功能855.10 值班管理855.11 报表管理881项目总述1.1 当前广东省中医院IT需求广东省中医院信息管理及运维监控平台(以下简称“一体化运维管理平台”)项目建设,旨在保障医院网络设备/安全设备管理、各类服务器/数据库/中间件等服务管理、业务运行监控管理、资产管理、项目管理、IP地址资源管理、机房管理、虚拟化平台管理、IT服务管理等业务安全、稳定、可靠运
5、行。1.2 北塔软件对广东省中医院IT运维管理建设的思路北塔软件十余年来专门从事IT运维管理产品研发、咨询和运维支持服务,为用户提供全面的管理解决方案及专业咨询服务。从广东省中医院IT整体运维服务管理角度出发,切合行业的最新技术发展,将业务管理与IT管理进行有效融合。采用符合E1.理念的设计思路,形成紧密贴合业务的综合一体化运维服务管理平台,平台通过扎实的基础设施管理支持技术体系,融合广东省中医院日常制度规范管理体系,引入落地的组织管理模型,为广东省中医院11管理提供全面综合管理解决方案,降低广东省中医院总体拥有成本(TC。).对IT运维服务管理建设要“自下而上,先易后难”,这里的下是指网络和
6、IT服务要首先管理好,然后再对上层的业务和人员进行管理;这里的易是指对设备的管理相对容易,然后再对人员和流程进行规范与管理,因为管理“人”要比管理设备困难得多。俗话说得好,路要一步一步的走,走得过急过快对IT运维管理建设效果的影响是非常大的。北塔软件对于IT运维管理建设方面建议分为三步走,即是“监控好、管理好、支撑好”。1 .监控好监控好是指对于网络基础设施要监控好,这里主要包括的是网络环境,因为网络是一个广东省中医院的基础。就像国民经济要提高首先要修路,我们IT部门建设的网络基础就相当于一条条高速公路。首先要保证高速公路畅通,在网络中不能有中断、有丢包、有错误包;其次不应出现拥塞现象,拥塞会
7、对使用者的体验感降低,我们如何从滚滚车流中发现不合理的流量,也是重要的管理内容。网络监控好了IT运维管理核心自然得到了保证。2 .管理好管理好是指对IT服务管理,前面我们监控好了网络,相当于保障了高速公路的畅通,而IT服务又像一个个数据的车站,如果车站出了问题业务将无法保证。我们第一步应该对主机、数据库、中间件、Internet(Intranet)应用做好管理,由于主机、数据库、中间件来自于不同的厂家,因此对管理人员的水平要求是非常的高,对于日常监控也是相当的繁琐。不同产品查看基本信息的命令是多样的,而且几百个服务器、中间件、应用服务每天对它们工作状态的检查其工作量是海量的。和管理好IT服务是
8、对业务保障的重要条件。3 .支撑好面象设备的管理无法满足新形势对业务监控的需求,IT运维管理要想提升“核心价值”应该向业务管理转变,由以前的管理IT部门好自家的设备向对业务整体过程管理转变。从业务角度出发,运维人员对业务数据流向各重点环节进行监控,通过图形界面把业务过程清晰直观的展示出来,当业务环节出现故障IT运维管理系统能提前预警并快速定位。在全广东省中医院范围内建立“技术服务于业务发展的意识和文化,是真正实现IT与业务融合的根本驱动力。2运维管理平台基本功能要求环境简介:目前信息处人员数为30人,服务器终端约300台,PC终端约3000台。2.1 平台架构支系统采用B/S架构,支持Wind
9、OWs、1.inUX等主流平台部署,后台数据库支持Mysql、SQ1.SERVEROraCie等主流数据库软件。2.2 平台部署支系统支持分布式部署:资源拓扑、告警、性能等功能模块支持多服务器分布式虚拟化部署,可实现负载分担,满足大规模网络环境的统一管理。2.3 业务与数据安全支提供主机、存储、应用、数据层面高可用保障机制,保证系统稳定运行,保证系统切换时无关键数据丢失。关键事务日志提供数据转存机制。2.4 分级管理支系统支持分层、跨地域管理,同一分级的多个物理区域,其管理区域之间是独立的,各下级运维管理系统也是相互独立的,上级运维平台在需要时可对下级运维平台进行管理,保证系统的统一性和完整性
10、。2.5 统一页面展示提供统一的监控页面:业务系统一览表、设备负载排行、主机负载排行、线路流量排行、设备负载统计、主机负载统计、线路负载统计、不可管理对象、服务可用性等。2.6 资产管理支支持资产档案管理:资产档案中包括资产配置信息、资产维保信息、资产历史故障以及资产变更等信息动态更新与维护,实现资产全周期跟踪管理。向导式资产录入及批量导入:系统支持资产录入及导入功能,源文件支持Excel/CVS等格式的文件,可按资产类别导入。资产查询:系统支持多条件组合查询,以及自定义属性条件查询。2.7 项目管理支项目周期管理,任务分配,项目过程文档管理。2.8 知识库管理知识库管理需要针对部门日常知识管
11、理混乱、个体化知识库孤岛,新职工熟悉环境进入工作状态慢,业务专家知识发掘与利用,岗位知识传承与优化,知识共享等问题,提供知识管理一体化解决方案,提升员工知识管理意识。支持通过文件管理、群件技术、搜索引擎、专家系统等技术工具,支撑知识收集加工、存储、传递、利用、创新。具体功能:0个人、公共知识库/知识文档建立及内容编辑0知识库检索0知识共享与推荐0分级权限控制1.9服务台管理自动判断故障的类型,指派故障处理人员,记录系统运行过程中问题发生、故障解决和日常维护的全部过程,对发生的问题做到即时响应,建立系统运行维护量化的考评体系,统计分析体系,逐步提高服务水平和管理质量,并与相应的工作流程对应。2.
12、9 报表统计支系统能够采集来自管理范围内上所有网络设备、主机、通用软件及应用的配置、运行、性能及事件等数据,并按类别进行管理统计,生成相应报表。2.10 IP地址资源管理提供全网所有设备、PC、主机等节点的网络实时分布一览提供全网“IP/MAC一所在设备一所在端口一所在V1.AN-PC主机名称一端口状态一备注”等用户信息一览表。根据设备的IP地址或者主机名称关键词进行搜索,直接定位到对应设备。3对广东省中医院IT运维需求的理解3.1.1 网络设备层需求实现对广东省中医院网络环境的综合展现,广东省中医院所的网络设备及安全设备,希望实现网络设备、线路、数据流量、相关边缘设备的全面监控和管理。3.1
13、.2 系统主机、应用管理层需求实现对系统环境的监控和管理,要求监控指标细致、深入,即包括WindoWS服务器、AIX服务器、1.inUX服务器、oracle、SQ1.数据库和tomcat中间件等。通过对主机和数据库的管理和监控从而确保整个业务系统的安全、高效、稳定地运行,提高管理水平,满足客户日益增长的服务需要,提供最安全最周到的服务保障,树立自己的行业形象,并结合现今行业发展水平,利用先进技术,采用安全可靠的设计方案,将监控系统集成化,网络化。广东省中医院现有的IT网络环境经过多年的建设,现在已经形成一个规模较大的IT网络。广东省中医院区域覆盖大,设备种类多,基层维护能力也给IT运维带来很大
14、的压力。针对广东省中医院网络的特点北塔软件提出以下解决方案。3.1.3 数据流分析管理需求企业网络的系统安全管理所面对的挑战时刻存在着,是网络日常管理工作中的重点工作,各类病毒的反复发作是绝大多数网络问题的根源。由于病毒特征千变万化,我们目前很难做出及时有效的事先防范。PC服务器的后门、网络的安全漏洞是永远补不完的,因此从网络平台上对病毒、后门等安全漏洞所产生的各种症候进行诊断和监视,将各类可疑网络行为分离出来,主动巡查的效果远比各种补墙术更令人安心,有效的预防和发现网络攻击与病毒的扩散,防患于未然。3.1.4 业务管理层需求业务管理的设计着眼于从IT整体架构到整体业务的综合服务品质,引入服务
15、水平协议(S1.A)机制和业务视图将各层次元素的管理贯穿和统一起来。一改被动性局部维护为主动性宏观管理,重视预警机制和智能分析,致力于提高企业整体运营品质,提高资源的利用率。对于企业内部SAP业务系统、分销业务系统、IPoS业务系统、OA业务系统、Bl业务系统等重要系统至下而上的进行监控,监控指标覆盖了底层CPUMEN磁盘空间1。读写,到上层应用数据流走向业务进程的ACTIVE情况消息队列情况负载情况进行等指标的全面监控。同时也克服了某些系统重监控轻管理,重硬件轻软件,重IT元素数据轻业务品质的弊病。从根本上突破了传统IT管理的概念。3.2整体思路广东省中医院可以分阶段、有步骤的建立一个运维管
16、理平台,在该平台上综合展现各it系统的整体运行情况,并且可以在合适的时候对该平台进行扩充,将下属各分行和支行及营业网点也纳入到该平台中进行统一的管理。321应用需求本次运维管理平台建设主要有以下几方面的需求: 对网络环境(包括网络设备、线路、相关边缘设备)进行管理; 对应用系统(包括服务器、数据库、中间件、标准应用)进行管理 对业务系统管理,对SAP、Bk分销、IPOS等业务系统进行整体化监控 对存储、光线交换设备管理。 机房环境管理具体来说,为了确保广东省中医院各业务系统安全、高效、稳定地运行,提高管理水平,满足日益增长的服务需要,提供最安全最周到的服务保障,树立自己的行业形象,并结合现今行
17、业发展水平,利用先进技术,采用安全可靠的设计方案,将监控系统集成化,网络化。逐步建立一个安全、高效、先进的远程网络监控体系。新的平台应能够很好的满足广东省中医院信息网络系统管理的实际需求,具备良好的实用性,能够提供强大的故障监测和故障信息处理平台。平台能够根据实际需求选择和定义对相关检测信息的显示形式和统计方法。对重要的应用系统和网络核心环节能够实现全面的检测和状态管理。对包括网络环境、主机系统在内的各种设备和应用进行跨厂家、跨平台的统一管理;能针对各厂家产品提供统一的管理界面;提供比较丰富和实用的管理工具;提供被监视设备的的故障日志;操作方便,能够提供大量的网络设备和应用系统的性能和状态的真
18、实数据、方便实用的事件统计功能;能对这些系统提供的数据进行整理和分析,结合运行考核办法,制订应用于广东省中医院信息网络各级运行管理的数据集。322达到的效果北塔运维管理平台建设完成之后,可以做到对广东省中医院各应用系统的统一监控的展现,相关运维人员可以直观的从管理平台看到所有应用系统的当前运行状态、服务状态和业务状态。对于IT环境中的潜在问题拥有事前管理能力,在事故发生之前就可以得到预警、并且可以快速的分析、定位、解决问题。3.2.3建设目标针对广东省中医院网络运维管理系统的需求,北塔软件提供完整的IT运维管理解决方案。方案包括对网络设备、线路和机房的管理,对应用系统(服务器、数据库、中间件、
19、应用服务)的管理,对存储、光纤交换机。提供完善的统计分析、趋势分析功能,为运维管理平台的系统扩容、业务发展提供可靠依据。运维管理平台具备合理、完善、可靠、综合、智能特性,具有配置、性能、故障、安全管理功能。对于不同级别的维护人员建设最终达到以下几个目标:1 .对于决策层可以随时了解核心网络、设备的运行状况,科学考核中层管理人员及具体运维人员的工作效率和工作执行情况,通过运维管理系统找出网络中的管理盲点,合理规划和使用现有的人力资源和系统资源,避免由于技术黑盒而使IT运维管理不透明的现状。2 .能从根本上减轻IT运维人员的工作负担,提高工作效率,方便IT运维人员对IT基础设施和业务服务进行高效管
20、理,从总体上把握和控制系统资源,提供高效的技术辅助手段,做到运维事前管理。4监控方案详细介绍4.1产品平台介绍帧屈示屎界靠接Q信r。8中间件标准应用虚拟化11Mtfi9l螂果aSifiSNMP、Telnet,SSH.WM1.:FTP:Http(三):POP3IS主机虚Kl机鳗醉WeblogicWebsphere:MQBTSo采用平台化设计,以DGe)(DataGathere)Cean)为数据采集平台,基础采集平台构建功能平台;以告警、报表、智能运维、IiCenSe构成强大的功能平台;具体资源的管理作为基于平台的管理功能,具备以接口为中心的设计模式。系统提供强大的扩展能力,支持管理能力的自由扩展
21、: 采集平台支持用户个性化采集程序的快速兼容,实现管理指标的快速扩展; 采集服务器支持无缝扩展,支持多个采集器同时部署; 支持管理策略的快速扩展,实现用户管理方式落地; 支持用户个性化报表的快速扩展,实现各种具备企业特征报表数据和展现方式。4.1.1分布式采集器对于包含多个分支机构的企事业单位,由于分支机构之间的网络隔离原因,单一的采集器已经不能覆盖,为此BTSo提供可扩展的广域网采集器,最多支持20个分支机构的分布部署,对于分支和总部之间的线路要求降到最低,可用IM的带宽,并支持广域网等线路稳定性较差的环境,并支持加密方式; 采集器具有独立的采集处理功能,在采集器完成自行的发现工作。 在部署
22、完成后,可进行自由扩展采集器数量; 支持对于固定采集器的管理对象进行禁访设置,规避由于管理对象本身监控协议的造成业务影响;4.1.2运行摘要对于一款监控软件来说,其最大的价值是能替代运维人员(值班员)实现不间断的监控,当系统成为用户的必备管理工具时,每次进入系统有一个概要性的说明,成为软件的必要。运维主管每日登陆一次即可综合性的显示了24小时内的系统运行变化趋势,通过列出了运维人员重点关注内容;通过对本界面的阅读,可快速掌握最近24小时的运维概况,实现运维工作的快速衔接。当前实时运维状况,需要重点关注当前还处于告警状态的资源最近需要的停机计划虚拟化环境目前的整合密度,概要性反映虚拟资源利用的有
23、效性 最近24小时运维系统的设置变动,便于用户了解“未在线”时段的事件重要的资源变动统计重要的监控方式变动统计已恢复的告警信息了解昨日关键指标波动最大的5个资源,便于本日重点分析主机CPU波动分析网络设备CPU波动统计线路流量均值波动统计4.1.3日常运维在运维过程中,运维系统在后台进行规律性监测,但是由于业务上的定期整修、环境的变化,管理要求的提高均需要运维管理人员对于系统运维工作进行干预操作,为了更好的实现日常运维的各项管理,BTSo提供日常运维菜单,为用户提供场景化工作入口,包括对现行监控方式的查看、对智维巡查过程的关注、调整监控计划,审计运维配置修改过程。4.2 运维等级管理等级管理是
24、实现差异化管理的一个具体手段,按照不同等级实现不同的监控方式是等级管理的具体落实;作为等级管理的主要页面,全局显示了所有等级的设备数量,以及不同等级的方式,包含智维规则、告警规则;同时设备的管理优先级不是固定不变的,本界面为用户提供了快速等级切换的统一配置功能。等级类SI资源数Zr小一.DB222CJ被潦关嵌I包负我泪他抬刈CcX拓扑摩公AHPUnaServerOQ:Y暝国OIoct用户数IRJI酢日疆长大/人磁怆ZlOochJRAft*fljIBMAbcServer1Q二四OvcKbRUT微敏基线司OroC触IRBffft/二堀OOeta等整故都爱膝理OroeteI1.inuxSefver4
25、IMj一起5CCh表磔短假界域怜UOrocte表Q级数SoloreServef1QOocte行GKe做1Windows6i=0.octerAOrocte用户会后0二理O8*会法数“雄&视OrOC1.a区救I-tsMQ1Q-eOrocteFtttraaaOrocts冗lBWebtogic1QOrocteMXMiwl二彩OroC匕遗M念IF军说H通涣Orocte同谈国命4WebsphereOQ二IBaoC匕*/48事的椅加OrocteBttnztlWebspbereSOS-0fK并申博彩行匕匕第他拘溯Orocte内衣停电斗OQ二IgOrocE取味字典统学会中左段Ifi2河OrocfcS爆宇IMfj
26、-IfiOrcc匕祈帽修卷仅祗U德/油RP1Q二IBOoc匕我中使用JMMi怆筮OvocbDBUseaPlH11P2q-octeSGMfRSaWMOtoceSGA使司,一(RCrcrKHfQOraete访问状含1POP3IS/SMTPOQ(帜加班员,数ftH(tW)通西DB22TWgt施做检XWI(Ma4GqOrode3IolOrOde共享侬I4岛中率翅Ia一“W-tt19UtB3DefcxMOfHPUnixSefver1QOroeiO借口和Q*M*X-Wf双走欠偿出3DfaGrIBMAixServerOQOrOCk曲为马余中本淑慎幡北住故置N寓显3OfauKd1.ruxSecver4QOtC
27、CggMF在内存手排序所占3OfauGSOiOriSSerVefOQ出原值*OoCiC由察宇IlMfa企中逑Al4三三三I三M_1DitaM2aWndowsMQ3QJ八/2WebtogicOWebsphereIQ14,149Krnl30XMl32g0J3*mWebsphereSOQ30021173(300211731三:4.2.1 停机检修管理停机检修是每个企业中不可避免的运维场景,检修时段的监控是没有意义,而且会导致相关误告警;BTSO将停机作为基本运维场景,用户可以按照在系统中制定停机计划,比如网络设备停机、主机停机,系统自动根据关联关系对于相关联的线路和承载软件自动列入计划。计划执行前,
28、系统可以以邮件、短信多种方式通知管理员做好相关保存备份工作。计划执行时,系统自动屏蔽相关设备与软件的告警项目;计划结束后,系统自动启用告警监控;相关统计中自动将停机内容进行去除,以设备正常进行计算。同时提供了admin账号补填停机计划的过程,此项过程为了保障由于临时性停机过程,而出现的错误统计现象。4.2.2 软件操作审计BTSO用于评价IT环境中的各个管理资源,为了体现公平合理,相关的评价规则的设置需要得到控制,所以提供了软件操作审计,为管理者能清晰的查阅到对于资源设置变更、监控规则变更、报表规则变更的情况,强大的搜索系统,为用户定位异常操作提供助力。,土时卷外MV2NA212M4T7留机婚
29、际if9181制M-MK试任务612OyM2l4IOJ7包机金修*加fwifan2013-12-12I4JC65停机金得制SrWlkI2-I2*rn*S*tt4MirxM320112l2UCSi3wm124RQ1.BBC找贝托扑inM10*口i-14.3 智能运维引擎4.3.1 运用等级概念实现差异化管理运用等级概念实现差异化管理BTSO精选各类管理对象的关键状态、性能指标,以不同管理等级为数据集,实现一个等级的资源一个管理方案,包含预置智维检测指标、预置报表、预置策略检测等;实现资源加入即可监控的简单运维方式。BTSO也支持用户根据业务系统的重要性,将管理上相同重要性的不同管理对象设置为同一
30、等级,针对性新设、修订管理指标监控集合,修订监控密度、阈值,指定针对性处置策略,在不同等级间实施差异化管理;图:智维引擎工作示意4.3.2 自主学习基线实现业务异常监控在日常运维管理中,业务管理的复杂性要远高于设备管理的复杂性,它不是简单的表现为好坏、通断,而是更复杂为可用性问题,可用性判断也是由一批关键指标构成的,但指标的正常与否,不能简单地以固定阈值来对比,要结合真实业务情况的波动来判断。BTSO提供智能基线监控方式,支持智能基线的自动学习,通过对正常状态下指标的“历史表现”,加以调整后作为基准线,与以后同样时段的实时指标做对比,如果误差在允许范围内,那么判定为正常,否则为越界,越界次数越
31、多,会导致系统的可用性严重下降,极端情况下导致系统不可正常使用;以此作为业务异常的监控;系统提供日、周两种基线方式,周基线的形成是以前几个稳定的周历史数据为基础,通过智能算法,将每日相同时间点的多个数据,归并成一个基准数据,并以此为方式形成周基线。使用基线时,将实时数据和基线相同时间点进行比对,实现周一和周末的区别、上午8点和下午4点的业务区别。4.3.3 智能策略实现管理实例落地BTSO将围绕运维数据产生且具有固定分析和处理逻辑的运维方法,归类为智能策略需要处理的方法;通过策略的应用,可以进一步提高运维效率和运行成效。BTSO内置了众多的智维策略,提供标准的管理实例落地,通过客户化开发实现用
32、户处理经验的快速落地;系统对于所有管理指标均可实现基础分析方法,当发现异常后,及时了解该异常指标的管理意义和影响范围,以及历史情况,这样将原本专业性过强的指标一下子拉进到可理解可运维的角度;系统对于主机类两个重要问题“负载过高”“内存泄露”进行了专项分析,针对这两个问题特征,联合进程分析,进一步定位造成这两个问题的具体业务进程,为用户解决系统问题提供有数据、有结论的原因定位;系统对于数据存储的核心性能问题“内核延迟”“设备延迟”做了专项分析,另外对于集群、宿主机、虚拟机、数据存储的24个关键性能指标提供自动分析,当发现异常越界比例过高时,系统会主动以专题性分析报告的方式告知用户,列出历史分析数
33、据,便于用户更深入了解问题本质,同时给出了具体解决这个问题的方案,从而使用户在第一时间能将影响范围缩到最小;通用指标越界策略,如同上述数据库指标一样,通过对于历史数据的分析回顾,智能分析出指标与历史基准(具体风险阈值的差异),主动提示用户异常风险,并同时告知该指标的意义以及异常的处理建议;该策略可覆盖所有类型的指标,包括主机、网络、数据库等,用户也可通过该策略关注业务相关的特殊指标,以完成策略的本地化应用;*.2008123131.0t.内育色松JJHlB近72ZJSWXCT图:异常情况分析与处理建议5J我化心更发1了内有算期twwa与科电IrftFT用琥MT在内存如Ma*i-AVU*1划支1
34、200123X12014161530201491530S访Mie理了取”方,及StSCxmF*U火力旬B,.fKK上5疝-mpva,(KD23232)内3M鎏192”5科31期0事4.4 系统智能运维传统系统监控的访问方式为告警,但是面对设备日趋完善,管理对象超过阈值的告警越来越少,如何实现运维价值的最大化呢?这是摆在运维管理主管面前的最大课题。北塔公司结合用户运维实际情况,发现运维价值最大化的方式有如下方面: 通过事前隐患智能分析,主动排除,即时通知,将故障发生概率降到最低; 对于部分故障实现自动化分析和处置,缩短故障处置周期,避免损失扩大化; 落实每个运维主管的对于自身企业的个性化管理要求
35、;BTSO适时推出了智能运维管理,为用户落实如上3点诉求,提供管理功能。4.4.1预置智维管理方案BTSO核心管理方式就是智能化管理,智能化的理论基础是北塔十几年的运维经验和几千家用户的管理实践,为把这些管理方案推送到用户现场,BTSo提供了智能运维模板。智维模板按照管理等级,预置了不同管理对象的管理方案,方案包含如下技术点: 内置监测方案,包含采集指标的多寡,具体指标的采集周期、监测阈值,便于对系统自行巡检相关数据; 提供了预置告警规则给用户进行选择,用户可以根据业务管理实践的不同启用相应的告警管理规则; 提供常见管理报表,并生成高级别对象的管理报表。通过上述智维模板,使软件无需复杂配置,安
36、装就能对资源进行基础运维。4.4.2 智维事件监控对于预置监控方案,BTSO不仅提供后台自动检测过程,也提供了前端巡查功能,使用户能实时了解到后台智维的实时动态;对于智维巡查结果,以事件方式存在,此类事件并不完整描述了故障或异常,所以BTSO推荐以统计角度进行评价,以越界比例作为观测的切入点。同时系统提供详尽智维分析工具,包含智维信息的统计、智维异常分布、历史值检查等,结合此类工具实现异常的关联分析和确认。系段发理120.0.8.19:,:CPUh-J正3E18日出N73次.共检Ift;X次.SCA(K49次,曹Mt.5*e:nurTl三而4.4.3 智维越界提醒策略BTSo预置多种预置策略,
37、基础策略是对于内置监控方案的提醒策略,对于智维越界事件,当系统发现内置检测指标,越界事件超出安全频率后,主动推送到页面前端,通知管理员,系统发现了异常。提示内容中包含最近3日,发生异常的次数并且给出该指标的历史曲线;同时给出该指标的详细定义,清晰的列明,该指标是什么,异常后影响什么,一般的解决方案是什么。同时可对该指标进行快速设置告警,便于后期管理中,出现了相同问题后能通过短信、邮件通知离线用户。444客户化分析策略定制BTSO的智能策略基于平台化接口体系,作为软件的核心,其可以调用BTSO软件的各个方面,包含基础数据的采集,合成指标的计算,各类对象的综合分析,并可以实现通知、报表、下发等处置
38、策略的调用。北塔软件基于BTS0,通过合作开发的模式,可以实现用户管理策略的自动化,使每个用户能使用上“贴心”的运维软件。4.5故障管理对管理对象按照预置的风险阈值进行检测,并实时通知到管理员处,是运维系统必备功能,也是传统上运维软件的核心价值所在;而在传统上故障管理在应用上经常会遇到如下问题:设置告警的范围选择,用户总是期望监控无死角,但是所有KPl的高频监控必然导致管理设备的异常负载增加,这要求运维厂商能提供合理的告警范围推荐;告警规则的自动设置,往往用户对于告警的规则和检测标准时一致的,如何实现相同标准的推广,这要求运维软件对于规则设置的易用性;告警的经验如何总结和继承,告警处理经验能得
39、到及时记录,并能在下次出现同问题时,即时推送,便于有效提高故障处置效率。BTSo系统提供了灵活的告警设置、精确的告警检测,多样告警推送方式、简单的告警经验积累方式,实现用户有效及时得到故障信息。4.5.1 告警管理4.5.1.1 便捷的规则设置告警永远是运维中最基础的功能,对于运维人员而言,总是期望告警不产生,那样意味着系统正稳定运行;为了给用户提供这个可靠的信息,BTSO提供便捷的告警设置实现大面积的监管设置;在设置界面为重点指标实现详尽的指标说明,使用户面对具体技术指标能更为合理的进行配置。 系统提供多种预置告警规则 支持以IP为方式,为未纳入管理设备规则化的告警规则 支持为某一个存在的对
40、象为样本,批量设置进程、硬盘的子对象的告警 支持以IP网段方式和等级方式显示告警的设置 支持以多种通知方式,灵活的通知给不同的人员 支持对告警通知内容恢复内容的自定义,满足用户对于业务化通知内容的实现4.5.1.2 高效的告警提醒机制BTSO为了让用户能快速识别告警信息,以不同颜色区分不同的告警等级,并在运行摘要和页面框架中重点突出显示。用户每日登陆系统均可了解昨日告警的处理情况,目前发生且需要处理的告警数量,同时可以看到具体告警实时条目。以及本日的停机计划,为一天的工作提供基础信息。当长期打开页面时,系统通过框架上的颜色区别显示不同的等级告警,使值班人员能快速了解到具体的告警展现。同时系统提
41、供短信、邮件的通知方式,为线下管理员提供最及时的告警信息。4.5.1.3 清晰的告警查询为了使告警信息更为有效,系统提供灵活、清晰的告警历史查询界面,界面中列出了不仅列举了历史告警的各个字段,同时给出告警统计分析信息,为用户以告警角度对现有对象的信息进行评价。 系统提供告警时长、和累计次数为索引条件统计,为用户提供这个维度出现告警最多的管理对象和具体异常点; 提供重复告警统计,以及统计时段内最长、平均、累积的告警时长,为用户提供告警规则有效性评估 提供处置经验的编辑功能,为用户快速积累处置经验提供管理入口,下一次相同问题出现时,提供处置参考;4.5.1.4知识库管理用户在长期的运维过程中,一般
42、均会有一些管理预案,但是如何实现管理经验的长期积累呢?BTSo提供处置知识库,通过对处置预案的积累,出现问题后能快速实现信息传导,将处置预案真正落实到实际操作过程中。4.6报表与分析监控数据是一般宝贵的财富,不仅仅能实现前期运维成绩的考核统计,也可数据分析实现管理方法的改进,BTSO提供强大的报表数据处理能力,可根据用户要求定制不同的个性化报表;同时提供灵活的数据分析工具,实现对于历史数据的灵活分析能力;运维管理员可以在分析重大异常问题和阶段性分析时进行数据分析。4.6.1 性能趋势分析性能趋势分析是基于BTSO强大的数据采集和存储能力的基础上,实现的数据分析工具,提供对于最多5个指标的同时对比分析,支持长达1年无压缩数据的数据分析;实现从天到年的无缝数据扩展查看;对于每一个数据可以压缩比例,实现数据幅度比较。4.6.2 基础管理报表系统提供多张预置报表,包括管理上离不开的运行率和告警统计报表、性能统计报表;系统提供日、周、月、季报表统计周期;可对统计周期可以进行设置,可实现对于工作时段和值班时段的报表,并可按照用户考核时段进行统计。同时用户可实现不同管理域生成不同的报表,并可将报表授权给不同的人员进行查看。K3IttM0*9gc*JS-WtM*3.4”OW5”Bat59nSBAWU*B*,ynMIR*4flbe*SaMJlyKWiakI.XXB58S*UIWRewueRSBM