《运维应急响应管理制度.docx》由会员分享,可在线阅读,更多相关《运维应急响应管理制度.docx(25页珍藏版)》请在课桌文档上搜索。
1、运维应急响应管理制度0803(总23页)-本贞仅作为文档封面,使用时请直接期除即可-“内页可以根据需求调整合适字体及大小一应急响应管理制度山西精英科技股份有限公司版本记录目录1目的错误!未定义书券。2术语定义与引用标准错误!未定义书签。术语定义懵误!未定义书签.引用标准传促!未定义书签.3运用范B1.错误!未定义书答。4工作原则错误!未定义书签。统一指挥、有效组织密决!未定义书篓.突出重点,加强演练管课!未定义书签.技术支撑,健全机制懵误!未定义书签.5风险评估错误!未定义书签。系统重要性评估密出!未定义书梦.影响度评估情识!未定义书签.发生几率评估号误!未定义书签.发生时段评估号谀!未定义书
2、签.风险等级评估错误!未定义书卷.进行风险评估备课!未定义书签.6事件分级错误!未定义书券。信息系统重要性借谀!未定义书签.信息系统服务时段错识!未定义书卷.事件定级号误!未定义书签.7组织机构和职责错误!未定义书签。公司内部组织传识!未定义书签.总负责人借课!未定义书签.应急指挥小组错误!未定义书卷.应急工作小组得谀!未定义书筌.相关外部角色幡识!未定义书签.错误!未定义书签。事件处百要素号误!未定义书卷.管理层面暂课!未定义书签.技术层面得识!未定义书签.事件归口号误!未定义书签.分级响应暂限!未定义书签.指挥和协调号误!未定义书卷.信息共享和处理得说!未定义书签.通讯得促!未定义书筌.外
3、部沟通号误!未定义书筌.服务需方暂课!未定义书签.供应商错课!未定义书签.9运行机制错误!未定义书签。日常监测和预警号谩!未定义书签.应急启动得谀!未定义书签.事件报告情课!未定义书签.应急调度错误!未定义书签.排查和诊断得决!未定义书筌.处理和恢复号误!未定义书签.事件升级号褒!未定义书筌.持续服务得眠!未定义书卷.应急事件关闭号误!未定义书筌.申请得谀!未定义书签.核实拶识!未定义书奖.事件通报错误!未定义书签.总结改进得谀!未定义书签.应急工作总结号误!未定义书签。应急工作审核暂谀!未定义书卷.10保Im族错误!未定义书签。通信保障密谀!未定义书签.物资保障号误!未定义书签。技术保障密课
4、!未定义书签.经费保障概课!未定义书签。人员保障密误!未定义书签.11宣传、培训和演练错误!未定义书签。宣传僧谀!未定义书签.培训错误!未定义书签。演练密说!未定义书签.12应急晌应理关指标错误!未定义书签。1目的为了规范客户的各类信息系统应急事件的应急管理,提高应对应急事件的管理水平和应急处理能力,有效防范信息系统风险,液少信息系统故障对生产业务造成的影响,确保信息系统运行的连续性,特制定本预案2术语定义与引用标准2.1 术语定义服务级别管理术语定义如下:术语缩略词定义重点时段保障importantperiodassurance提升服务级别以确保某一时间段内里要活动或重点业务的开展所采取的措
5、施和活动。应急事件emergencyevent导致或即将导致运行维护服务对象运行中断、运行质量降低,以及需要实施重点时段保障的事件。应急响应emergencyresponse组织为预防、监控处置和管理应急事件所采取的措施和活动。2.2 引用标准GB/T-2012信息技术服务运行维护第1部分:通用要求;GB/T-2012信息技术服务运行维护第2部分:交付规范;GB/T-2012信息技术服务运行维护第3部分:应急响应规范;ITSS1-2015信息技术服务运行维护服务能力成熟度模型;IS0IEC27001:2013信息技术-安全技术-信息安全管理体系要求。3适用范围本制度适用于公司运维业务范围内的信
6、息系统、网络系统、数据中心等应急事件。本制度用于指导和规范公司运维业务范围的信息系统、网络系统数据中心等应急预案,建立自上而下、分级负责应急事件应急处置体系,规范处理突发事件的逐级汇报流程。本制度适用于应急项案编制,预案评审、预案实施、应急队伍、培训教育、应急装备,应急演练等工作。4工作原则4.1 统一指挥、有效组织成立应急总负责人,由公司总经理担任;应急指挥小组,由公司副经理,技术骨干等组成;并成立应急工作小组。组织开展事件预防应急处置、恢复运行事件通报等各项应急工作.相关部门要主动协调有关各方面,参与实施部门听从指挥步调一致。4.2 突出重点,加强演练对关键信息系统加大监控和应急处理力度,
7、确保应急信息及时准确传递。每年开展应急演练工作,确保应急措施合理,有效。4.3 技术支撑,健全机制在充分利用客户现有的信息资源,系统和设备基础上,采用先进适用的预测、预防预警和应急处置技术,改进和完善应急处理的奘备、设施和手段,提高应对信息系统应急事件的技术支撑。建立健全应对信息系统应急事件的有效机制。5风险评估应急响应小组每年对至要信息系统进行一次风险评估,并根据风险评估结果来制定或更新应急预案。风险评估方法如下:5.1系统重要性评估描述1级将对客户造成极严重的或灾难性的损失42级将对客户造成较重要的损失33级将对客户造成一定损失24级将对客户造成有限损失1根据上表对信息系统以及相关外部环境
8、进行重要性评估,5.2影响度评估WfiX值影响度描述高3核心业务全面中断;口影响大面积用户正常使用;中2部分核心业务中断;口影响一定范围内用户的正常使用;低1单一业务中断;口影响个别用户正常使用;根据上表对信息系统以及相关外部环境进行影响度评估。5.3发生几率评估可能性取值可能性描述胁发生的频率)经常3可能每个季度发生一次或者以上偶尔2可能每半年会发生一次极少1可能每年发生一次或更少根据上表对风险发生几率进行评估。5.4发生时段评估等级M值时段程度描述高3核心业务并发高峰期;核心业务关键程序执行期;中2部分核心业务并发高峰期;部分核心程序执行期;低1非核心业务并发期;非核心程序执行期;5. 5
9、风险等级评估按照重要性、影响度、发生几率赋值相乘,得出信息系统以及相关环境的风险等级。等级描述如下:可能性123影篇度123123123要性112324636922464I1336969448风It值=就要性X风1发生可能性X风险发生的严性风险等级风险值n高(三)11=12中(M)12n4低(1.)n=46. 6进行风险评估按照风险等级评估,列出信息系统以及相关外部环境,描述可能发生的风险,针对每一个风险制定控制措施,并明确相应责任人,形成风险评估表,撰写风险评估报告。7. *件分级根据信息系统事件的分级考虑要素,将信息系统事件划分为三个级别:I级事件、II级事件、I”级事件。一般(III级)
10、:综合分值在1-4分;?较大(II级):综合分值在5-12分;?重大(I级):综合分值在大于12分;?7.1 信息系统重要性信息系统的至要性由以下要素决定:D信息系统所属类型,即信息系统资产的安全利益主体。2)信息系统主要处理的业务信息类别。3)信息系统服务范围,包括服务对象和服务网络覆盖范围。4)业务对信息系统的依赖程度。其中第1)与2)个要素决定信息系统内信息资产的至要性,第3)与第4)个要索决定信息系统所提供服务的束要性,而信息资产及信息系统服务的重要性决定了信息系统的重要性。信息系统分级及赋值如下:M值描述14级信息系统23级信息系统32级信息系统41级信息系统6.2信息系统服务时段信
11、息系统服务时段划分为3级。依据应急事件发生的不同时间,对信息系统恢复正常服务所需的时间要求而确定。Ktt播逑1非系统服务时段(不含系统服务时段即将开始)2系统服务时段或系统服务时段即将开始3系统处于重点时段保障(业务必须正常运行时间)或处于服务高峰时段信息系统损失程度赋值应急事件造成的信息系统损失程度划分为3级。依据故障发生对信息系统提供的服务能力的下降程度而确定。系统性能系统功能功能无损部分损失全部损失小于阈值13大于或等于阈值123重点时段保障的损失程度赋值为36.3事件定级将以上应急事件三个要素的赋值相乘,事件级别如下表所示:皴别范B1.皴别16I1.1.事件818I1.事件2636I事
12、件7组织机构和职责7.1 公司内部组织公司内成立应急处置领导小组、指挥小组,工作小组.应急组织设置根据实际项目的应急组织管理机制,受客户的应急组织领导。7.1.1 总负责人总负责人的主要职责:统一领导信息系统的应急事件的公司内部应急处理工作,发起研究重大应急决策和部署,决定实施和终止应急预案。7.1.2 应急指挥小组应急指挥小组的主要职贡:接受应急总负责人的领导,传达和落实应急总负责人的各项指令,汇总和上报应急信息,负责应急工作小组成员的协调沟通,协调应急事件处置工作中的重大问题。7.1.3 JSQ1.作小组应急工作小组主要职责:落实应急总负责人及应急指挥小组布置的各项任务;组织制定应急预案,
13、并监督执行情况;掌握应急事件处理情况,及时向应急总负责人和应急指挥小组报告应急过程中的重大问题.角色角色匹配总负责人总经理,工程运维中心总监(副总经理)京色角色国E应急指挥小组运维部经理、技术支持部经理,运维项目经理、综合管理部质量管理部经理应急工作小组技术支撑主管、研发主管、运维主管、运维工程师、备件管理员等运维团队成员、质量管理员7.1.4 相关外部角色服务需方应急响应责任人与供应商等外部联络人及相关人员.8应急要素与体系8.1 事件处置要素8.1.1 管理屋面1)启动指挥体系:I级事件的启动和指挥由应急总负贵人负责,I1.I1.1.级事件的启动应急指挥小组负责12)掌握事件动态:事件动态
14、由应急工作小组人员收集并及时反馈给应急指挥小组,应急指挥小组决定信息的共享、沟通,处置。3)处置实施:控制事态防止蔓延做好处置消除隐患4)后期处置:事件调查报告和经险教训总结及改进建议。5)保障措施:包括通讯与信息保障,应急支援与设备保障,技术储备与保障,宜传、培训和演练,监督检查等8.1.2 技术层面信息系统事件发生后,事发部门应立即启动相关应急预案,实施处置并及时报送信息。1)控制事态发展,防控蔓延。事发部门先期处置,采取各种技术措施,及时控制事态发展,最大限度地防止事件蔓延。2)快速判断事件性质和危害程度。尽快分析事件发生原因,根据信息系统运行和承载业务情况,初步判断事件的影响危害和可能
15、涉及的范围,提出应对措施建议.3)及时报告信息。事发部门在先期处Si的同时要按照预案要求,及时向上级报告事4)做好事件发生,发展、处置的记录和证据留存.8.1.3 ,件归口发生应急事件的归口部门是应急体系启动的责任部门。8.1.4 分级响应发生I级事件,由应急工作小组初步判定事件级别后,将信息通知应急指挥小组并注意持续监控事态、收集信息做出应急准备;应急指挥小组响应判断为I级事件后,立即通知应急总负责人,并由应急总负责人启动应急预案。发生11I1.1.级事件,由应急工作小组初步判定事件级别后,将信息通知应急指挥小组并注意持续监控事态、收集信息、做出应急准备;应急指挥小组响应判断为11”I级事件
16、后,立即启动应急预案。应急事件的级别应置于动态调整控制中。8.2指挥和协调I级级事件,由应急工作小组收集信息,应急指挥小组做出预判,并迅速通知应急总负责人,由应急总负责人进行指挥和决策。IKIII级事件,由应急指挥小组进行指挥和决策,并及时将处理过程、报告等上报应急总负责人。8.3信息共享和处理I级事件,由应急工作小组收集信息并提交给应急指挥小组和应急总负责人,由应急总负责人决定信息的分发、共享和处置。Ih”I级事件,由应急指挥小组决定信息的分发共享和处置,并上报应急总负责人。8.4通讯应急响应小组和工作小组建立通信录,并24小时开通联系电话,保持通信顺畅。通信录应上报应急总负责人。事件处理过
17、程中的值班人员必须拥有完整的通信联系方式,并有足够的通信手段保证联系顺畅。8.5外部沟通应急组织应与外部相关利益方进行沟通确认统一的沟通流程和方式。8.6服务需方当应急事件发生时,若是由用户报障到服务台,服务台人员应向用户详细了解事件情况。项目经理接单后应立即与客户方负责人沟通,尽快开展工作。若是由现场工程师主动发现,则应立即通知客户方负责人。在事件解决过程中,现场负责人应及时向客户方相关人员通报最新情况。完成处理与恢复后,现场负责人应告知客户方负责人,由客户方负责人进行现场确认,之后应组织运行维护人员提供持续性服务,并定期向客户方负责人汇报。在持续性服务证实一切正常后,由客户方负责人在事件单
18、上签字,并由服务台进行回访确认后,现场负责人可向应急指挥小组申请关闭事件。在应急事件关闭后,应急总负责人应授权应急指挥小组向相关利益方通报事件信息。8.7供应商在应急事件解决过程中,可能会需要供应商提供服务。此时现场负责人应根据应急预案,与供应商联系.9运行机制9.1 日常监测和预警组织应该对运行维护服务对象的运行情况进行监测与预警,以跟踪和判别以下对象的容量,可用性和连续性。D应用系统;2)支撑应用系统运行的系统软件、工具软件;3)网络及网络设备;4)安全设备;5)主机存储、外设,终端等设备;6)安防一卡通会议等智能化设备.如发现有异常情况时,要及时处理并向现场负责人报告,并及时排除信息系统
19、中存在的风险隐患。9. 2应急启动应急预案的启动有以下两种方式:D遇到级事件,事件信息由应急工作小组提供并提交给应急指挥小组,应急指挥小组做出初步判断和初步事件级别的确认,初步确认为I级事件的,呈报应急总负责人,由应急总负责人下达启动应急预案。2)遇到“、I1.1.级事件,应急指挥小组自行启动应急预案,并及时上报应急总负责人。9. 3事件报告当发现各类信息系统事件时,应按照事件等级逐级汇报。报告分为紧急报告和详细汇报。紧急报告是指相应部门在事件发生后,立即向本部门应急指挥小组以口头和应急报告表形式汇报事件的简要情况;详细汇报是指由相应部门应急处理机构在事件处理暂告一段落后,以书面形式提交的详细
20、报告。应急指挥小组对各类事件的影响进行初步判断,汇报矩阵如下:件皴舜报告件要求报告机I10分钟内总负责人1130分钟内总负责人I1.1.60分钟内总负责人报告内容应准确、详实,任何部门和个人均不得缓报、瞒报、谎报或者授意他人缓报,瞒报、谎报事件.事件报告信息一般包括以下要素:发生事件的信息系统名称及业务部门、地点、原因,信息来源、事件类型及性质、危吉和损失程度、影响部门及业务、事件发展趋势采取的处置措施等。9.4应急调度公司应该按照项案开展统一的应急调度,包括人员、资金和设备等。应急调度由应急总负责人授权应急指挥小组执行.9 .5排查和诊断组织应明确故障排套和诊断潦程;应急事件的排查与诊断流程
21、参考事件与服务请求过程,排查与诊断过程需在应急事件报告进行记录。处Si应急事件的过程中,现场负责人应及时与相关利益方就排查、诊断结果进行沟通和问题确认。10 6处理和恢复应急事件的处理与恢复应基于应急响应预案、配置管理数据库、知识库等进行故障处理和系统恢复。必要时可启用备品备件灾备系统等。应急事件的处Si与恢复流程参考事件与服务请求过程,处理与恢复过程需在应急事件报告进行记录,并及时告知利益相关方。在处理和恢复应急事件时,应在满足事件级别处置时间要求的前提下,尽快恢复服务。事件级别处置时间要求如下:件级别处置时间要求I2小时I1.4小时I1.1.6小时11 7事件升级当事件处置超过事件级别处鲨
22、时间要求时,应急工作小组应向应急指挥小组申请事件升级,递交应急事件升级审批表。事件升级的实施授权应由应急指挥小组负责人启动。应急指挥小组应对事件升级可能造成的影响进行评估,并在相关利益方间达成一致,12 8持续服务完成处理与恢复后,应组织运行维护人员提供持续性服务。应急响应组织应对持续性服务的效果进行评价。持续服务的评价结果,应作为应急事件关闭的输入。I级应急事件应急处理结束后应密切关注,监测系统2周,确认无异常现象.I1.级应急事件应急处理结束后应密切关注,监测系统1周,确认无异常现象。111级应急事件应急处理结束后应密切关注,监测系统3天,确认无异常现象。9. 9应急事件关闭9.1.1 申
23、请在同时满足下列条件下时,应急工作小组负贡人可向应急指挥小组提出关闭申请。应急事件处理已经结束,设备、系统已经恢复运行。持续服务阶段系统无异常,持续服务阶段结束。服务需方应急响应负责人同意事件关闭。应急事件处置的过程文档已整理完成。9.1.2 核实应急指挥小组接到关闭申请后,应逐项核实报告内容,以判别应急事件处Si过程和结果信息是否属实之后通报应急总负责人,由应急总负责人做出关闭决定。9.1.3 事件通报应急总负责人应授权应急指挥小组向相关利益方通报事件信息,内容应包括:事件发生的原因、事件级别及影响范围;事件对应的预案;事件的处置过程和方法;事件的调整升级情况;持续性服务情况;事件处置评价;
24、事件关闭申请的处理意见;关闭通报的范圉和涉及接受者。应急事件发生的原因、处置过程和方法应记入知识库。9.10总结改进9.10.1 应急工作总结组织应定期对应急响应工作进行分析和回顾,总结经验教训,并采取适当的后续措施。对应急响应工作的分析和回顾应考虑以下方面:应急响应工作的绩效;应急准备工作的充分性和有针对性;应急事件发生原因、数量及频率;应急事件处置的经验得失;应急事件的趋势信息;信息系统中潜在的类似隐患。对应急响应工作的分析和回顾应形成应急响应工作总结报告,并将总结报告作为改进应急响应工作及信息系统的束要依据。9.10.2 应急工作审核应急总负责人应定期发起对应急响应工作的评审,以确保应急
25、响应过程和管理符合预定的标准和要求。南核的结果应该正式存档并通知给相关利益方。评市至少每年一次,可于公司内审时进行。D审核时应考虑的要素包括:2)相关利益方的要求和反馈;3)组织所采纳的用于支持应急响应的各种费源和流程;4)风险评估的结果及可接受的风险水平;5)应急预案的测试结果及实际执行效果;6)上次评审的后续活动跟踪;7)可能影响应急响应的各种业务变更;8)近期在处置应急事件过程中总结的经验和教训;9)培训的结果和反馈。10)审核的输出结果应该包括:改进目标;改进的具体工作内容;所需的各种资源,包括人员资金和设备等。10保障措施10.1 通信保障指挥,通信联络和信息交换的渠道主要有外线电话
26、,手机、传真、电子邮件微信QQ等方式,有关应急联系人员手机应保持每天24小时处于开机状态。10.2 物资保障各部门根据信息系统事件防治工作所需确保经费,配备相应的应急设施,以确保事件应急工作的娱利进行。应急物费主要有备品备件、常用工具等。10.3 技术保障任何状态下,应提供充足的技术保障,如网络拓扑图、服务器清单、网络设备配置访问控制策略、应用系统和各类软件的版本,并定期进行数据备份,以保障发生事件时,受影响的信息系统能及时恢复。重视信息系统事件体系的建设、运维和升级换代,确保信息系统的稳定与安全,确保在事件处置过程、系统恢复或重建过程中有足够的技术支撑.10.4 经费保障各部门应保障应急培训
27、、演练添置应急物资等所需经费.10.5 人员保障各部门需加强信息系统应急事件应急技术支持队伍的建设,提高人员的业务素质技术水平和应急处置能力。确保在事件处置过程和系统恢复或重建工作中人员在岗并具有处置能力。11宣传、培训和演练11.1 宣传公司各部门应加强应急工作的宣传和教育,提高各级人员对应急预案重要性的认识,加强各部门和部门之间的协调与配合。11.2 培训各信息系统应急预案涉及人员应定期开展应急预案的培训,做好信息系统相关知识的宣传和普及,增强各运维人员的责任意识,熟练掌握应急响应的程序和应急处置技能等内容。11.3 演练公司要组织对项案进行定期演练,通过演练验证预案的合理性,及时修订和完
28、善不符合实际的应急处置情况,有针对性地改进信息系统应急事件处置能力,确保事件发生后应急处理手段及时到位和有效,相关部门在做应急演练前要做好相关准备工作,确保演练工作的安全。要明确演练的目的和要求,记录演练过程,对演练结果进行评估和总结。附件1:应急响应体系矩阵表如下:件皴别皴别判定加!启动指舞和决策值息分发、共享和处置向调度关册及通报指挥小组领导小组领导小组领导小组指挥小组领导小组I1.级指挥小组指挥小组指挥小组指挥小组指挥小组领导小组I1.1.级指挥小组指挥小组指挥小组指挥小组指挥小组领导小组附件2:应急响应负责人和应急小组责任人登记表责任人姓名职务I办公电话手机组长王增强总经理0551-副
29、组长赵存会副总经理49副组长吴静峰运维部经理0551-组员运维研发主管0551-组员技术支撑主管0551-组员质量管理部经理0551-组员综合管理部0551-组员人力资源部0551-组员运维部0551-组员运维部0551-组员运维部0551-组员运维部0551-组员运维部0551-组员运维部0551-组员运维部0551-08组员运维部0551-注:所列g发生变更时,须新报运维部、AM3Sv媒合理部冬案.12应急响应管理关键指标应急响应管理的工作指标应每年组织进行评估,根据评估结果确定是否需要调整指标或指标目标值“指标名称考核戛求考楂指标应急响应宣贺体系建设每半年度至少进行一次事点项目应急培训演练针对应急预案,重点运维项目是否制定演练计划、演练脚本,培训应急工作审核每半年度至少进行一次应急工作组织会议,对应急响应工作进行评审与总结每半年度组织人员对应急响应工作进行评审逐项应急演练次数不小于一次检查所有运维项目的应急演练记录每年度所有运维项目应组织一次应急演练