《灾难恢复应急预案.docx》由会员分享,可在线阅读,更多相关《灾难恢复应急预案.docx(45页珍藏版)》请在课桌文档上搜索。
1、上海观安信息技术股份有限公司灾难恢复预案模板TSC-RA-4-14本文件中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属上海观安信息技术股份有限公司和客户公司所有,受到有关产权及版权法保护。任何个人、机构未经上海观安信息技术股份有限公司和客户公司的书面授权许可,不得以任何方式复制或引用本文件的任何片断。修订历史记录版本号拟制人/修改人拟制/修改日期审批人更改原因主要更改内容(写要点即可)VI.O陈芳2019-10-26李俊定稿目录第1章容灾组织架构及职责11.1. 灾难恢复组织架构I1.2. 灾难恢复组织角色职责1第2章突发事件快速分类2第3章应急响应和恢
2、复流程4第4章应急响应操作54.1. 事件检测及响应54.2. 人员召集94.3. 损害及影响评估104.4. 灾难预警134.5. 确定恢复策略154.6. 灾难宣告164.7. 灾备中心接管运行18第5章信息系统灾难恢复切换手册21第6章应急和恢复时间表22第7章附件及工具237.1. 应急通讯237.2. 灾难恢复资源267.3. 表格及工具模板277.4. 灾备中心网络拓扑图377.5. 灾备中心建设布局387.6. 突发事件等级策略397.7. 突发事件快速分类40第1章容灾组织架构及职责工工灾难恢复组织架构1.2.灾难恢复组织角色职责组织名字团队/角色职责第2章突发事件快速分类风险
3、事件种类场景列举事件等级应对策略预警及切换决策角色区域性自然灾害类事件区域性自然灾害事件,如:地震洪水飓风其他气象灾害等造成生产数据中心损毁I级(黑色)XXXXXXXX社会性灾难事件恐怖袭击爆炸内、外部攻击及破坏造成生产数据中心损毁I级(黑色)XXXXXXXX 瘟疫爆发辐射或危险品泄露 交通封锁社会公共事件导致生产数据中心5个工作日内无法进入、运行维护无法保证I级(黑色)XXXXXXXXXXXX机房环境或楼宇灾难事件生产数据中心火灾,造成生产系统设备损坏停机生产数据中心漏水,造成生产系统设备损坏停机生产数据中心机房结构性破坏,造成生产系统设备损坏停机生产数据中心供电系统瘫痪,造成生产系统设备停
4、机生产数据中心机房空调系统发生故障,且发电机无法运行,导致机房温度达到30C。以上,且预计5个工作日内无法恢复运行H级(红色)XXXXXXXXXXXXXXXXXXXX风险事件种类场景列举事件等级应对策略预警及切换决策角色IT设备软硬件故障系统的生产主机发生故障,引致系统运行中断,预计在5个工作日内无法恢复M级(红色)XXXXXXXX其他非核心业务系统软、硬件故障,造成系统停机、数据丢失、数据逻辑错误或重大安全隐患的M级(橙色)XXXXXXXXIT内、夕卜部攻击及破坏,病毒网络安全攻击代码漏洞人为破坏(软、硬件)造成系统停机、数据丢失、数据逻辑错误或重大安全隐患的山级(橙色)XXXXXXXX人为
5、误操作故障人为操作严重失误IH级(橙色)XXXXXXXX数据库逻辑故障故意破坏数据库逻辑故障造成系统停机、数据丢失、数据逻辑错误或重大安全隐患的第3章应急响应和恢复流程第4章应急响应操作4,.事件检测及响应目标检测并确认突发事件性质,进行事件初始响应资源XXXXX提示不要浪费时间去收集不容易得到的信息跟踪一切稳步进展而不是惊慌失措不要惊慌!当接到突发事件的电话记录以下信息:备注场地安全一人员是否需要撤离?机房是否可用?IT部门情况一受到何种影响:硬件、软件、网络、文档、处理能力、备份,是否需要启动灾备中心?供电和空调一电力和UPS是否正常?空调是否正常,温度是否上升?通讯一主要电话线路、交换机
6、、总机、呼叫中心是否受影响?员工一是否需要其他人支持,可以找到谁?业务运营一受到多大影响?指挥中心/灾备中心一具体位置,道路是否通畅?接完电话-做任何事之前考虑是否需要供应商(包括基础设施、IT设施等)协助以便快速恢复?计划和谁联系对于需要立即赶到指挥中心/灾备中心的员工: 简单扼要介绍发生了什么事 指挥中心地址/灾备中心地址 确保他们随身携带了必要物资(参见附件7.22) 你的最有效联系方式对于需要待命的员工: 通知其拨打公司语音信箱,以了解公司动态 记录他们的电话号码在通讯录上标出正在联系的小组成员,确保无人被遗漏检查列表编弓任务项目责任人完成状态完成时间1 主动检测: 监控系统 自身操作
7、 被动检测: 机构其他部门来电 本部门其他岗位 分支机构来电2检测并确认突发事件:联系现场和非现场人员,收集事件初步情况3接到事件通知后迅速开展事态初步评估: 接到通报后根据首次检测信息通知 进行故障定位; 初步评估设备损失; 初步评估软件损失; 初步评估业务影响损失; 是否人为因素、偶然因素; 是否内部人员破坏/外部人员破坏形成事件初步情况报告(参见附件731)4根据事件所属的领域,执行初始保护程序: 保存现场第一状态信息 如果确认可以控制局面,开展初始保护工作 若初步评估为人为破坏,排除重复破坏的可能性5设定问题诊断截止时间:如果使用本地资源可以恢复,不要浪费时间进行较长时间的检测和诊断如
8、果造成问题的根源不能在可接受的时间内被隔离或确定,必须立刻通知XXXX。并建议灾难预警或灾难宣告6跟踪以下情况: 事态是否可控 掌握的信息是否支持判断事态发展 需要进一步了解和关注的事项 定时执行通知突发事件等级提升或降低(参见附件7.6)7跟踪报告规程:15分钟报告一次:整体网络及机房环境编号任务项目责任人完成状态完成时间8联系下列人员,进行现场损害评估:必要时,联系外部技术协助(厂商、外部专家等)必要时,联系魁务进行保险理赔9如涉及机房基础环境破坏,需要从拿到现场损害评估的结果。10提醒相关人员不要对任何媒体发表任何未授权公布的声明与消息。4.2.人员召集目标确保IT部门成员完全理解事件状
9、况,召集人员携带必须物品到达指定地点资源XXXX提示注意集结时携带必须的物品检查列表gO任务项目责任人完成状态完成时间1选择集结方式: 全部集结:XXXXX 部分集结:XXXXX 不集结:仅远程控制2选择交通工具:联系租车公司3 轮流打电话给部门成员,填写电话记录单 将各人员所在位置记录在人员位置跟踪表,并定期更新。及时把基本情况通报HRo 尽量安排一个监督人检查和协调各项活动。4确定需要进行参与集结的供应商人员清单并依次打电话通知在指定位置集结5保持上下层信息通畅: 使XXXX始终了解聿大事项。 如有任何疑问,询问XXXX得到建议、指导或决策。 即使很匆忙,也要花些时间,帮助小组成员正确理解
10、期望他们做什么。6人员集结过程中的管理和控制,人员到位情况检查人员调配及异常情况处理4.3.损害及影响评估目标对受影响的区域和技术系统进行现场评估,确定损害的范围和程度资源提示检查列表编三b任务项目责任人完成状态完成时间1检查场地安全: 在进入现场进行损害评估前,要确保该区域安全,只有经授权人员能够进入 配备必要的安全设备 必要时,等待大厘物业检查受损害站点的安全性,确定其安全后才能进入2评估人员:执行损害评估的人员必须具备相关的技能、知识或经验必要时,协商厂商或集成商人员参与损害评估工作3根据突发事件的状态,确定配发装备: 身份标志(门禁卡、钥匙、门禁密码等); 装有评估软件的笔记本电脑、故
11、障检测设备; 若涉及机房基础环境破坏,包括安全设备(安全帽、告警灯、防护服); 铅笔、记事簿; 调查表格; 通讯工具; 照相、摄影装置(用于现场记录,为以后保险理赔工作保留原始纪录)。5犯罪取证和保险理赔: 联系保险公司和公安部门,以获得犯罪取证和保险理赔的具体要求;参见附件735 采用照相、摄影等手段,对损害情况进行记录,作为犯罪取证和保险理赔依据; 在进行证据记录和保全前,应保持现场原始状态,不得进行现场清理和搬动。6评估损害/损失的影响:编任务项目责任人完成状态完成时间 评估事件的大致影响。这是事故还是灾难? 在楼层布局图上标出损害区域和程度 基础/承重加固是否受影响,是否需要重做?7识
12、别关键设备的损害 服务器,交换机和桌面设备 配线架 网络和电信设备 电话机 供电设备 数据和语音线 空调 机柜8执行系统功能检查: 从管理控制台进行基本功能检查或诊断; 某些情况下,可能需要联络单个用户或用户组来获取信息; 尝试访问硬盘上的数据,如果可能将他们迁移到未损坏的设备上。9执行网络连通性检查: 检查配线架上的连通性; 检查线缆是否有明显的损坏; 检查外联线路状态: 互联网链路10检查数据备份和丢失情况: 备份任务执行情况: 故障什么时间发生? 故障发生时是否有备份任务正在进行? 哪些任务在故障发生前成功完成及其状态? 由于故障发生导致计划备份任务无法按时执行?当前备份状态是什么? 是
13、否有计划的备份任务由于故障发生无法启动? 是否有数据丢失或没有备份? 数据备份可用性: 最近的本地和异地数据备份 数据备份的可用性 数据丢失情况: 数据丢失范围编任务项目责任人完成状态完成时间可通过其他渠道追补的数据11其他评估项目1 可预测的数据处理时间和服务中断时间 可挽救的数据处理和网络设备 可挽救的文件和记录 可以通过其他渠道包括备份数据重建的文件和记录 可以从其他渠道包括备份来重建的文件和记录12填写评估汇总表(参见732)13向XXXX汇报损害评估情况。4.4.灾难预警目标灾难预警就绪和取消资源灾难预警/宣告授权表(参见附件7,36) 灾难预警通知单(参见附件7,3.7) 灾难预警
14、取消通知单(参见附件7.38)提示注意接收灾备中心文件回复检直列表灾备中心预警通知g=任务项目责任人完成状态完成时间1发布预警通知: 拨打XXXX以通知灾备中心服务热线进行灾难预警 填写灾难预警通知单传真至灾难备份中心,并提供以下信息: 您的姓名和职务 灾难的性质结论 在接下来的几个小时可以找到您的电话号码2灾备中心配合, 接听预警授权代表的电话,创建灾难备份中心预警通知记录。将所有的信息记录在电话记录表中,包括日期和电话时间,记录预警的准备状态;核实电话预警人员身份。 文件回复 灾备中心根据预警工作要求,开展预警准备工作。灾备中心预警取消通知=任务项责任人完成状态完成时间1发布预警取消通知:
15、 拨打X2QQU以通知灾备中心服务热线进行灾难预警取消 填写灾难预警取消通知单传真至灾难备份中心,并提供以下信息: 您的姓名和职务; 灾难的性质结论; 在接下来的几个小时可以找到您的电话号码。2灾备中心配合:接听预警授权代表的电话,创建灾难备份中心预警取消记录,核实电话预警取消人员身份。文件回复45,确定恢复策略目标 根据突发事件等级,为每个受影响的服务选择最恰当的恢复策略。 协助业务部门确定能够提供的业务运作水平。资源 供应商联络清单 HR灾难恢复应急预案 白板提示检查列表=任务项责任人完成状态完成时间1确定信息系统整体运作水平: 事件影响机房设施范围和区域,及恢复工作对场地的要求 前期规划
16、的恢复时间点指标:XXX、XXX 预定的信息系统、存储系统、外联机构、存储系统恢复优先级 最小的可接受的业务恢复运作水平2根据损害评估结果,确定技术资产: 受损或毁坏 依然正常 可用于部署 能被厂商迅速替换掉3联系XXXX基于业务规则就当前的业务优先级达成一致,确定当天和今后几天能够处理的业务。4确定信息系统恢复策略: 考虑当前特殊阶段工作需求 预定的最低的可接受的业务恢复需求,形成恢复资源最小配置 可能必须牺牲系统性能和部分功能 软件 信息源5沟通策略确保每个人都知道要做什么保持信息的有效和更新4.6.灾难宣告目标灾难宣告资源 灾难预警/宣告授权表(参见附件7.36) 灾难宣告通知单(参见附
17、件7.39)提示注意接收灾备中心文件回复检查列表编号任务项责任人完成状态完成时间1发布宣告通知:,拨打XXXX以通知灾备中心服务热线进行灾难宣告填写灾难宣告通知单传真至灾难备份中心,并提供以下信息: 您的姓名和职务 灾难的性质结论 在接下来的几个小时可以找到您的电话号码2 接听宣告授权代表的电话,创建灾难备份中心宣告通知记录。将所有的信息记录在电话记录表中,核实电话宣告人员身份。 文件回复 灾备中心在预定的时间内完成宣告授权人提出的工作准备要求: 坐席终端PC应用安装和指定座席操作人员 确认座席与灾备机房网络连通 机房环境基础 确定容灾中心及客户总部线路畅通 电话、打印机、传真复印一体机、碎纸
18、机、文件柜 笔、电源插板、白板、投影仪 操作后设备检查 操作过程技术支持3根据需要,通知XXX及其它成员赶往灾备中心。启动IT系统切换操作手册=任务项责任人完成状态完成时间通告,生产中心已停止,开始信息系统灾难恢复工作47.灾备中心接管运行4.7.1,环境准备及系统恢复目标确认灾备中心环境就绪的基础上,恢复信息系统服务资源 损害评估报告 供应商联络清单 灾备中心网络拓扑图(参见附件7.4)A设备清单 系统灾难切换操作手册(参见第5章)提示检查列表编号任务项责任人完成状态完成时间1办理人员进入XXXX手续给需要进出机房人员发放身份识别卡,记录所有对敏感区域的访问2检查人员就位情况,分配任务(参见
19、附件733)分配灾备中心座席人员工位安排煲园附件7.5.3)3确定资源准备: 坐席终端PC应用安装和指定座席操作人员 确认座席与灾备机房网络连通 机房环境基础 确定生产中心、容灾中心及客户总部线路畅通 电话、打印机、传真复印一体机、碎纸机、文件柜 笔、电源插板、白板、投影仪 操作后设备检查 操作过程技术支持4IT切换现场指挥5执行系统灾难切换操作手册,恢复信息系统。6与供应商联系订购必须的备件,请厂商直接发货到灾备中心7监控所恢复系统的负载和性能:确定人工监控范围编号任务项责任人完成状态完成时间是否需要调整系统设置必须限制同时访问系统的用户数8向用户开放服务,提示性能受限情况和其他注意事项向X
20、XXX汇报,灾备中心已正式运行4.7.2,建立数据和通讯服务目标在灾难备份中心提供语音和数据通讯服务资源损害评估报告灾备中心布局(参见附件7.5.1)供应商联络清单(参见附件7,1.3)灾备中心通讯情况提示只有当电话总机完全不可用,并且已经撤出日常办公地点时才启用总机转接检查列表编号任务项责任人完成状态完成时间1确定资源准备: 线路检查 Internet访问服务 机房与座席网络连通 办公区的网络管理 在选定地点建立总机,并将所有语音呼叫转接2向XXXX通报状况。W旗殁灾难恢复预案模板第5章信息系统灾难恢复切换手册第6章应急和恢复时间表应急响应及灾难恢复动作灾难发生后时间(小时)12345678
21、2448事件检测及响应人员召集灾难评估根害评估制定恢复策略灾难预警灾备中心准备通知紧急小组及供应商IT灾难恢复动作1)服务器、网络设备恢复2)存储、备份系统及数据恢复3)灾备系统启动4)系统业务验证第7章附件及工具7.1 应急通讯7.1.1. 联系清单7.1.2. 供应商联络清单72.灾难恢复资源7.2.1. 应急指挥中心及可获取的资源当灾难发生时,无论主生产中心是否可用,都需要临时的指挥中心,所有相关人员集合在那里召开会议,分析损失和决定是否启动灾难恢复计划以及指挥灾难恢复的具体执行。应急指挥中心是领导小组和指挥小组及执行小组管理及控制业务连续性及灾难恢&活动的指挥中心。客户设以下应急指挥中
22、心,依次顺序为:7.2.2. 赶往指挥中心需要携带的资源携带项目资源所处位置HR灾难恢复应急预案笔记本电脑、U盘、移动硬盘启动机器的key.license工作记录表若干份钥匙-家里的、车的和办公室的证件手机、电池及充电器注:在进行灾难宣告后,需将以上资源携带至灾难备份中心,以便灾难恢复时使用。73.表格及工具模板7.3.1. 事件初始情况汇总表事件初始情况汇总表事件报告记录者:日期:时间:事件报告人的联系号码:突发事件类型区域性自然灾害类事件社会性灾难事件机房环境或楼宇灾难事件IT设备软硬件故障IT内、外部攻击及破坏人为误操作/逻辑故障事件描述事件发生时间:事件发生地点:可能的起因?业务影响(
23、影响的业务用户数内外部部门,严重程度等).1)初步损害情况?2)事态发展情况及损害情况预测?3)是否达到突发事件的的标准?(根据系统的损害情况,结合突发事件等级分类标准得出结论)是否应急响应行动的状况4)信息技术部门那些人员在现场?正在做什么?5)业务部门那些人员在现场?正在做什么?6)已采取的处置措施7)现场的客户和外部媒体反应(只是初步观察记录,不要进行接触)填写人:7.3.2. 评估汇总表评估汇总表时间:填表人:突发事件评估等级:说明:建议恢复策略:说明:破坏领域:状态:预计恢复时间:备注:说明下列事宜:未损坏丢失的数据损坏,但可用当前的处理能力、通讯能力,持续时间损坏,使用前需要整修未
24、来的处理能力、通讯能力摧毁,需要重建对业务的影响对业务降级的建议等基础设施及供应机房设施及环境主机设备存储设备网络系统操作及应用系统业务系统7.33.任务分配列表任务分配列表事件名称:日期/时间:恢复单元负责人员工恢复单元负责人员工7.3.4.电话及人员位置记录单电话号码找到致电结果不无人在接听工作计划当前位目标位置置备注.安排人员填写下列表格负责跟踪重要人员位置变化。1事件现场4备用工作场地2指挥中心5转移中3灾难备份中心6其它7.35.保险声明表保险名称保险范围保险期限保单下次更新时间财产损失险/利润损失险各类固定资产以及库存发生的意外事故或白然灾害遭受的损失2013/7/1-2014/6
25、/30运输险产品运输过程中的意外事故或自然灾害遭受的损失2013/4/1-2014/3-317.3.6. 灾难预警/宣告授权表灾难备份中心预警/灾难宣告授权表职务办公电话家庭电话注:本表格预先填写,保存于灾难备份中心值班室7.3.7. 灾难预警通知单【图】7.3.8. 灾难预警取消通知单【图】7.3.9. 灾难宣告通知单【图】74灾备中心网络拓扑图7.5 ,灾备中心建设布局7.5.1. 灾备中心平面布局图7.5.2. 灾备中心设备布局图7.5.3. 灾备中心办公区平面图7.5.4. 灾备中心地址及联系方式7.5.5. 生产中心地址及联系方式7.5.6. 前往灾备中心的路线7.6 .突发事件等级
26、策略I特别严重权限策略II严重权限策略III较重权限7.7.突发事件快速分类工级特别严重可能对公司整体正常运管、经管绩效和值誉造成特别严、很难补救的重大资产损失或或大恶劣影响的件;已引起政府、监管部门或社会公众严重关注,需要公司高级管理层直接处置的件如果判断I级转间上区宏直彦如果判断InR并发生在交易时间,可选舞进入5.4灾难预鲁,经评估后进行5.6灾总宣告*如果判断I级转向昆Wi国必&如果判断IV级转向日常运维流程III影响公司部分关健业务正常运营但不至于彩响整个公司整体工作的事件符合以下一项或多项标准:A=24B=12C=50D=12E=12符合以下一项或多项标准:A=6B=6C=3O%D
27、=6E=6公司整体系统预计中断时间超过_A_小时关键业务系统预计中断时间超过_B_小时预计公司受影哨的业务范囹超过总=_:一以上预计超过_D_小时以上的关簿实时交易数据破坏或丢失预计关键机房无法提供正常JK务时间超过_E_小时符合以下一项或多项标准:A=1B=IC=10%D=2E=4符合以下一项或多项标准:A=IB=ID=IE=I可能对公司整体正常运营、经营绩效和信誉造成黛大资产损失或较坏后果和恶劣影响的:件;可能造成的资产、声誉损害,其后果可能影:响公司整体营运、经营绩效和信誉的事件iIV一般间接影响公司部分关健业务或非关键业务正常运营,不影响整个公司整体工作的,件图7-7-1突发事件登记快速分类图注:确定事件等级后,参见附件7.6突发事件等级策略