运维应急方案

 

 

 

 

 

 

 

 

文件状态:

[√] 草稿

[  ] 正在修改

[  ] 正式发布

文件标识:

 

当前版本:

1.0

作    者:

 

完成日期:

 

 

 

 

 

 

 

    

1 前言 3

2 目标 3

3 组织结构 3

4 应急预警 3

4.1 应急预警级别 3

4.2 应急预警处理流程 5

4.2.1 一级预警处理 5

4.2.2 二级预警处理 5

4.2.3 三级预警处理 6

5 附件 8

5.1.1 故障报告单 8

 

 

重庆眯客信息技术有限公司运维支持部负责公司业务系统运行维护工作。

为了保障公司因业务系统的安全、平稳运行,运维支持部特此指定运维应急方案,通过此方案来保证系统的安全。

² 保障公司服务器的正常运行、网络的畅通。

² 严格岗位制度、明确工作职责,规范工作流程。

² 工作规范化,制度化,加强文档管理力度。

根据运维工作的范围和性质,下设三个小组:

  • 系统维护组
  • 应用维护组
  • 技术值班组

预警级别

预警标志

警报内容

预警级别介绍

一级预警

 

网络流量升高

主机性能降低

数据备份出现异常

异地备份出现异常

某台工作站出现病毒

监控软件出现故障

一级预警表示系统出现故障,但不影响运维系统的正常运转。

二级预警

 

网络中断或网络设备异常

主机、阵列和带库硬件出现故障

数据库相关故障

黑客入侵或病毒大面积发作

二级预警表示系统出现故障,影响运维系统的正常运转,但运维工程师可以在短时间内进行故障排除。

三级预警

 

网络防火墙宕机无法正常使用。

主机、阵列、带库宕机并无法启动

数据库或数据仓库无法正常使用

受到不可抗力或自然灾害的破坏。

三级预警表示系统出现故障,影响运维系统的正常运转,运维工程师不能在短时间内进行故障排除或无法排除。

运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:

运维过程中,如果遇到一级预警,按以下流程进行处理: 

  1. 当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。
  2. 运维工程师在排查出故障后,立即着手解决。
  3. 在故障排除后,对所发生故障的设备进行事后跟踪。
  4. 在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。

 

运维过程中,如果遇到二级预警,按以下流程进行处理:

  1. 当通过监控或得知系统出现故障时,首先在最短的时间内查看故障点状态,并分析故障原因。
  2. 立即报告给组长,运维小组长应通过电话或当面把故障报告相关部门领导,在故障完全排查清楚后以书面形式递交“故障报告单”。
  3. 运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要设备厂商的技术人员到现场,应立即拨打技术厂商的技术工程师联系电话,请求立即到现场进行故障排除。
  4. 在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。

运维过程中,如果遇到三级预警,按以下流程进行处理: 

  1. 当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。
  2. 立即报告给运维中心主管人员,主管人员应通过电话或当面把故障报告给相关领导部门,在故障完全排查清楚后以书面形式递交“故障报告单”。
  3. 运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要设备厂商的技术人员到现场,应立即拨打技术厂商的技术工程师联系电话,请求立即到现场进行故障排除。
  4. 如果因硬件设备出现故障而无法修复,需要更换时,应报运维中心主管人员,主管人员办理硬件更换事宜。
  5. 在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。

文档编号:cq-imike-0001

故障报告单

报告人:

 

报告日期:

故障所属:

□ 系统故障

□ 数据库系统故障

□ 网络设备故障

□ 其它应用软件系统故障

故障描述:

 

 

 

 

□ 已解决

□ 未解决

解决方案:

 

审 核 人:

审核日期:

版权声明:本文为passzhang原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/passzhang/p/12367466.html