主页
 > 研究与报告 > TEC博客 > 效仿台风预警给IT危机点“颜色”看看

效仿台风预警给IT危机点“颜色”看看

作者: 孙翊威 - 上海通方客户服务中心
发布于: 一月 22 2008



效仿台风预警给IT危机点“颜色”看看

第1页(共1页)

   

2007年9月,台风“韦帕”与上海擦肩而过。在29万多人大转移,中小学和幼儿园一律停课 等一系列措施静悄悄地实施后,上海以无一人因灾死亡的成绩,书写了防灾救灾的新篇章。危机来临,按部就班地执行计划,一切井井有条;危机离去,有条不紊地 恢复常态,一切安然无恙。这是台风“韦帕”出现前后我们看到的情形。

这何尝不是从事IT服务管理工作的同仁们期望的情形呢?

红橙黄蓝的动态预警

9月18日14时47分,上海中心气象台更新台风黄色预警信号为台风橙色预警信号,更新暴雨蓝色预警信号为暴雨橙色预警信号。

9月19日20时57分,上海中心气象台解除台风黄色预警信号和暴雨黄色预警信号。

防汛部门21时整正式解除防汛防台风黄色预警信号,逐步转回常态值班。

台风预警防范体系把台风这个自然界无法准确预测的灾害性天气,通过红、橙、黄、蓝的颜色动态地展现出来,并提出与之对应的防御措施。识别、计划、预警和防范,这套成熟的台风预警防范体系让我们能够对台风的产生和变化及早发现,提前防范,尽可能地将损失降至最小。

在信息时代,IT作为业务的基础性平台,其重要性不言而喻。如何预见IT风险,并进 行危机处理,越来越受到IT服务管理者的重视。当IT服务中的“台风”来临时,我们往往难以准确地预测危机发生的时间和地点,以及危机影响的动态变化。因 此,应该采取什么样的策略进行动态的预警和防范,将是IT服务管理工作的重中之重。

就像气象台发布台风预警只是台风预警和防范工作的一个工具一样,IT服务管理中使 用各种工具也是为了能够更好地预见风险。但是,当风险变成危机之后,仅仅依靠工具是不够的。从台风的预警及防范经验来看,将充分的信息传递、有序的组织协 调、标准的流程规范、实时的状态控制、有效的防范措施和充足的资源保障综合起来,才是处理危机的有效手段。

IT服务管理工作应该借鉴台风预警的模式,建立IT风险识别、动态跟踪风险机制,并采取相应的防范措施。这也可以视为利用IT风险与危机处理的生命周期,采用服务闭环的思路设计IT风险预警和危机处理机制。

IT服务可以基于风险识别建立预警机制,但作为应付危机的手段,仅有预警是远远不够 的。有些IT服务的风险可以通过预警得到及时控制,避免问题的进一步扩大,如CPU使用过度、机箱温度过高等。但也有些风险的发生是无法预警的,甚至预警 之后仍然有进一步扩大的趋势,如操作系统崩溃、硬件损坏等。无论风险可控与否,都必须根据其影响程度提出相应的应急方案。

这种一对一的“风险-方案”是为了在危机发生时能够快速找到处理方法。这是一种静 态的处置方案:当A风险发生后,对应A方案;B风险发生后,对应B方案。这样,就不可能产生A风险出现对应B方案的情况。但是,正如台风过境一样,危机是 一个动态的变化过程。所谓的A风险和B风险很多时候并不是孤立地存在,可能有同时出现或者互相转变的情况:也许B风险是A风险未能得到有效控制后进一步发 展的结果;也有可能B风险得到控制后降为A风险,最后转为常态。危机从一个状态变为另一状态时,需要有一个管理机制对其进行反应。颜色表示法正起到了这种 作用。颜色对应着相应的风险和危机处理方案,并随着危害程度的变化进行调整。颜色变化时,信息传递的范围、组织协调的力度等都将随之调整。这样,不仅能够 自如地应付风险,而且可以动态地调整危机处理所需的人力、物力。

机制建立要未雨绸缪

对于第三方的IT服务商而言,IT风险预警和危机处理是对服务组织的服务能力和应变能力的双重考验。因为第三方IT服务管理工作者在预防风险、处理危机时,还要综合考虑如何合理地调配、维护资源。

首先是人力资源,IT服务中人力资源同样非常重要。好钢用在刀刃上。一般情况下, IT服务提供商不会因为可能存在的风险而维持一个庞大的队伍,并为之付出额外的人力成本。危机来临时,如何合理调配人力资源,以便在最需要的时候派上用场 就变得很关键。如果无法做到风险识别和危机处理的动态控制,那么人力资源的调配就很难做到适时而动。

其次是配件资源,或者说是备品备件。配件资源在面临危机时,同样需要考虑支持关键 业务的问题。配件资源和人力资源一样,都是有限的。在危机影响不严重的时候,应该尽量不动用或少动用防范危机的配件资源。随着危机的加重,对配件资源的需 求可能会不断增加,这时才是配件资源充分发挥作用的时候。我们可以拿消防队来做个假设。假如一个消防队只有一套专业的灭火工具,那么,火情很小,用脚就可 以踩灭的时候,根本就不用考虑动用专业的灭火工具来解决;当火情较大,烧成一小片,用树枝就可以扑灭的时候,仍然没有必要动用专业的灭火工具来灭火;但 是,当火情非常严重,已经蔓延到整个山头的时候,就必须动用专业的灭火工具。如果事先没有对火情进行分析和识别,提前动用了专业的灭火工具,再遇到更大的 火情,用脚踩、用树枝扑都将无济于事。配件资源的使用道理与此相同:资源有限的情况下,应该尽可能合理地利用配件资源,以支持关键业务的正常运作。

IT服务管理工作中每天都会面临一些风险,但不会每天都遇到危机;即使遇到危机, 也不一定会带来很严重的后果。这样的小概率事件往往容易使人产生投机取巧的心理,对危机缺乏足够的认识,防范松懈。但是,未雨绸缪是建立IT服务风险预警 的根本,适时而动是危机处理的指导原则。只有在意识上重视起风险防范,才能够真正建立起一个成熟的IT风险预警和危机处理机制。

借鉴台风预警管理模式,建立起逐级管理、全程控制的IT服务管理风险预警和危机处理的动态管理机制,是台风“韦帕”留给我们的思考。

 
comments powered by Disqus

近期搜索:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others