IT服务连续性实现指南
上QQ阅读APP看书,第一时间看更新

前言

在本书出版之际,感谢IBM、EMC、SUN、Centrin、Teamsun公司,他们给了我在书卷中感悟的时间,也给了我在实践中成长的机会。感谢我的家人,在无数个日子里,他们默默地奉献着,给予了我良好的写作环境。

特别感谢在我职业生涯中的关键人物——柏睿数据RapidsDB总裁刘睿民先生。

谨以此书作为礼物献给她/他们。

本书目标

本书的目标是:补好“IT服务连续性”这块短板,培养IT服务连续性领域的人才,帮助国内数据中心实现“少停机、少丢数、少花钱”的夙愿。

写作背景

作为一名长期奋战在数据中心建设最前线的BC/DR(业务连续/灾难恢复)咨询顾问,我对IT服务中断事件感触颇深。在EMC工作期间,有一次我和西南某省电信公司数据中心老总一块儿用餐,他说:“在过去一年里,我们宕机了一百多次。”有一次我为SUN公司做全国巡回讲演,深圳会场到场的一位数据中心生产运营总经理告诉我:“我们前几年花了6个亿建灾备系统,但现在心里一点底儿也没有,真发生灾难时根本不敢切换。”凡此种种,举不胜举。了解数据中心运维的人士都知道,他们对IT服务连续性的无奈,正是中国数十万个数据中心的缩影。

每一次亲自经历或从媒体得知某个数据中心长时间宕机或恢复失败的事情,我都不禁扪心自问:“作为职业的BC/DR咨询顾问,不应该对此承担些责任吗?怎样为千疮百孔的IT服务连续领域提供些正能量呢?”

2007年春天,IT服务连续性概念在国内刚刚萌芽,我已踏入IT行业19个年头,从事全职BC/DR咨询工作达4年之久。之前,我有幸与美国、新加坡的DRII(国际容灾协会)专家一起工作数月之久,并获得了DRII美国总部颁发的业务连续性专家认证。这一年春天,我做了一个现在看来绝对是不知天高地厚的决定:梳理出IT服务连续性领域的方法论和最佳实践并呈现给社会。这个决定,让我踏上了一条充满荆棘与坎坷的、漫长的写作之路。

写作过程

从2007年初到2015年底,本书历时8年完成。

8年间,我一直站在IT服务连续性建设的第一线,主导了数个大中型IT服务连续性项目的建设,经历了将DRII Practice、BCI BS25999、COBIT、ITIL、ISACA审计规范、ISO17799、TOGAF、SS507等国际最佳实践及规范与IT服务连续性建设融会贯通的过程,经历了从感性上升到理性,再用理论指导实践的过程,经历了无数次重构和修改书稿的过程。

8年间,我曾面对各种类型的企业和企业文化,面对各类IT人员五花八门的视角和看法(100个人对一个IT服务连续性术语会有100种理解),目睹了IT服务连续性领域的野蛮生长及种种乱象,众口难调的巨大阻力让我数次停笔。而在一次次目睹IT人员对IT服务连续性方法论与最佳实践渴望而不可得的情景之后,我又一次次拾起自己的初衷。

8年间,我曾不断地告诫自己:“基于国际最佳实践、符合演绎推理或归纳推理、经得起实践检验的知识是能站得住脚的,我一定要把理性的梳理结果呈现给社会”。在这个信念的支撑下,我终于走过了漫长而艰辛的写作之旅。

本书的时代特征

可喜的是,本书生逢其时。在本书出版之际,IT服务连续性相关的外部环境体现为两大特征。

首先,“业务连续性(Business Continuity, BC)”被引爆。业务连续性成了国计民生行业最热门的话题之一,国内监管机构陆续颁布了多个业务连续性法规,以业务连续性为主题的论坛和会议层出不穷,业务连续性管理(BCM)逐渐成为企业董事会议上例行谈论的话题,各企业纷纷着手业务连续性管理体系建设,国计民生企业纷纷高薪设立了BCM经理职位,业务连续性领域的市场需求呈现出飞跃式扩大的趋势,业务连续性咨询服务业发展成为一个热门的行业,专门提供业务连续性咨询服务的商业机构不断涌现,业务连续性咨询顾问已成为令人羡慕的高薪职业。从主流搜索引擎搜索“BCM”或“业务连续性”,搜索结果的数量足以见证以上事实的火爆。

其次,“IT服务连续性”被业务连续性引爆。随着IT渗透到人们生活和生产的每个角落,IT服务对业务的支撑作用越来越明显,IT服务中断造成的业务影响越来越严重,IT服务的连续性引起了监管机构、媒体、社会大众的高度关注,“IT服务连续性”成了数据中心人士尽人皆知的术语。几乎所有的数据中心,尤其是银行、证券、保险、海关、税务、电信、民航、电力、铁路等国计民生行业的数据中心,毫无歧义地把“少停机,少丢数”当作一个极其重要的运营目标。为了实现以上运营目标,国内各数据中心如火如荼地开展着IT应急处置机制建设或完善活动。

本书致力于解决的问题

很多数据中心在IT应急处置机制建设方面的投资巨大,但IT系统仍然频繁宕机、系统恢复时间仍然频繁超标。“重技术、轻管理”只是表面原因,切实可行的IT服务连续性活动框架的严重缺乏,才是问题的症结所在,“巧妇难为无米之炊”才是IT人员的真实写照。

本书致力于解决国内数据中心在IT应急处置机制建设和管理过程中普遍遇到的、最迫切的以下几个问题:

数据中心的“业务”是IT服务相关的需求分析、规划设计、采购实施、交付与支持、控制改进等过程,数据中心的“业务”有其自身的鲜明的特点,当今的业务连续性方法论和最佳实践对数据中心“业务”的连续性只能提供高层次的指导,并不能提供实现数据中心“业务”连续性所需要的详细的IT服务连续性活动框架。

缺乏整个企业范围内的“IT事件应急处置行动框架”,导致数据中心IT应急处置行动与企业其他条线的IT事件应急处置行动难以协调联动,往往衔接不畅。

缺乏系统化的“IT应急处置机制开发活动框架”,导致数据中心在IT应急处置机制建设阶段无法从实现IT服务连续性这个总体目标出发去进行IT服务连续性总体需求分析、总体规划设计,而是各自独立地开展IT应急响应机制建设、灾难恢复机制建设、高可用恢复机制建设,导致这些机制之间往往衔接不畅。

缺乏“IT服务连续性管理活动框架”,再加上IT应急处置机制的复杂性及日新月异的IT环境,导致IT应急处置机制投产后可能会随时失效或处于IT服务连续性能力不可确定的状态,最终结果是IT高级管理人员对IT服务连续性能力缺乏信心,甚至巨大的IT投资付诸流水。

由于以上IT服务连续性活动框架(由IT事件应急处置行动框架、IT应急处置机制开发活动框架和IT服务连续性管理活动框架组成)的缺失,导致数据中心难以完整地、明确地定义IT服务连续性团队、角色和职责,难以体现“谁主管谁负责”的原则,导致“人人有责,人人都不负责”,最终结果是隐患不断、乱象丛生。

在IT服务连续性内审方面,由于缺乏对IT服务连续性活动框架的整体认识,IT内审人员难以全面把握关键审核事项,导致IT服务连续性治理的薄弱。

姚强

2015年10月于北京