智能运维之道:基于AI技术的应用实践
上QQ阅读APP看书,第一时间看更新

1.1.1 运维与运营的区别

运维与运营这两个概念对于在这两个领域的从业人员来说,其实区分起来并不困难。运维是为了维护系统正常运行,运营是为了产品更好地服务用户。前者偏向技术的后端工作,后者偏向业务的前端工作。运营人员通常做不了运维的工作,而运维人员可以做一些运营工作,但不一定擅长和喜欢做。

下面说明一下运维与运营两者的主要区别。

1.工作职责不同

广义上的运维可以泛指为了维持任何事物正常运作的工作,而广义上的运营也可以泛指围绕任何产品进行的人工干预工作,两个概念确实容易让人混淆。

在狭义上,两个概念在工作职责上的差异则非常明显。在计算机软、硬件应用越来越集中(即物理和业务逻辑越集中)的企业,运营的核心职责是将各类复杂业务进行管理,实现流程规范化、标准化,明确定义各流程的目标和范围、成本和效益、运作步骤、关键成功因素和绩效指标、有关人员的责权利,以及各流程之间的关系。

运营的主要目标是实现用户增长获取最大利润。即常说的互联网用户生命周期海盗模型(AARRR模型):获取用户(Acquisition)、激活用户(Activation)、用户留存(Retention)、用户营收(Revenue)、用户推荐(Referral)。实现运营主要目标的措施如下。

● 提供以业务为中心的用户服务。

● 通过规范化、标准化流程降低服务成本,提高服务效率和质量。

● 服务付费满足个性化和规范化。

不同的运营工作领域在职责上也有较大差异,如在当前互联网背景下,运营工作主要分为用户运营、内容运营、新媒体运营、产品运营等。具体工作职责和内容见表1-1。

表1-1 不同运营岗位负责的工作内容

相对应的,运维工作的主要目标是:维持和提升服务质量(提质)、通过工具或算法增强处理故障等问题的响应效率(增效)、通过技术或资源优化等手段降低运维成本,提高投入产出率(降本)。

在服务等级协议(Service-Level Agreement, SLA)中定义了3个定量指标,主要针对运维工作的前两个主要目标进行客观的评估,分别如下。

(1)平均故障间隔时间

平均故障间隔时间(Mean Time Between Failure, MTBF)是指相邻两次故障发生的平均间隔时长。该指标一般会定义一段时间,将多次故障的间隔时间求出一个均值,均值越大表示系统越可靠。与提质相对应。

(2)平均修复时间

平均修复时间(Mean Time To Repair, MTTR)是指一段时间内,多次故障从发生到修复的平均间隔时长,与MTBF相反,该指标越小表示系统越可靠。与增效相对应。

(3)可用性

可用性(Availability)是通过MTBF、MTTR两个指标生成的综合指标,计算公式为A=MTBF/(MTBF+MTTR)。从公式中可以看出,可用性是MTBF的单调递增函数,即平均故障时间越大,可用性越高;是MTTR的单调递减函数,随着平均修复时间的增加,可用性逐渐降低;反映的是系统在规定时间内处于可用状态的能力。行业内一般根据三西格玛(3σ)质量控制标准,认为可用性达到99.9%可称作高可用系统,即全年系统处于不可用状态的时间不高于8.8小时。相应的六西格玛(99.9999%)的标准更高,全年不可用状态的时间只有不到31秒。

可用性并不与降本直接对应,企业根据人力和物力两方面的成本对可用性进行评估。人力成本主要是运维人员的薪酬奖金等费用,如果运维工作全部外包给第三方,则按照外包总费用除以运维团队人数再乘以系统所需运维人数得到;物力成本主要指系统所需要的服务器资源、数据中心资源、付费软件等费用。

运维工作的职责主要与系统研发处于不同阶段有关,主要表现见表1-2。

表1-2 不同研发阶段的运维工作内容

从运维工作内容可看出,运维工程师们都是和系统打交道,不用与用户直接接触。

2.岗位技能要求不同

通过梳理招聘网站在这两个领域发布的100多个岗位描述,归纳出如下结论(详见表1-3)。

运营工作需要的技能中,除数据分析能力属于硬实力外,其他能力主要为软实力。当前运营相关的岗位对具有数据分析能力的人才需求越来越多,这类人才的作用也越来越突出,但真正具备较强数据分析能力的运营人员当前仍非常少。与之鲜明的对比,运维工作技能中除了一个抗压能力属于软实力外,其余都是实打实的硬实力。

目前已经开展智能运维业务的企业中,人工智能研发任务主要依赖于算法工程师等技术研发人员。由于对运维工程师是否掌握人工智能技术基本不做限制,因此在运维岗位技能要求上,基本没有硬性限制应聘者需要具备这项技能。但已经有较多运维从业人员开始通过自学或参加外部培训提升人工智能技术的能力,以适应未来智能运维领域的技能要求。

顺便说一句,由于技能要求的显著差异,运营领域的从业人员多以文科专业、女生为主,而运维领域刚好相反,理工科占绝大多数,且基本是男性。

表1-3 运营和运维岗位的技能要求

3.岗位名称不同

从招聘网站的职业分布来看,运营工作的岗位名称比较清晰,基本上为表1-1中提到的6种岗位。而运维工作的岗位名称多且杂,以运维工程师最为普遍,其次是IT运维工程师、系统运维工程师,而安全运维工程师、网络运维工程师、信息化运维工程师、SRE运维工程师、终端运维工程师、桌面运维工程师等这些岗位名称出现频率相对较低。

虽然运维类的岗位名称较多,但工作内容上的一致性较高;而运营类岗位虽较少,但工作内容差异非常大。这导致了运维类从业人员可以在不同名称岗位之间较顺畅地流动,而运营类不同岗位间流动的门槛反而相对更高。

最后,招聘网站上依然存在将这两类岗位的职责描述和技能要求混淆的情况。在运营工程师岗位里发布运维工作的要求,在运维工程师岗位里发布运营相关工作的内容。