1.3.3 故障自愈
自愈原本为生物学概念,相对于“他愈”而言,专指生命体在遭遇内部变异和外部侵害时,自身会自动排除危害、修复受损组织、维持生命体健康的一种自我恢复和调节机制。智能运维领域的故障自愈,相对应的是指系统遭遇内外部干扰而产生的故障后,自我恢复和调节的机制。
这里提到的故障自愈是一种无人介入、依靠机器自我修复的运维机制,与无人运维(随愿自治)仍有本质区别。故障自愈倾向通过规则、算法实现单点应用故障的自我修复,而无人运维是指从数据采集、治理、建模、异常检测、根因定位、优化等全流程都是无人参与的运维。两者在技术等级上差了一个数量级。
在保证异常检测和根因分析的结果准确前提下,故障自愈可以依据专家规则,通过专家系统实现自动化修复,也可以通过AI算法实现自我修复。前者是传统运维常用的方法,后者则是智能运维的方式。
故障自愈是一整套严谨的故障自动化处理服务,通过和作业调度平台、配置管理中心、告警单据系统等诸多周边系统自顶向下的全流程打通,实现发现告警、关联配置信息、智能告警收敛分析、自动执行恢复操作、自动流程结单等功能。其中智能自愈机器人辅助人工进行根因分析、收敛分析等;自适应配置、智能调度和智能重启是故障自愈过程中的一种智能化恢复手段。
通常,故障自愈的核心过程有如下3步。
1)自主发现异常/故障,在告警下发时可以主动分析和处理告警信息。
2)收敛分析:针对每时每刻收到的大量告警信息,需要对同类型告警进行收敛分析,不能对每个告警都做处置,可以分为以下几个方面。
● 单一告警可直接自愈处置。
● 多个关联告警收敛为同一事件,对关键告警执行自愈处置。
● 发现异常告警,需人工确认后执行自愈处置。
● 特殊极端告警,拒绝自愈处置,并发送运维人员。
3)流程闭环。包含如下几个方面。
● 自愈成功:触发告警处理单自动结单。
● 自愈失败/超时:转运维人员人工处理。
● 未接入自愈的告警:转运维人员人工处理。
● 后自愈分析:对自愈成功和失败的告警,定期进行总结评估,并辅助运维人员进行跟踪和优化自愈方案。
需要指出的是,故障自愈实现的价值将会越来越大,将其实现离不开专家知识库和智能推荐系统。只有通过算法、知识图谱将历史中无数次的人工故障处置经验和故障自愈作为知识积累下来,才能通过智能推荐算法泛化到更多运维领域,让人工参与程度越来越低,进而实现从KPI指标自动异常检测、自动根因分析到自动推荐处理方法,再到系统自动评估处理效果,实现全流程自动化和智能化的无人运维模式。某电信运营商无线网优知识库如图1-13所示。
图1-13 某电信运营商无线网优知识库