智能运维之道:基于AI技术的应用实践
上QQ阅读APP看书,第一时间看更新

3.2.3 知识图谱在智能运维中的应用

在智能运维之前,不同应用或者设备产生的海量运维数据如孤岛一般独立存在,智能运维借助现有的大数据以及机器学习技术将监控、自动化以及应用服务连接起来,解决了以往从业务角度或者单一业务、单一规则无法解决的运维问题。智能运维的实施需要依托人工智能技术,那么身为认知智能时代基础设施的知识图谱自然不可或缺。

从目前智能运维的发展方向来看,知识图谱在智能运维中主要有以下应用。

● 异常事件根因分析。一个智能运维系统从流程上可以分为3个部分:监控、分析和推送。监控是通过对单一或者多维时序指标、日志等记录进行分析,感知系统运行状态,挖掘异常事件,根据监控规则产生告警;分析是负责对各类监控系统的告警信息进行汇总并格式化处理,并根据建立的知识图谱推理进行故障根因定位推理,定位最终告警原因,确定故障根源;推送是根据定位出的故障根因进行故障信息通告。

● 异常告警收敛。基础设施的复杂性导致告警事件频繁推送,面对海量的运维监控数据,系统和指标间关联关系越来越复杂。一个节点出现故障,极易引发告警风暴,波及更广的范围,导致定位问题费时费力。通过知识图谱对告警的传播路径和影响范围进行分析,可以对告警进行收敛,减少无用告警数目,以缓解告警风暴。

ChatBot式运维知识库。通过对以往运维案例库的梳理,还可以对异常事件进行解决方案的推荐等。图3-24所示为知识图谱在AIOps中的应用,通过打造问答式知识图谱,可以做到在AIOps中通过机器来解答一些专业的运维问题。例如一个电信核心网络运维专家可以回答和解决的一些专业领域问题,通过案例库建立知识图谱后机器也能做到,甚至可以进行更为深刻的理解和推理演绎,进而让机器能辅助人达到提高运维效率、降低运维成本和节省时间的目的。未来演进到网络自动驾驶的高级阶段,可以减少甚至消除网络运维工程师和网络专家的运维值守压力,提供更精准更人性化的智能服务。

图3-24 知识图谱在AIOps中的应用