智能运维之道:基于AI技术的应用实践
上QQ阅读APP看书,第一时间看更新

1.3.4 事件预警

本书将事件预警定义为:基于KPI指标、告警、日志、感知等一系列历史数据,预测未来将要发生某特定事件的行为,包括异常预测(如根据IPTV历史播放的数据,预测第二天哪些设备会发生卡顿)、容量预测(如IT采购部门要对来年服务器进行采购规划,需要预知明年各业务对服务器资源的需求情况,这时则需要通过对各业务的容量变化进行长期预测)等。其中容量预测又包括中长期预测和短周期预测,将在第9章详细介绍这两类容量预测的案例。

无论是容量预测还是异常预测,目的是未来下一步效能优化。根据容量的短、中、长期的预测,分别对不同时期的容量制定有针对性的扩缩容和优化方案,确保系统可以随着时间的推移得到完善和增强,实现可预期的管理风险和期望,即科学容量规划。容量规划过程中,需要协助运维人员考虑如下问题。

● 历史容量是如何变化的,为什么呈现这样的变化?

● 未来短期的容量如何变化?

● 何时达到容量极限,为什么?

● 未来中长期容量如何变化,如何规划容量?

● 不同容量规划方案,后果分别怎样?

同理,异常预测又叫故障预测、质差预测、突变预测,是基于大量历史KPI指标数据,预测未来可能发生的异常、故障等问题,实现系统预见性维护。异常预测与异常检测唯一的不同是,异常检测是针对过去已发生的数据进行分析诊断,而异常预测是用过去的数据预测未来可能发生的问题。两者所使用的数据、算法基本一致,在所选用模型训练数据和模型参数上会有细微差别。由于异常预测所使用的数据源通常为时序类的KPI指标数据,因此该场景下使用的算法更倾向时序预测模型,如ARIMA、Holt-Winter、LSTM等,关于算法上的差异将在第3章详细阐述。