智能运维之道:基于AI技术的应用实践
上QQ阅读APP看书,第一时间看更新

4.1 异常检测算法

质量保障是运维的基本诉求,随着业务的不断发展,系统繁杂程度、技术迭代频率、承载用户数量越来越庞大。传统的依靠人工手段筛查个别关键指标已不再能满足业务需求,迫切需要一种智能化、高效的技术手段排查预警潜在威胁。

异常检测算法目前已经在智能运维中得到了广泛的应用。在网络运维中,通过离群值检测可以快速筛查出网络连接较差的小区;在网络安全入侵防护中,基于异常行为挖掘可以快速识别黑客攻击;在银行反欺诈检测中,基于用户购买习惯可以快速甄别恶意盗刷操作等。

尽管智能运维不同场景对异常数据描述有所区别,如离群值、异常值。识别方法也被称为异常检测、噪声识别和偏差检测等,但其使用的分类和识别方法大同小异,均通过输入指定类型特征数据(如时间序列数据、图形数据、行为数据库),筛选出与大部分样本分布存在显著差异的异常点。

如1.3.1节对异常的定义,异常可划分为3种类型,即点异常、周期异常和集合异常。而根据是否有异常样本标记,可将异常检测方法分为有监督、无监督和半监督3种类型。

无论是何种异常类型,使用了何种异常检测方法,一般检测算法结果都会输出异常标签和异常概率。运维工程师可以根据工作需要合理设置异常概率阈值,选择性地维护异常实例。

异常检测算法通常分为两个阶段:训练阶段和测试阶段,其核心思想是用历史数据去训练模型优化参数,然后再去检测新的数据是否存在异常。根据有无标签检测,算法分为有监督、无监督和半监督;根据检测使用的策略,又可分为概率模型检测算法、最近邻检测算法和聚类异常检测算法、运维专家经验综合评价法。