1.3 智能运维应用场景
AIOps平台拥有11项能力,包括历史数据管理(Historical Data Management)、流数据管理(Streaming Data Management)、日志数据提取(Log Data Ingestion)、网络数据提取(Wire Data Ingestion)、算法数据提取(Metric Data Ingestion)、文本和NLP文档提取(Document Text Ingestion)、自动化模型的发现和预测(Automated Pattern Discovery and Prediction)、异常检测(Anomaly Detection)、根因分析(Root Cause Determination)、按需交付(On-premises Delivery)和软件服务交付(Software as A Service)等。
——Gartner
传统运维从发现问题、分析问题、定位问题到解决问题的角度,将应用场景分为问题发现与处置、服务管理与日常工作、业务与IT集中管控、运维数据治理、IT分层监控、指标管理体系建设、服务管理体系建设、配置管理、运维自动化等场景。而智能运维的应用场景,根据Gartner列出的11项能力可知,增加了很多数据提取和场景预测的业务。
从图1-8、图1-9所示可以清晰看出,传统运维模式和智能运维模式存在很大区别。首先是在智能化水平上,在传统运维的检测、分析、发现(告警)、处置4个步骤中,都未涉及智能技术;而智能运维每个步骤都加入了人工智能算法,将发现和解决问题的时间大大缩短。
其次体现在知识积累、提炼和泛化应用上。当传统运维解决完一个问题,运维流程就结束了,一个问题或一个系列问题用一份报告记录发生时间、起因、处理方案等一系列完整过程后,这些报告将长期保存在企业数据库中,后续基本不会有人再翻开过问了;而智能运维将每个场景发生的问题、原因、处置方案、效果评估等内容进行分类、知识实体抽取、关系建立,形成初步的知识,再应用到问题预测、根因分析、处置策略的智能推荐中,根据每一次算法的优化反复迭代修改知识内容,最终沉淀为企业在该领域独有的运维理论。
图1-8 传统运维工作模式
按照智能运维的工作模式,将当前各领域通用的智能运维场景分6类:异常检测、根因诊断、故障自愈、事件预警、效能优化和随愿自治(见表1-5)。在运维过程中,通常这6类按时间排序,先有异常检测,再做根因诊断。这两个阶段梳理充分了再实现故障自愈和事件预警,做到预见性维护。另外,效能优化是辅助解决前期发现的异常和故障,在事件预警的支持下,预防下一次异常的发生。
图1-9 智能运维工作模式
在工作复杂度上,异常检测和根因诊断更多是基于日常运维中的专家经验,通过算法学习专家经验实现由规则向模型转变的方式进行运维。而故障自愈、事件预警则偏向临时多变的事件进行预测。效能优化涉及的场景非常庞杂,既有对历史事件的CPU使用率优化和数据库优化,又有对未来事件的智能扩缩容和智能调度等。运维场景在时间和工作复杂度的分布如图1-10所示。
接下来重点阐述前5类场景,随愿自治部分本书暂不讨论。
表1-5 智能运维场景
图1-10 运维场景在时间和工作复杂度的分布