1.3 智能运维应用场景_智能运维之道：基于AI技术的应用实践-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

1.3 智能运维应用场景

AIOps平台拥有11项能力，包括历史数据管理（Historical Data Management）、流数据管理（Streaming Data Management）、日志数据提取（Log Data Ingestion）、网络数据提取（Wire Data Ingestion）、算法数据提取（Metric Data Ingestion）、文本和NLP文档提取（Document Text Ingestion）、自动化模型的发现和预测（Automated Pattern Discovery and Prediction）、异常检测（Anomaly Detection）、根因分析（Root Cause Determination）、按需交付（On-premises Delivery）和软件服务交付（Software as A Service）等。

——Gartner

传统运维从发现问题、分析问题、定位问题到解决问题的角度，将应用场景分为问题发现与处置、服务管理与日常工作、业务与IT集中管控、运维数据治理、IT分层监控、指标管理体系建设、服务管理体系建设、配置管理、运维自动化等场景。而智能运维的应用场景，根据Gartner列出的11项能力可知，增加了很多数据提取和场景预测的业务。

从图1-8、图1-9所示可以清晰看出，传统运维模式和智能运维模式存在很大区别。首先是在智能化水平上，在传统运维的检测、分析、发现（告警）、处置4个步骤中，都未涉及智能技术；而智能运维每个步骤都加入了人工智能算法，将发现和解决问题的时间大大缩短。

其次体现在知识积累、提炼和泛化应用上。当传统运维解决完一个问题，运维流程就结束了，一个问题或一个系列问题用一份报告记录发生时间、起因、处理方案等一系列完整过程后，这些报告将长期保存在企业数据库中，后续基本不会有人再翻开过问了；而智能运维将每个场景发生的问题、原因、处置方案、效果评估等内容进行分类、知识实体抽取、关系建立，形成初步的知识，再应用到问题预测、根因分析、处置策略的智能推荐中，根据每一次算法的优化反复迭代修改知识内容，最终沉淀为企业在该领域独有的运维理论。

图1-8 传统运维工作模式

按照智能运维的工作模式，将当前各领域通用的智能运维场景分6类：异常检测、根因诊断、故障自愈、事件预警、效能优化和随愿自治（见表1-5）。在运维过程中，通常这6类按时间排序，先有异常检测，再做根因诊断。这两个阶段梳理充分了再实现故障自愈和事件预警，做到预见性维护。另外，效能优化是辅助解决前期发现的异常和故障，在事件预警的支持下，预防下一次异常的发生。

图1-9 智能运维工作模式

在工作复杂度上，异常检测和根因诊断更多是基于日常运维中的专家经验，通过算法学习专家经验实现由规则向模型转变的方式进行运维。而故障自愈、事件预警则偏向临时多变的事件进行预测。效能优化涉及的场景非常庞杂，既有对历史事件的CPU使用率优化和数据库优化，又有对未来事件的智能扩缩容和智能调度等。运维场景在时间和工作复杂度的分布如图1-10所示。

接下来重点阐述前5类场景，随愿自治部分本书暂不讨论。

表1-5 智能运维场景

图1-10 运维场景在时间和工作复杂度的分布