上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
阿里Goldeneye业务监控平台之架构演进,如何实时处理100T+/天的日志量
一、黄金眼业务背景
淘宝天猫等业务线上每天会存在的超大流量,这些流量就是阿里宝贵的数据资源。阿里妈妈线上每天会产生超大规模的流量,这些流量数据就是阿里宝贵的资源。在大流量上任何的服务器波动,故障都会造成巨大的经济损失。然而故障总是会出现,如何快速的定位问题,及早发送报警给开发同学,是解决这类问题高效、快速的途径。黄金眼业务需求也是为了解决这个问题从而孕育而生,黄金眼业务方面大致经历了以下几个发展阶段:
• 第一阶段:黄金眼只服务于单个业务线,主要针对大盘核心数据进行监控,监控的粒度从原始的小时级别提升到5分钟级。实时计算取代离线计算成为监控报警的核心计算框架。
• 第二阶段:黄金眼开始在阿里妈妈崭露头角,逐步覆盖内部核心业务线,并得到一直好评。此阶段针对多个核心业务的大盘数据、细粒度数据进行监控,同时也逐步深入到引擎内部的指标进行故障定位预警,取得了很好的效果。
• 第三阶段:黄金眼在阿里妈妈内部覆盖90%以上的监控需求,同时将外部BU的需求也逐步接入到系统中。面对每个场景纷繁的需求,更细粒度的监控维度,黄金眼也逐步走向自动化,智能化的道路。
目前的黄金眼覆盖监控报警、数据可视化、预测服务、故障定位、数据分析、算法A/B Test等功能。在黄金眼的核心计算框架上不断提高内部性能,深挖各种数据模型,逐步完善黄金眼的技术深度和应用广度。