上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3 什么是实时分析
实时分析(Real-Time Analytics,RTA)阐释了一种先进的数据处理技术,它允许我们在事件可用之际立刻提炼出其内在价值。
在本书中,当提及“实时”一词时,我们特指“软实时”的概念。例如,由网络传输延迟和垃圾回收机制导致的暂停,可能会使事件的传递与处理出现数百毫秒甚至更久的延误。
实时分析与批处理模式有很大不同。后者是先积累数据,再集中处理,从事件发生到处理完毕,往往存在显著的时延。图1-3为我们提供了批处理流程的直观图示。
图1-3:批处理
相比之下,实时分析要求在事件发生后立即做出反应,如图1-4所示。
图1-4:实时处理
传统上,数据分析领域一直以批处理作为主流手段,这一过程要求我们人为地设定时间界限,以便将数据分割成固定时长的批次,随后进行集中处理。例如,我们可能会选择在每个营业日终结时处理一整天的数据,或者在每小时结束时处理该时段内的数据。然而,对于许多用户而言,这种方式过于缓慢,它所提供的过时结果无法满足用户对即时事件做出快速反应的需求。
随着时间的推移,通过减小处理批次的尺寸,将其缩减至分钟乃至秒级别,这些限制的影响逐步减弱,最终会实现事件一到达便立刻进行处理,从而摒弃了固定的时间段划分。这正是实时分析的核心理念所在!
事件一旦可用,实时分析系统就迅速捕获、分析该事件,并据此执行相应操作。这与多年来主导数据分析的传统批处理系统截然不同,实时分析系统专门针对无界、持续增长的数据集进行即时处理。