云数据湖:构建健壮的云数据架构
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 什么是大数据

上述例子有一些共同特征:

• 这些场景表明,数据可以通过多种方式进行探索和消费,且当数据生成时,对消费模式并没有明确的概念。这不同于传统的在线事务处理(O LT P)和在线分析处理(OLAP)系统,在这些系统中,数据经过专门设计和管理来解决特定的业务问题。

• 数据可以有多种形式和格式:可以是从物联网传感器发出的几个字节、社交媒体数据,也可以是来自业务线(LOB)系统和关系数据库的文件,有时甚至是音频和视频内容。

• 无论是数据科学、SQL类查询还是任何其他自定义处理,大数据处理方案都存在天壤之别。

• 研究表明,大数据不仅是海量的,而且可以以不同的速度获取。例如,从关系数据库中成批获取的数据,或连续流式传输的数据(如点击流或物联网数据)。

这些是大数据的一些特征。大数据处理是指存储、管理以及分析数据的一组工具和技术,其对数据源、格式或者大小无任何限制或假设。

大数据处理的目标是分析大量不同质量的数据,并生成高价值的见解。先前提到的数据源,无论是物联网传感器还是社交媒体,都有对业务有价值的信号。例如,社交媒体上的信息可以反映出客户的情绪:客户是否喜欢某个产品并在推特上发布了关于该产品的信息,或者是否有客户投诉产品的行为。这些信号隐藏在大量数据中,在某些情况下,可能根本没有信号,就像大海捞针一样。

此外,一个信号的信息量很少。然而,将两个微弱的信号组合起来,可以获得一个较强的信号。例如,车辆传感器数据提供驾驶员使用制动器或踩加速器的频率信息,交通数据给出交通模式,汽车销售数据提供谁拥有什么汽车的信息。尽管这些数据源是不同的,但保险公司可以将车辆传感器数据和交通模式相关联,用以建立驾驶员安全程度的档案,从而为具有安全驾驶档案的驾驶员提供较低的保险费率。

如图1-1所示,大数据处理系统能够利用值密度(值密度可以被视为信噪比)未知的大量数据的相关性来生成具有高值密度的见解。这些见解能够推动产品、过程和企业文化的关键变革。

大数据通常具有六个V的特征。有趣的是,几年前,通常仅使用三个V来描述大数据:容量(Volume)、速度(Velocity)和多样性(Variety)。现在又增加了三个V:价值(Value)、准确性(Veracity)和可变性(Variability)。短短几年内就挖掘出了更多的维度。也许本书出版时,会添加更多的V!

图1-1:大数据处理概览

容量

这是大数据的“大”,指的是正在处理的数据集的大小。当数据库或数据仓库达到超大规模时,这可能意味着数十或数百TB的数据,在极少数情况下,还意味着PB级数据。此外,数据集中可能有数千列,这些列有助于另一个维度的容量。在大数据处理领域,PB级数据更是常态,随着数据湖上运行场景的越来越多,大型数据湖很容易增长到数百PB。这里需要注意的是,容量是大数据的一个特点。首先需要有一个适用于TB级数据的系统,并且可以在这些TB累积到数百PB时进行扩展。这使组织能够从小规模开始,并随着业务和数据资产的增长而进行扩展。

速度

大数据生态系统中的数据在生成、移动和变化方面具有不同的“速度”。例如,想想社交媒体中的趋势,虽然TikTok上的视频可能会疯传,但几天后,它就销声匿迹,为下一个趋势留下了空间。同样,想想医疗保健数据,例如,一个人的日常步数虽然当时是衡量其活动的关键信息,但几天后它就不那么重要了。在这些例子中,数百万甚至数十亿个事件需要被摄取,并且近乎实时地生成见解,无论是实时推荐标签的趋势,还是提醒步数离每日目标有多远。另外,也会遇到数据价值长期存在的情况。例如,销售预测和预算计划严重依赖过去几年的趋势,并利用过去几个月或几年持续存在的数据。一个支持这两种场景的大数据系统可以批量摄取大量数据以及连续流式传输数据并能够对其进行处理,这样就可以灵活地在数据湖上运行各种方案,并将这些不同来源的数据相关联,以生成以前无法实现的见解。例如,可以根据长期模式以及使用同一系统的社交媒体的快速趋势来预测销售。

多样性

大数据处理系统适应一系列场景,关键是支持各种数据。大数据处理系统能够处理数据,而不会对数据的大小、结构或来源施加任何限制。大数据处理系统能够处理具有定义的表格结构和强大保证的结构化数据(数据库表、LOB系统)、半结构化数据(灵活定义的结构中的数据,比如CSV和JSON)和非结构化数据(图像、社交媒体源、视频、文本文件等)。这允许用户从有价值的来源(例如,保险或抵押贷款文档)获取信号,而无须对数据格式进行任何假设。

大多数数据仓库都承诺能够扩展到几PB的数据以及操作非结构化数据,并且它们还在不断改进对更大容量和多样性的支持。重要的是记住,数据仓库的设计并非旨在存储和处理数十或数百PB的数据,至少目前是这样。另一个注意事项是成本,根据方案,将数据存储在数据湖中可能比存储在数据仓库中便宜得多。此外,虽然数据仓库提供对非结构化数据的支持,但其高度优化的路径是处理特定于该仓库的专有格式的结构化数据。尽管数据湖和数据仓库之间的界限仍然模糊,但在为数据平台选择正确的架构时,请务必牢记这些原始价值主张。

准确性

真实性是指大数据的质量和来源。大数据分析系统接收数据时不对格式或来源进行任何假设,这自然意味着不是所有数据都支持高度结构化的见解。例如,智能冰箱可以发送几字节的信息,指示其设备运行状况,其中一些信息可能会丢失或不完善,这取决于具体实现。大数据处理系统需要包含数据准备阶段,即在执行复杂操作之前检查、清洗和整理数据。

可变性

无论是规模、结构、来源还是质量,大数据系统都是可变的。任何大数据处理系统都需要包含可变性,以便能够对所有类型的数据进行操作。此外,处理系统可以按需定义数据结构,这称为按需应用模式。例如,如果出租车数据有一个包含数百个数据点的CSV文件,则一个处理系统可以专注于与源和目的地对应的值,而忽略其余值;另一个处理系统可以专注于驾驶员身份识别和定价,而忽略其余部分。最大的潜力:每个系统本身都包含一块拼图,将它们放在一起可以揭示前所未有的洞见。笔者曾经与一家金融服务公司合作,该公司从各个县收集有关住房和土地的数据,通过Microsoft Excel文件、CSV转储或高度结构化的数据库备份的形式获取数据,然后处理这些数据并将其汇总,以产生对土地价值、房屋价值和购买模式的出色见解,从而确定适当的抵押贷款利率。

价值

这在前面的几点中可能已经强调过,但需要强调的最重要的V是大数据系统中数据的价值。大数据系统最好的地方是价值不仅仅能利用一次。收集和存储数据时,假设它对不同的受众有价值。数据的价值也会随着时间的推移而变化,要么随着趋势的变化变得无关紧要,要么显示过去优先的模式。以销售数据为例。销售数据用于推动收入和税收计算以及计算销售员工的佣金。此外,对一段时间内销售趋势的分析可用于预测未来趋势并设定销售目标。在销售数据上应用机器学习技术并将其与看似不相关的数据(如社交媒体趋势或天气数据)相关联,可以预测独特的销售趋势。要记住的一件重要事情是,数据的价值有可能随着时间的推移而贬值,具体取决于要解决的问题。例如,如果正在分析气候趋势如何随时间变化,则包含全球天气模式的数据集具有很大的价值。但是,如果试图预测雨伞销售模式,那么5年前的天气模式就不那么重要了。

图1-2说明了大数据的这些概念。