让数据成为生产力:数据全生命周期管理
上QQ阅读APP看书,第一时间看更新

第2章
数据类型、来源与创建位置

2.1 结构化和非结构化数据

2.1.1 结构化、半结构化与非结构化数据

在数字化世界中,所有的数据归根结底是离不开应用的,没有投入实际应用的数据不是真正意义上的数据,脱离应用去谈数据分类有纸上谈兵之嫌。从数据的应用来讲,数据主要可以分为结构化数据、半结构化数据和非结构化数据。根据IDC的报告《2021—2025年全球数据及存储领域结构化和非结构化数据预测(2021年7月)》,超过90%的现有数据是非结构化数据,并且在过去十年中这一比例大体保持不变。然而,随着元数据的增加,越来越多的非结构化数据被“驯服”并进入结构化数据范畴。

其中有一个关键的驱动因素,那便是新型软件的出现,它使得非结构化数据的内容能够得到分析并提供背景信息。举例来说,视频分析软件可以对文件中的图像进行标记,并赋以特定的索引以便存储和搜索。这听起来也许稀松平常,实现起来却有诸多挑战,不过这意味着非结构化数据会变得极具价值。

下面先来更具体地了解结构化数据和非结构化数据的定义。结构化数据是高度组织和整齐格式化的数据,它是可以放入表格和电子表格中的数据类型。与非结构化数据相比,结构化数据是两者中人们更容易使用的数据类型。非结构化数据是指原始格式的信息,它通常驻留于采集的源头或附近。非结构化数据代表着采集的所有原始数据类型,包括尚未编目或分析的数据。而结构化数据则是有组织的定量数据,其中最为常见的是数字数据和文本数据,它们以某种标准格式存在于文件或记录的固定字段中,电子表格或关系数据库中驻留的信息是结构化数据的典型例子。这种类型的结构使得我们在查找特定数据或信息组时能够更为简捷、迅速。

非结构化数据也称为定性数据,也就是说它只是观察或记录的信息。举例来说,工厂的物联网(IoT)传感器采集设备性能方面的数据,然后,这些信息被发送至服务器,并以非结构化的格式进行存储,例如PDF和视频文件。

非结构化数据的其他例子还包括卫星照片、地理位置信息、天气报告、患者生物信号数据,以及尚未以有组织的方式标记或编目的视频图像。它们的共同点是数据均为被动采集和传输,没有预定义的组织格式。当非结构化数据作为海量数据集的一部分进行审查和理解时,它非常有助于发现大规模的发展趋势和构建预测模型,但为了业务目的而进行搜索和分析却比较困难。

还有另外一种数据,游离于结构化数据和非结构化数据之间,称为半结构化数据,它并不符合关系数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,数据的结构和内容混在一起,没有明显的区分。简单地说,半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据,例如,HTML、JSON、XML文档和一些NoSQL数据库等就属于半结构化数据的范畴。