让数据成为生产力:数据全生命周期管理
上QQ阅读APP看书,第一时间看更新

2.1.2 结构化数据和非结构化数据的差异

结构化数据和非结构化数据之间的主要区别在于格式。非结构化数据以其原生格式存储,例如,PDF、视频和传感器输出。结构化数据严格以预定义的形式呈现,或者带有描述它的预定义的内容,以便轻松置入表单、电子表格或关系数据库。

非结构化数据通常存放于数据湖。所谓数据湖本质上是一个以各种格式存储原始数据的存储库。结构化数据则驻留于数据仓库,这种存储库只接受按照预定义规范格式化的数据。数据湖是一个存储非结构化数据的存储库,但它也可以存储结构化数据,而数据仓库只能存储有组织和格式化的结构化数据。

无论是在数据湖中还是在数据仓库中,信息都是存储于某种类型的数据库。其主要区别在于:结构化数据存储在关系数据库中,以结构化查询语言(SQL)、PostgreSQL、MongoDB等组织格式按行列进行存储。这些格式使得用户或机器搜索、整理和处理结构化数据变得非常简便。相比之下,非结构化数据则存储在NoSQL这样的非关系数据库中。