1.4.3 云数据湖架构的优势
在高级别上,云数据湖架构通过以下方式解决了传统数据仓库架构的局限性。
对数据没有限制
正如我们所看到的,数据湖架构由旨在摄取、存储和处理各种数据的工具组成,而不会对数据的来源、大小或结构施加任何限制。此外,这些系统旨在处理以任意速度进入数据湖的数据:连续发出的实时数据以及按计划批量摄取的数据。此外,数据湖存储的成本极低,因此我们可以默认存储所有数据,而无须担心费用。类似地,在使用那些旧的胶卷相机拍照之前,曾经需要三思而后行,而现在使用手机拍照却可以毫不犹豫。
图1-5:云数据湖架构
无孤岛的单一存储层
在云数据湖架构中,数据的处理发生在同一存储中的数据上,因此不再需要专门的数据存储用于专门的目的。这不仅降低了成本,还避免了在不同存储系统之间来回移动数据时出现错误。
在同一数据存储上运行不同计算的灵活性
云数据湖架构本质上将计算和存储分离,因此,虽然存储层没有多个数据存储库,但可以在同一存储层上运行各种数据处理计算工具。例如,可以利用相同的数据存储层来执行类似数据仓库的BI查询、高级机器学习和数据科学计算,甚至是定制的特定领域计算,例如,媒体处理或地震数据分析等高性能计算。
按实际使用量付费
云服务和工具始终被设计为根据实际需要进行弹性扩展和缩减,客户可以按需创建和删除处理系统。这意味着对于假日季节或预算结束期间的需求激增,可以选择启动这些系统,而在一年中的其他时间则无须使用它们。这大大降低了总拥有成本。
独立扩展计算和存储
在云数据湖架构中,计算和存储是不同类型的资源,它们可以独立扩展,从而允许客户根据需要扩展资源。云上的存储系统非常便宜,可以在较少花费的情况下存储大量数据。传统上,计算资源比存储更昂贵。但是,它们可以按需启动或停止,从而产生大规模的经济效益。
从技术上讲,也可以在本地Apache Hadoop架构中独立地扩展计算和存储。无论如何,这需要仔细考虑专门针对计算和存储优化并具有优化网络连接的硬件选择。这正是云提供商通过其云基础设施服务所提供的。很少有组织(企业)拥有这种专业知识,并明确选择在本地运行其服务。
这种以经济高效的方式处理各种数据的灵活性有助于组织(企业)实现数据的价值,并将数据转化为有价值的改革见解