SequoiaDB分布式数据库权威指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 新一代分布式数据库的发展方向——湖仓一体架构

当前,各行各业的数字化转型进入了快车道。数字化转型的核心要义是挖掘数据的价值。随着企业数字化转型的深化,跨多业务、多数据类型的新型应用场景不断涌现,海量大数据场景下的联机交易、非结构化数据治理等需求,给企业的数据基础设施带来了新的挑战。

传统的关系型数据库难以满足这些新需求。10年前,在全球数据库界仍普遍思考如何利用MySQL、PostgreSQL替代Oracle、DB2的同时,以Snowflake、Databricks及巨杉数据库为代表,聚焦于新一代“湖仓一体”架构的数据库厂商,开始在面向全新海量联机业务的场景中快速崛起。

传统意义上的数据湖和数据仓库存在着显著的差异。在数据湖中,海量数据以原生格式(或者经过粗加工后)进行积累和沉淀,格式丰富多样,有结构化、半结构化和非结构化类型,强调数据的原始性、灵活性和可用性。而对于数据仓库,其数据主要来源于业务系统,存储格式以结构化为主,并且历经加工清洗,数据形态显得更加范式化、模型化,因此数据的灵活度较低。

目前,很多企业采用传统的“湖仓分离”模式,独立建设了数据湖和数据仓库。这虽然在一定程度上实现了功能的互相补充,但企业在数据运营、价值挖掘、运维等方面,却遇到了显著的挑战:

● 数据湖中的数据模型未经治理,数据混乱,无法进行有效的元数据管理、血缘关系管理,在一定程度上形成了“数据沼泽”,数据价值得不到充分的挖掘。

● 数据仓库和数据湖之间,不能实现高时效的数据共享,一般需要借助ETL(Extract-Transform-Load)数据传输来打通。同时,数据的冗余存储带来了资源的浪费。数据湖如果不能充分地进行数据共享,终将成为一组组断开连接的数据池或信息孤岛的集合。

● 传统的数据湖,对业务的承载能力很有限,无法对外提供海量数据的高性能查询服务。

● 不同格式的数据在转换处理时,引入了大量的开源模块,这使得技术栈更加复杂化,尤其是当数据容量达到一定量级时,管理和维护成本大幅增加。

在数字化转型的全新技术趋势中,数据平台需要同时承载联机业务与分析能力,因此业界提出了湖仓一体(Data Lakehouse)的概念,旨在为企业提供一个统一的、可共享的数据底座,避免传统的数据湖、数据仓库之间的数据移动,将原始数据、加工清洗数据、模型化数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。Data Lakehouse可以支持联机交易、流处理和分析,并且同时支持结构化、半结构化和非结构化数据的存储。因此,Data Lakehouse作为数据基础设施,其真正的价值在于打破不同业务类型、不同数据类型之间的技术壁垒,实现交易分析一体化、流批一体化、多模数据一体化,最终降低数据流动带来的开发成本及减少计算存储的开销,提升企业运作的“人效”和“能效”。传统数据平台与SequoiaDB(巨杉数据库)湖仓一体架构的对比如图1-2所示。

图1-2 传统数据平台与SequoiaDB(巨杉数据库)湖仓一体架构的对比