理论派|Theory
争相上市、抢夺本土市场,未来三五年数据库将迎来大洗牌|解读数据库的2022
本文是““2022 InfoQ年度技术盘点与展望”系列文章之一,由InfoQ编辑部制作呈现,重点聚焦数据库领域在2022年的重要进展、动态,希望能帮助你准确把握2022年数据库领域的核心发展脉络,在行业内始终保持足够的技术敏锐度。
“InfoQ年度 技术盘点与展望”是InfoQ全年最重要的内容选题之一,将涵盖操作系统、数据库、AI、大数据、云原生、架构、大前端、编程语言、开源安全、数字化十大方向,后续将聚合延展成专题、迷你书、直播周、合集页面,在InfoQ媒体矩阵陆续放出,欢迎大家持续关注。
特此感谢Jags Ramnarayan、Pater、Michael Cahill、孙元浩、陶建辉、杨传辉(花名日照)(按姓名首字母排序)对本文的贡献,他们的真知灼见,是本文能与大家见面的关键。
对于数据库技术领域而言,2022年是一个激动人心的重要年份。过去一年,数据库技术仍围绕着云原生、Serverless、分布式等核心方向快速发展,但是相较于前几年,数据库市场的客户逐渐成熟,对产品的理解更加理性,相应地要求也越来越高。不难看出,数据库领域的发展已经步入深水区。
如果说过去数据库厂商们把更多的注意力聚焦在框架和架构搭建上,那么2022年,则进入了对数据库性能、成本、易用性等细节打磨的阶段,开始了对性能的极致追求。
2022年数据库领域大事件回顾
1月21日,北京国家金融科技认证中心正式发布《2021年分布式数据库标准符合性检测参检机构名单》,腾讯云分布式数据库TDSQL名列其中,成为首款通过检测的互联网公司数据库产品。
2月11日,Elastic 8.0版本正式发布,重点改进Elasticsearch的矢量搜索功能,并提供对现代自然语言处理模型的原生支持、进一步简化数据上线过程,以及精简的安全防护体验。在速度、扩展幅度、相关性和简便性方面,Elastic 8.0版本迎来了一个全新的时代。
2月17日,由信通院主办的国内首款金融数据库性能测试工具开源发布会在线上召开。会上正式开源了金融数据库性能测试工具DataBench-T。
4月1日,TiDB宣布正式开源分析引擎TiFlash,它是为TiDB提供HTAP能力的重要组成部分。TiFlash的框架代码基于ClickHouse,但和ClickHouse拥有完全不同的擅长场景,TiFlash完全偏重于事务性数据的分析。
4月,星环科技升级多模型大数据基础平台TDH 9.0,实现9种存储引擎支持10种数据模型。
4月27日,Redis正式发布7.0版本,添加了近50个新命令和选项来支持这种演变并扩展Redis的现有功能。
5月12日,在谷歌I/O 2022开发者大会上,谷歌云平台GCP宣布推出AlloyDB for Post greSQL,这是一个全托管的、与PostgreSQL兼容的数据库服务。
5月16日,在中国信通院组织的第十四批“可信数据库”产品能力评测中,华为云云数据库GaussDB(for openGauss)完成信通院首个防篡改数据库产品测评。
6月8日,MongoDB World 2022大会上,MongoDB宣布推出可查询加密功能和关系型数据库迁移工具(Relational Migrator),借助这项技术,不具备密码学相关经验的开发者可以在不影响性能的情况下,以简单直观的方式查询经加密的敏感数据。
6月29日,武汉达梦数据库股份有限公司正式递交招股说明书,拟科创板挂牌上市。根据招股说明书,达梦本次公开发行股票数量不超过1900万股,计划募资23.51亿元。
6月29日,一体化实时HTAP数据库StoneDB正式开源。StoneDB是一款支持行列混存+内存计算的HTAP数据库,采用自主研发的存储和计算引擎,可将MySQL的分析性能提高100倍。
7月23日消息,蚂蚁集团时序数据库CeresDB正式开源,并发布开源版本CeresDB 0.2.0。蚂蚁集团表示:“通过开源,希望帮助用户解决时间序列数据存储的水平扩展与高可用的痛点,乃至针对时序数据的复杂分析计算能力的需求”。
8月10日,OceanBase4.0(小鱼)正式发布,这是业内首个单机分布式一体化数据库,可以实现单机部署并兼顾分布式架构的扩展性与集中式架构的性能优势,RTO从30秒迈入8秒,进入真正的秒级容灾时代。发布会还宣布全球开服OceanBase Cloud。
8月13日,涛思数据发布TDengine 3.0版本,该版本带来了几大核心特性,包括云原生架构、流式计算,还增强了数据订阅功能;更重要的是,3.0系列版本开始提供了全平台支持,服务器/客户端均已支持Linux、Windows和MacOS。
10月18日,“国产大数据基础软件第一股”星环科技正式登陆科创板,发售价为每股47.34元,开盘后报每股72元,大涨52%。
10月18日,Oracle宣布推出MySQL HeatWave Lakehouse云数据湖库。据Oracle称,MySQL HeatWave可以在多个云上提供一种集成服务,用于事务处理、跨数据仓库和数据湖的分析、以及无需ETL的机器学习。
11月,MariaDB团队宣布正筹备在中国成立实体公司,并积极准备拓展中国市场。明年,MariaDB将有一个专门的本地团队为中国市场服务,并将发布新产品,如Xpand(MariaDB的分布式SQL数据库),此外,MariaDB团队还计划将云版本SkySQL引入中国市场。
12月19日,MariaDB Plc.公司表示,已经完成了与特殊目的收购公司Angel Pond Hold ings Corporation的合并,合并后的公司更名为MariaDB Plc.。MariaDB的普通股和权证已于12月19日登录纽约证券交易所,此次合并已获得两家公司董事会和股东的批准。
数据库领域年度关键词
数据库并不是一个新领域,它已经发展了40年,作为基础软件之一,它是一个既传统又古老的领域。但近几年数据量爆发、云化趋势加深等因素,正在推动数据库领域进入新的发展阶段。
InfoQ在采访国内外多名资深数据库专家后得出了2022年数据库领域的三大关键词,其中,“融合”一词成为了被提及次数最多的词语。
融合
这里的提及的“融合”不仅仅指的是数据库各种类的融合,更包括软硬件融合、混合负载融合、分布式与单机的融合、多模态的融合等,但实际上融合问题并不好解决。
比如,软硬件融合就是个难题。数据库经历了多年发展,其底层架构和算法针对过去的硬件网络等基础设施经过充分设计,以获得最佳性能,但是随着新型硬件的发展,例如新CPU架构、新存储介质,以及新网络架构的发展与成熟,数据库底层机制也必须有相应的调整,才能充分发挥新硬件的特性。
此外,分布式与单机的融合也有一定技术难度。单机数据库相较于分布式数据库,由于不需要大量的分布式事务处理,所以单核性能会高于分布式数据。但是数据库面临的市场是一个复杂多样的市场,有一些场景可能一个单机数据库就能支持,用分布式显然有点“大材小用”,但是有一些场景又需要分布式数据库以支撑海量数据和海量交易。那么如何在数据库规模比较小的时候,表现为一个单机数据库,不需要复杂的分布式事务机制,而随着数据规模增长,又能自动生长为一个分布式数据库,而不需要大规模的数据库迁移等,就是一个必须考虑的关键问题。
以TDSQL为代表的多家厂商开始尝试采用对等架构实现存算分离与存算一体的兼顾,使数据库产品能兼顾不同规模的场景,取得不同的平衡;而OceanBase则推出单机分布式一体化架构,打造更加开放、灵活、高效、易用的下一代企业级分布式数据库。实现了在线水平扩展的同时不增加分布式相关overhead,从而能够像集中式数据库一样部署在小规格的服务器上,做到单节点性能达到甚至超越集中式数据库的水平。
AI与数据库的融合也在进一步加深。进入2022年以后,AI和数据库融合趋势愈加明显,AI已经成为企业挖掘数据商业价值的最大推动力。过去,企业数据可用性不高,样本容量也有限,无法在毫秒内分析大量数据;而人工智能和机器学习技术,让企业在数据容量和数据源可用性方面有了质的飞越,才有了真正的大数据访问和实时处理能力。
大统一是诸多自然科学领域的最终梦想,而数据库的大融合也是数据库从业人员的梦想,但是这里面往往涉及到诸多因素的权衡,以及要面临越来越复杂多样的场景,现阶段还很难做到完美的统一。
数据云
数据云也是今年被频频提及的关键词之一,它更多是一个数据基础设施的概念。从技术的角度来讲,数据云是为了提升整个数据分析能力,提升数据分析的实时性;从业务角度来讲,数据云可以帮助数据库厂商在云上拓展更多不同客户。
可以看到,今年很多开源数据库产品都发布了自己的Cloud版本,也就是云服务订阅版本,包括TiDB、OceanBase、SelectDB、TDengine等等国内知名数据库厂商。这无疑是开源数据库产品探索商业化一个比较好的路线。相较于云厂商凭借数据库的深度软硬件协同提供产品竞争力,开源厂商基于多个云平台提供的多云容灾切换方案,也有一定的市场发展空间。
Serverless
这几年,Serverless数据库大火,被称为是下一代数据库的演进方向。事实上,Serverless数据库并非这两年才有的新概念。早在2004年,由于亚马逊的电商网站面临数据库扩展性的挑战,Serverless数据库的探索之旅便已经开始。
Serverless数据库可以根据应用程序的需求自动扩缩容,并内置高可用和容错能力。Serverless数据库背后由云服务商动态管理计算资源分布,云服务商将计算资源变成一个池子,用户无需创建实例,就能快速完成部署。
具体到数据库层面,用户只要使用了基于Serverless特征的数据库,就可以基于函数运行所消耗的内存和执行时间,按使用量计费,极大地降低了数据库的使用成本。
Serverless发展至今,Serverless数据库开始强调极致的资源分配曲线与业务实际需求曲线匹配,目前已经可以做到秒级的按需计费,既能提高资源利用率,还不影响业务的突发流量,因此也被越来越多企业所采用。
2022年,数据库领域这些趋势值得关注
作为三大基础软件之一,如今数据库领域面临着重大发展机遇——据IDC预测,2022年全球数据管理软件市场规模将达到849.7亿美元,到2026年将增至1378.2亿美元。如此大的市场空间,到底潜藏着哪些机遇和挑战?放眼即将过去的2022年,有哪些重要趋势值得关注?
自研分布式数据库迎来落地爆发期
在云计算发展和国产化趋势的双重驱动下,国产数据库需求迎来爆发式增长。在过去数年间,分布式数据库发展迅速,成为面对海量规模及高并发等场景的利器。通过数年实践,产品的基本功能、稳定性、性能等方面已趋于成熟,各数据库厂商开始在产品的易用性、可观察性、诊断能力、生态兼容等方向发力,并陆续有成果落地。
回首过去一年,随着国产数据库合作生态的日渐壮大以及对降本增效的迫切需求,传统行业纷纷开启了向分布式数据库转型升级之路。国产数据库投产的广度和深度持续增加,广度即商机增多,这一方面给诸多厂商提供了很大的机会,另外一方面也给当前尚不成熟的国产数据库产品能力和服务能力带来了更大的挑战;从深度来看,分布式数据库开始真正落地于金融业、证券业、餐饮业、汽车业、房地产业等传统企业的核心系统中。
例如TDSQL今年就服务了TOP 10银行中的7家,OceanBase也在富滇银行、招商证券、红塔银行等企业关键系统中大显身手,服务了头部金融机构中的四分之一。这些无疑都证明了国产自研数据库的能力,但也对数据库的稳定性、数据一致性等提出了更高要求。
上云趋势持续火热
近日,Gartner发布了最新的数据库中国市场指南报告,报告指出中国数据库行业将加速增长并逐步向云端迁移。
其实数据库的上云趋势并不是今年才有的,早在几年前,许多国外公司甚至许多民营医院已经将数据库部署在云端。以往,金融、政府和公共服务等特定行业的组织对数据和信息保密要求较高,因此对公有云的数据安全、数据主权和法规合规有顾虑,更倾向私有云或本地部署。然而,Gartner观察到一些国内企业、机构正考虑将核心任务事务型数据库迁移到公共云,这反映出最近行业对公共云的顾虑正在下降,混合云模式比重将进一步提升。
云数据库凭借按需付费、按需扩展、高可用性以及存储整合等优势已经在海外市场占据了大半市场份额。据业内权威人士称,美国至少有超过一半的数据库跑在云上。虽然目前国内数据库上云趋势还未如国外一样迅猛,但这一趋势已经十分明显。
对数据安全的重视达到了前所未有的程度
近年来,全球关键信息基础设施网络安全事件层出不穷,涉及电力、石油、制造等国计民生领域。就在2022年初,因遭到勒索软件的攻击,位于荷兰阿姆斯特丹和鹿特丹、比利时安特卫普的几处港口的石油装卸和转运受阻,让国际油价进一步走高到近年来最高的水平,数据面临的威胁从未像今天这样严重。
当前,用户主要面临的数据库安全l威胁包括SQL注入攻击、缓冲区溢出、默认设置或弱口令、配置错误、用户帐户破坏等。数据被泄露或篡改可能导致企业面临无法通过审计导致的资产负债、监管罚款、盈利受损或客户投诉等诸多负面影响,作为承载数据的数据库系统,其安全性也关乎企业生存发展。
尤其是今年,政企各界对数据安全的重视达到了前所未有的程度。今年8月,国家互联网信息办公室编制了《数据出境安全评估申报指南(第一版)》,对数据出境安全评估申报方式、申报流程、申报材料等具体要求作出了说明。10月12日,国家市场监督管理总局(国家标准化管理委员会)发布公告,批准2项国家标准。其中,《信息安全技术关键信息基础设施安全保护要求》作为2021年9月1日《关键信息基础设施安全保护条例》正式发布后的第一个关基标准,将于2023年5月1日实施。
产研结合,深化数据库人才培养
除了数据及数据库系统的安全外,今年数据库行业内的人才生态培养也迈向了新高度。为了推动高校与企业强化创新合作,促进创新链产业链深度融合,教育部、工业和信息化部、国家知识产权局决定共同组织开展“千校万企”协同创新伙伴行动(简称“千校万企”行动)。该行动主要目标就是把这些与数据库等“卡脖子”技术相关的企业与高校联动起来,把基础软件这一数字化转型的底座构建得更扎实、更安全。
以星环科技为例,今年星环科技与国内多所知名高校达成合作,共同培养创新方面人才,通过这种创新对接的合作方式,运用信息化等手段建立完善校企对接常态化机制,降低对接成本,提升对接效率,促进协同创新。
数据库未来展望
如前文所述,在刚刚过去的2022年,以云原生和分布式为主的新型数据库开始大规模落地于各行业核心系统,此外,各类型数据库趋于融合的趋势也愈加明显。未来,数据库将如何发展?InfoQ综合多位受访专家的思考,主要概括为以下几点:
国内数据库厂商3~5年内将仅存个位数
随着基础软件领域成为资本热土,在2020-2021年获得融资的国产数据库公司就超过40家。值得一提的是,仅2021年一年,新成立数据库公司就超过30家,获得新一轮融资的企业多达20家。
资本的青睐带来了过去几年数据库厂商的井喷增长,但资本过热也带来了相应的弊端:产品能力参差不齐、同质化现象严重、技术储备力量不足……
虽然近年来国内数据库产业发展迅速,借助开源和云计算,中国数据库有机会在全球市场占据一席之地,但国内数据库市场整体相较于海外已经发展了四五十年来说还稍显不足。
多位受访人表示,2021年,中国数据库资本处于泡沫的最顶峰,未来三到五年间,数据库厂商数量将会越来越少,因为客户和应用开发商不可能用那么高的成本去适配和选用不同的数据库,这个市场不可能容得下上百种数据库。随着客户逐渐开始使用国产数据库,只有那些个别坚持在数据库领域投入、并踏实打磨数据库产品的长期主义者才能提供优良的服务,才能最终留存下去。
抢夺本土市场之外,出海成为新增量
IDC发布的《2021年下半年中国关系型数据库软件市场跟踪报告》显示,前八强中除了亚马逊云科技、Oracle和微软外,其余5家都是中国厂商,合计占据超过74%的市场份额。
来源:IDC中国,2022
在本土做大做强后,数据库出海成为国产厂商的全新增量逻辑,欧美线路和东南亚线路是国产厂商出海的优选项。两年前,腾讯云数据库TDSQL就已经在印尼Bank Neo Commerce银行新核心系统完成搭建并正式投入使用;蚂蚁集团的Oceanbase先后服务过印度、印尼、菲律宾、巴基斯坦等国家的金融科技公司,并开始进军北美市场;涛思数据、星环科技等企业的出海业务也在持续增长;以PingCap、Zilliz、Singularity等为代表的数据库创业公司,则在自成立之初就定位国际化。
但中国企业出海面临的信任度、监管、地理位置、地缘政治等障碍也不可回避,上云、开源、新技术敏感度成为除基础技术以外,国产数据库顺利出海的关键要素。
开源与商业化相辅相成
自21世纪以来,数据本身的增长速度极快,尤其随着最近几年各行各业数字化,例如智能汽车、物联网、VR/AR等等,每年产生和存储的数据始终保持高增长率。但是从管理数据规模来看,包括Oracle/微软/Teradata等这类传统商业数据库的比重逐渐在降低,而开源数据库所占比重越来越大。
据DB-Engines发布的2022年12月全球数据库排行榜可以看到,以MySQL、PostgreSQL、MongoDB为代表的开源数据库占据着数据库市场的半壁江山,对于这些软件而言,开源是其取得成功的关键。
图片来源:DB-Engines
虽然开源的增长会对传统商业数据库市场带来一定冲击,但开源也助力了云数据库市场的发展。客观来讲,开源本身跟商业不冲突,有很多开源数据库与云这种结合产生了很多新的商业模式,例如很多开源数据库推出了云服务版,可以做多云容灾部署,为客户提供订阅类服务。
此外,云厂商本身也提供很多开源数据库的服务,例如MySQL、PostgreSQL等,开源一定程度也助力了云数据库这种订阅类商业模式的发展。
下一步多模数据库?
据IDC发布的《数据时代2025》报告预测,全球每年产生的数据将从2018年的33ZB增长到175ZB(1 ZB=1024 EB),以25 MB/秒的网速进行下载,需要的时间约为18亿年,除了庞大的数据体量外,数据类型也变得复杂多样。如何将多类型数据进行统一管理,成为了数据库领域亟待解决的问题之一。
近年来,多模数据库开始兴起,并逐渐发展成一个主要的技术方向。多模数据库,指的是能够将分散的数据,聚合于同一个系统中的数据库。它因具备多模式(Multi model)数据管理和存储功能而得名,诸如图、键值、关系、文档等数据库模型,都能够得到多模数据库的有效支持。多模数据库代表了在云化架构下,多类型数据管理的一种新理念,也是简化运维、节省开发成本的一个新选择。
随着NoSQL系统在单模能力上的成熟,以及应用数据需求的多样化,业界开始进入对多模数据库的探索和实践,通过DB-Engine数据库排行榜可以看到,越来越多的流行数据库已经走向多模数据库。
采访嘉宾(按姓名首字母排序)
郭上阳,MariaDB中国
Jags Ramnarayan,MariaDB全球副总裁 & SkySQL总经理
Michael Cahill,MongoDB研发实验室副总裁
Pater,腾讯云副总裁
孙元浩,星环科技创始人 & CEO
陶建辉,涛思数据创始人 & CEO
杨传辉(花名日照),OceanBase CTO