2.1.4 大数据技术的发展趋势
当前,大数据体系的底层技术框架已基本成熟。大数据技术正逐步成为支撑型的基础设施,其发展方向也开始向提升效率转变,逐步向个性化的上层应用聚焦,技术的融合趋势愈发明显。大数据技术的发展趋势呈现算力融合、流批融合、TA融合、云数融合、数智融合等。
1. 算力融合
算力现在通常泛指大数据的云计算和边缘计算,通过云服务器来提供强大的算力与算法。未来,算力将成为不可或缺的一种资源。算力的强弱将直接影响大数据的应用价值。
随着大数据应用的逐步深入,应用场景愈发丰富,大数据平台开始承载人工智能、云计算、边缘计算、物联网、复杂分析、高性能计算等多样性的任务。同时,数据复杂度不断提升,以CPU为底层硬件的传统大数据技术无法有效满足新业务需求,出现性能瓶颈。
当前,以CPU为调度核心,协同图形处理器、现场可编辑逻辑门阵列、专用集成电路及各类用于AI加速“xPU”的异构算力平台成为行业热点解决方案,以图形处理器为代表的计算加速单元能够极大提升新业务计算效率。
2. 流批融合
数据的批处理可以理解为一系列相关联的任务顺序(或并行)一个接一个地执行,批处理关注事件时间,其输入是一段时间内已经收集保存好的数据,输出可以作为下一个批处理的输入。
数据的流处理可以理解为系统需要接收并处理一系列不断变化的数据,如会员权益营销系统流处理的输入数据是无边界数据,流处理视业务场景而确定是关注事件时间还是处理时间。
流处理能够有效处理即时变化的信息,从而反映出信息热点的实时动态变化;离线批处理则更能够体现历史数据的累加反馈。考虑到实时计算需求和计算资源之间的平衡,需要批处理和流处理共同存在的计算场景。随着大数据技术架构的演进,流批融合计算正在成为趋势,并不断在向更实时更高效的计算推进,以支撑更丰富的大数据处理需求。
3. TA融合
TA融合是指事务(Transaction)与分析(Analysis)的融合机制。
传统的业务应用在做技术选型时,会根据使用场景的不同选择对应的数据库技术,当应用需要对高并发的用户操作做快速响应时,一般会选择面向事务的联机事务处理(OLTP)数据库;当应用需要对大量数据进行多维分析时,一般会选择面向分析的联机分析处理(OLAP)数据库。
在数据驱动精细化运营时,海量实时的数据分析需求无法避免。分析和事务是强关联的,但由于这两类数据库在数据模型、行列存储模式和响应效率等方面的区别,通常会造成数据的重复存储。事务系统中的业务数据库只能通过定时任务同步导入分析系统,这导致数据时效性不足,无法实时地进行决策分析。
混合事务/分析处理(HTAP)具有明显的优势,可以避免频繁的数据搬运操作给系统带来的额外负担,减少数据重复存储带来的成本,从而及时高效地对最新业务操作产生的数据进行分析。
数据库从关系数据库管理系统(RDBMS)、大规模并行处理(MPP)、非关系型数据库(NoSQL)向HTAP数据库发展,如图2-6所示。
图2-6 数据库的发展
4. 云数融合
大数据基础设施向云上迁移是一个重要的趋势。各大云厂商均开始提供各类大数据产品以满足用户需求,纷纷构建自己的云上数据产品。向云化迁移的最大优点是用户不用再操心如何维护底层的硬件和网络,能够更专注于数据和业务逻辑,在很大程度上降低了大数据技术的学习成本和使用门槛。
5. 数智融合
大数据与人工智能的融合则已成为大数据领域当前最受关注的趋势之一。这种融合主要体现在大数据平台的智能化与数据治理的智能化。
(1)大数据平台的智能化 用智能化技术处理大数据是释放数据价值的有效手段,但用户往往不希望在两个平台间不断地搬运数据,这促成了大数据平台和机器学习平台深度整合的趋势,大数据平台在支持机器学习算法之外,还将支持更多的AI类应用。
(2)数据治理的智能化 数据治理的输出是人工智能的输入,即经过治理后的大数据。数据治理与人工智能的发展存在相辅相成的关系:一方面,数据治理为人工智能的应用提供高质量的合规数据;另一方面,人工智能对数据治理存在诸多优化作用。
数据与资本、土地、知识、技术和管理并列作为可参与分配的生产要素,这体现出数据在国民经济运行中变得越来越重要。可以说,数据对经济发展、社会生活和国家治理正在产生着根本性、全局性、革命性的影响。
在技术方面,我国仍然处在“数据大爆发”的初期,随着5G、工业互联网的深入发展,将带来更大的“数据洪流”,这就为大数据的存储、分析、管理带来更大的挑战,牵引大数据技术再上新的台阶。硬件与软件的融合、数据与智能的融合将带动大数据技术向异构多模、超大容量、超低时延等方向拓展。
在应用方面,大数据行业应用正在从消费端向生产端延伸,从感知型应用向预测型、决策型应用发展。当前,互联网行业已经全面进入数据时代。未来几年,随着各地政务大数据平台和大型企业数据平台的建成,将促进政务、民生与实体经济领域的大数据应用再上新的台阶。