2.2.2 大数据通用技术
大数据通用技术应用于大数据系统端到端的各个环节,包括数据接入、数据预处理、数据存储、数据处理、数据可视化、数据治理以及安全与隐私保护等。
1. 数据接入
数据接入就是对于不同的数据来源、不同的合作伙伴,完成数据采集、数据传输、数据处理、数据缓存到行业统一的数据平台的过程。
大数据系统需要从不同应用和数据源(如互联网、物联网等)进行离线或实时的数据采集、传输和分发。为了支持多种应用和数据类型,大数据系统的数据接入需要基于规范化的传输协议和数据格式,提供丰富的数据接口,读入各种类型的数据。
2. 数据预处理
由于采集到的数据在来源、格式、数据质量等方面可能存在较大的差异,需要对数据进行预处理,以便支撑后续数据处理、查询和分析等进一步应用。
数据预处理包括数据清洗、数据集成、数据归约、数据变换、数据离散化和大数据预处理等。
3. 数据存储
随着大数据系统数据规模的扩大、数据处理和分析维度的提升,以及大数据应用对数据处理性能要求的不断提高,数据存储技术得到持续的发展与优化。一方面,基于大规模并行数据库集群实现海量结构化数据的存储与高质量管理,并能有效支持结构化查询语言和联机交易处理查询;另一方面,基于分布式文件系统实现对海量半结构化和非结构化数据的存储,进一步支撑内容检索、深度挖掘、综合分析等大数据分析应用。同时,数据规模的快速增长,也使得分布式存储成为主流的存储方式,通过充分利用分布式存储设备的资源,能够显著提升容量和读写性能,具备较高的扩展性。
4. 数据处理
不同大数据应用对数据处理需求各异,导致产生如离线处理、实时处理、交互查询和实时检索等不同数据处理方法。
(1)离线处理 离线处理通常是指对海量数据进行批量处理和分析,对处理时间的实时性要求不高,但数据量巨大,占用计算及存储资源较多。
(2)实时处理 实时处理指对实时数据源(比如流数据)进行快速分析,对分析处理的实时性要求高,单位时间处理的数据量大,对CPU和内存的要求很高。
(3)交互查询 交互查询是指对数据进行交互式的分析和查询,对查询响应时间要求较高,对查询语言支持要求高。
(4)实时检索 实时检索指对实时写入的数据进行动态查询,对查询响应时间要求较高,并且通常需要支持高并发查询。
为满足不同数据分析场景在性能、数据规模、并发性等方面的要求,流计算、内存计算、图计算等数据处理技术不断发展。同时,人工智能的快速发展使得机器学习算法更多地融入数据处理和分析过程,进一步提升数据处理结果的精准度、智能化和分析效率。
5. 数据可视化
数据可视化是大数据技术在各行业应用中的关键环节。通过直观反映出数据各维度指标的变化趋势,用以支撑用户分析、监控和数据价值挖掘。数据可视化技术的发展使得用户借助图表、2D/3D视图等多种方式,通过自定义配置可视化界面实现对各类数据源进行面向不同应用要求的分析。
6. 数据治理
数据治理涉及数据全生存周期端到端过程,不仅与技术紧密相关,还与政策、法规、标准、流程等密切关联。从技术角度,大数据治理涉及元数据管理、数据标准管理、数据质量管理、数据安全管理等多方面技术。大数据系统需要通过提供集成化的数据治理能力,实现统一数据资产管理及数据资源规划。
7. 安全与隐私保护
大数据系统的安全与系统的各个组件及系统工作的各个环节相关,需要从数据安全(例如备份容灾、数据加密)、应用安全(例如身份鉴别和认证)、设备安全(例如网络安全、主机安全)等方面全面保障系统的运行安全。同时随着数据应用的不断深入,数据隐私保护(包括个人隐私保护、企业商业秘密保护、国家机密保护)也已成为大数据技术重点研究方向之一。