大数据:规划、实施、运维
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.1 大数据技术体系

近年来,大数据通过结合各领域的业务背景,推动了各行业生产力水平的提升。利用好、发展好大数据能力,是提升企业自身竞争力的方式之一。众多大型企业已经将大数据技术作为重要战略布局的一部分,召开大数据相关技术研讨,部署了大量大数据技术、产品研发计划。然而,当前大数据技术呈现出的发展迅速、方向繁多等特征,增加了大数据技术发展、产品布局的不确定性。因此,急需一个大数据技术体系,明确大数据技术边界,梳理各类技术分类归属,全面覆盖大数据资源状态流转的完整生命周期,为各企业制定大数据战略规划,推动大数据相关技术探索、产品研发、应用创新提供体系支撑。

大数据技术体系可以以大数据资源全生命周期流转的典型状态为依据,划分为大数据采集、大数据存储、大数据计算、大数据分析、大数据治理、大数据安全保障、大数据应用支撑7个子体系。其中的大数据采集处于大数据生命周期中的第一个环节,为整个技术体系提供数据以及技术支撑;大数据存储则为大数据资源提供了存储能力,是大数据处理、分析、应用的基础共性支撑;大数据计算、大数据分析用于支撑大数据资源转换以及大数据价值信息的获取;大数据治理则提供大数据高效管理的能力;大数据安全保障提供大数据全生命周期的安全监管及防护能力;大数据应用支撑提供易用、高效的大数据资源开发、分析及流通环境支撑。每个子体系内部采用以上述方向的主流技术分类维度进行技术子类别的划分,可以分成27个技术子类;每个技术子类内部采用该技术子类方向的主流技术分类维度进行技术划分,又可以划分为101个技术方向点,这样的明确划分就可为大数据能力规划与研究提供精准的体系支撑。如图3-1所示为大数据技术体系的分类图。

图3-1 大数据技术体系分类图

3.1.1 大数据采集与预处理

要真正体现大数据的4个数据特征(Volume、Variety、Velocity、Value),并且确保大数据的应用不会造成安全隐患,就要时刻理清和把控数据的来源和去向。从统计学的角度看,大数据意味着样本集变得更大了。大数据下的数据来源不再是传统的企业内部单一来源,而应当整合包括商业对手在内的各种数据来源渠道。还可以基于搜索引擎来获取与题目相关的数据,或者是来自线下。如果离开了这些数据源的相对的全覆盖、多格式和多维度,大数据很可能只成了数据前面加了“个”大而已。也就是说,内部的、外部的、线上的、线下的数据均需考虑。这样带来的问题是,很多数据量很大,但价值密度很低,有些还充斥着大量的垃圾、病毒。

大数据采集处于大数据生命周期中的第一个环节,从采集数据的类型看,不仅要涵盖基础的结构化交易数据,还将逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音频类型的用户意见和反馈数据,设备和传感器采集的周期性数据,网络爬虫获取的互联网数据,以及未来越来越多有潜在意义的各类数据。

常见的数据采集方式包括系统日志采集、网络数据采集和其他数据采集方式。很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa, Cloudera的Flume, Facebook的Scribe等,都能满足高并发的日志数据采集和传输需求。

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集。网络爬虫是最被广泛使用的互联网数据采集技术,常被用于大规模全网信息采集、舆情监控等领域。

对于政府或企业日常生产运营的信息系统,通常会使用传统的关系数据库,如MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集,对此会使用特定系统接口等相关方式来采集数据库数据,如物联网设备产生的流数据等。

根据以上的分类介绍,大数据采集主要实现RFID射频数据、传感器数据、社交网络数据、移动互联网数据等各类结构化、半结构化、非结构化数据的采集获取功能,其中主要包括了互联网数据采集、信息系统数据采集、传感器数据采集三个子类。如图3-2展示了大数据采集的分类及对应的典型预处理过程。

图3-2 大数据采集的分类及对应的典型预处理过程

1.互联网数据采集

互联网数据采集是通过网络爬虫或网站公开API等方式从网站获取数据信息,并从中抽取出用户所需要的属性内容。技术点包括互联网文本数据采集、互联网视频数据采集、互联网图像数据采集等子技术。

(1)互联网文本数据采集

互联网文本数据采集技术是指实现对网页文本数据的分析与过滤,用网络爬虫抓取目标文本数据,通过获取网页内容,并通过语义识别抽取出所需属性的内容值,再将抽取的网页文本内容写入数据库。

(2)互联网视频数据采集

互联网视频数据采集技术是指由网络爬虫抓取网页视频数据,通过获取网页视频流内容,并抽取出所需属性的内容值,将抽取的网页视频数据写入数据库。

(3)互联网图像数据采集

互联网图像数据采集技术是指对网页图片数据的分析与过滤,以网络爬虫抓取目标图像数据,通过获取网页图像内容,并抽取出所需属性的内容值,将抽取的网页图像数据写入数据库。

2.信息系统数据采集

信息系统数据采集用于实现对数据库表、系统运行状态等数据的分布式抓取,技术点包括面向采集的数据服务封装、异构数据访问、采集监控与调度等子技术。

(1)面向采集的数据服务封装

网络在不同系统之间传输数据时,一般采用数据包的形式进行,通过把采集到的数据映射到封装协议中,然后填充对应协议的包头,就能形成封装协议的数据包,并完成速率适配。

(2)异构数据访问

异构数据是不同数据库、不同类型数据的集合,要实现对异构数据的访问,针对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。

(3)采集监控与调度

针对数据采集的过程,可实现监控数据的接收和转存,数据库、系统运行数据的采集,端口健康状态的监测等。

3.传感器数据采集

传感器数据采集用于实现对异构传感器数据流的实时接入,技术点包括异构传感设备实时接入、异构传感数据分布式缓冲、异构传感数据解析与抽取等子技术。

(1)异构传感设备实时接入

各种传感设备接口协议不一样,需要实现物联网异构设备数据的实时数据无延时处理和接入。其核心技术包括多内存队列缓存技术、实时数据无延时过滤解析技术等。

(2)异构传感数据分布式缓冲

数据分布式缓冲技术能够高性能地读取数据、能够动态地扩展缓存节点,在实时多数据流并发时,可对传感数据进行分布式协作处理。

(3)异构传感数据解析与抽取

通过实时计算框架,拓展处理大规模流式数据的能力,实现对接入的传感数据进行实时数据解析,并抽取出所需属性的内容值,统一格式化。

4.大数据预处理

数据采集过程中的数据预处理主要对采集的数据进行检查,对噪声数据进行过滤,对重复数据进行清理,保证存储保存下来的数据都是有效数据。

(1)噪声数据过滤

删除采集到的无法进行格式解析的数据,删除不包含任何自然语言文字的文本数据,删除超出正常取值范围的数据。

(2)重复数据清理

删除重复采集的数据包,删除内容完全相同的文本数据,删除全部属性完全相同的关系型数据,删除重复属性,去除可忽略的字段。

(3)数据集成

将多个数据源中的数据按照业务需求、研究对象集中组合起来形成统一的数据集合。

3.1.2 大数据存储

大数据存储面向海量、异构、大规模结构化、非结构化等数据提供高性能与高可靠的存储与访问能力,通过优化存储基础设施和提供高性能、高吞吐率、大容量的数据存储方案,解决数量巨大、难于收集、处理、分析的数据集的存储问题,为大规模数据分析挖掘和智能服务提供支撑。

传统的关系数据库主要用于一般数据量的结构化数据存储,技术相对成熟,其在海量大数据存储效率、灵活性和可扩展性等方面存在一定的问题。大数据存储技术解决方案是我们重点关注的内容,因此,对关系数据库在此不做深入讨论。大数据存储主要包括分布式文件系统、分布式内存数据库、列式存储数据库、键值存储数据库、图形数据库5个子类,其中分布式文件系统和列式存储数据库为大数据存储解决方案的核心技术。如图3-3所示为大数据存储的分类图。

图3-3 大数据存储分类图

传统的关系数据库主要用于一般数据量的结构化数据存储,技术相对成熟,其在海量大数据存储效率、可扩展性等方面存在一定的问题。大数据系统的数据相当大的一部分来自于关系数据库,一些情况下还需要实时“流转”,对关系数据库的理解是非常重要的,这在后面的章节中会看得更清楚。

1.分布式文件系统

分布式文件系统面向海量数据的存储访问与共享需求,提供基于多存储节点的高性能、高可靠和可伸缩的分布式文件存储与访问能力,实现分布式存储节点上多用户文件存储的访问与共享。技术点包括分布式元数据管理、多层级存储管理、数据一致性保障、高并行读写优化、分布式散列与动态均衡、存储高可用、海量小文件高性能存储访问等。

(1)分布式元数据管理

分布式元数据管理主要通过元数据服务分布式部署的方式,实现了元数据分布式管理,解决一般分布式文件系统的单元数据服务节点导致的响应用户请求效率不高、存储文件数目受限和单点故障等问题,具有降低用户请求处理延迟,提高分布式文件系统的可扩展性和可用性的特性。一般包括完全分布式架构、元数据访问负载均衡、元数据服务器高效索引、元数据服务器弹性伸缩等技术点。

(2)多层级存储管理

多层级存储管理用于实现内存/SSD/HDD等异构存储设备的池化管理,以及各类存储设备的动态接入管理,通过设备抽象和提供统一命名空间,面向分布式文件系统提供统一的存储资源池,支持热点数据自动感知和智能化存储调度,最大程度提升数据存储与访问的效能。一般包括异构存储设备管理、多存储系统适配、统一命名空间、基于热度的存储资源调度等技术点。

(3)数据一致性保障

数据一致性保障主要解决分布式文件系统中多副本和缓存等在数据存储与访问过程中的一致性问题,通过构建数据一致性模型、进行数据一致性校验等方式,保障数据在存储和访问过程中的一致性,在提升数据访问性能的同时确保数据存储和访问的正确性。一般包括一致性协议优化、一致性检验等技术点。

(4)高并行读写优化

高并行读写优化用于提高分布式文件读写的并行化水平,最大化提升分布式文件系统下的数据访问效率。一般包括分布式数据访问缓存管理和调度算法优化、IO算法优化和合并IO等技术点。

(5)分布式散列与动态均衡

分布式散列与动态均衡实现分布式文件系统下高性能的数据块定位,提高数据访问性能,以及数据块的迁移和再平衡,提升分布式文件系统的稳定性和可持续服务能力。一般包括基于一致性哈希的数据块索引管理、动态数据再平衡等技术点。

(6)存储高可用

存储高可用通过数据多副本技术、状态自检测和自修复、核心服务分布式部署等技术手段,实现自动检测分布式文件系统中的各种错误和失效,并且在文件系统出现错误和失效时可自行进行多副本间的数据修复,最终持续向用户提供正常的数据访问服务。一般包括可配置数据多副本、数据自恢复及自维护等技术点。

(7)海量小文件高性能存储访问

海量小文件高性能存储访问主要采用小文件汇集成大文件进行存储、细粒度二级索引管理等技术,实现在现有分布式文件系统的基础上,扩展对海量小文件的存储与访问的能力,同时解决小文件的随机读写问题,大大提高分布式文件系统对海量小文件的存储访问效率。

2.分布式内存数据库

分布式内存数据库面向实时数据存储与访问需求,提供基于分布式内存的高性能数据存储与访问功能,通过将分布式和内存访问结合在一起,兼具可扩展性和高速访问特点,相对于传统集中式的数据库具有良好的灵活性与可扩展性,在处理海量数据时在性能上和可靠性上有着更大的优势。分布式内存数据库的技术点包括数据分层存储调度、数据版本管理、分布式内存节点管理等子技术。

(1)数据分层存储调度

数据分层存储调度提供内存/SSD/HDD等存储资源的分层管理,支持存储设备热插拔,同时,面对不同的数据存储性能要求和可靠性需求,自动选择合适的存储资源。

(2)数据版本管理

数据版本管理可面向数据处理各个阶段提供数据更新版本关系,根据版本关系提供数据的高可用性,当中间数据丢失时,可基于版本关系通过上一阶段任务重新运行,恢复相应数据,降低中间过程数据丢失对整个数据处理的影响,提升数据处理的效率和可靠性。

(3)分布式内存节点管理

分布式内存节点管理提供统一的分布式存储节点管理,对外提供统一的内存管理接口,一般采用Master/Slave架构构建,Master节点管理所有Slave节点的内存元数据信息,在数据访问过程中,通过Master节点来完成内存节点的存储分配与管理,实现分布式环境下统一内存的访问。

3.列式存储数据库

列式存储数据库用于提供高性能的结构化数据存储与访问。以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询,其优势在于复杂查询的效率高,读磁盘少,存储空间少等。其下的技术点包含轻量级配置管理,表元数据管理,分区数据管理等子技术。

(1)轻量级配置管理

轻量级配置管理提供列式存储数据库分布式节点信息、配置模式的快速访问和一致性能力,多采用无中心设计,由选举策略完成系统的决策节点,负责对外配置信息的管理和存储。

(2)表元数据管理

表元数据管理提供对列式存储数据库中全局数据的元信息更新、组织、管理和快速访问能力。表元数据可采用平衡二叉树保存在内存中,实现整个系统的快速访问与更新。

(3)分区数据管理

分区数据管理基于管理元数据,提供海量数据的分区、分块的组织存储,同时对外提供分区数据访问能力。数据通过Key的内容进行Hash分区,分区管理模块接收分区数据,并形成本地的数据管理,同时实时上报本地数据信息,维护数据的一致性,分区数据管理可实现数据的隔离性和数据访问的高效性。

4.键值存储数据库

键值存储数据库提供了基于Key-Value(键值对)方式的数据存储,通过高性能索引构建和检索技术,支持快速数据检索与查询。它相比传统的关系数据库有着极高的查询速度,具备大容量数据存储和高并发、灵活动态扩容等特点。

5.图形数据库

图形数据库是一种非关系数据库,它应用图形理论存储实体之间的关系信息,用来提供高效的方法来查询数据项之间、模式之间的关系,或多个数据项之间的相互作用。通过应用图形理论来表达和存储实体及实体之间的关系信息,这是最接近高性能的一种用于存储数据的数据结构方式之一。与关系数据库相比,图形数据库更直观、更简单、语义更丰富并且搜索效率更高,且更能适应大数据的存储和检索。一般包含图形信息管理、图形信息存储等技术点。

(1)图形信息管理

图形信息管理是指以图形对象为基本类型,对基本图形数据类型进行定义,并设计图形间引用,以实现对复杂图形的管理。

(2)图形信息存储

图形信息存储提供复杂图形的底层存储设计,实现具体图形数据的存储,同时对接上层数据处理引擎,对底层原始数据进行提取、转换、重构与二次处理。

3.1.3 大数据计算

大数据计算主要完成面向业务需求的海量数据并行处理、分析挖掘等,通过将海量数据分片,通过多个计算节点并行化执行,实现高性能、高可靠的数据处理。针对不同数据处理需求,主要有流计算、批处理、图计算等多种计算模式,面向数据分析挖掘提供分布式的任务管理与调度支撑。大数据计算主要包括了统一计算调度、批处理计算、流处理计算、图计算四个子类,其中统一计算调度和批处理计算是大数据计算解决方案的核心技术,应重点关注。如图3-4所示为大数据计算的分类。

图3-4 大数据计算分类图

1.统一计算调度

在集群环境中,针对IO密集型、计算密集型等不同计算框架对资源类型需求不同的特征,统一计算调度框架是在数据中心的集群环境中同时部署运行MapReduce、Spark、Storm、MPI等多种计算框架,并在框架间共享数据和资源,实现流计算、批处理、并行计算等不同计算任务,确保它们在同一集群下被统一调度和管理的一个框架。在基础设施层面,它支持基于应用容器Docker的大数据计算框架的部署与集成。它的技术点包括多计算框架管理调度和资源统一管理调度等子技术。

(1)多计算框架管理调度

多计算框架管理调度提供实时流计算、批处理等不同特征的计算框架的注册和管理,通过二级调度机制,实现面向任务的不同类型数据处理任务统一调度,支持实时流计算、批处理、高性能计算等计算框架在同一集群的部署,可实现资源利用率最大化。

(2)资源统一管理调度

资源统一管理调度面向多计算框架,提供计算、存储、网络等资源的统一管理与调度,针对异构虚拟化资源VMWare、Hyper-V、KVM应用容器等,提供统一的虚拟化资源管理框架,支持虚拟资源的创建、启动、停止等运行控制,支持多虚拟资源在共享物理资源上的动态调度,实现物理资源利用率的最大化。除此之外,资源统一管理和调度还提供细粒度的资源隔离控制,确保资源被公平高效的共享和调度。

2.批处理计算

批处理计算是面向数据量大、并发度高的数据处理需求,实现对海量数据进行并行分析和处理。它可处理各种类型的数据,包括结构化、半结构化和非结构化数据,支持PB、ZB级别或以上的数据量,并可使用MapReduce模型将分析任务分为大量的并行计算作业来协同完成数据处理任务,具有高度可扩展性,高容错能力。批处理计算框架一般包括MapReduce计算、计算任务调度以及异构并行计算等子技术。

(1)MapReduce计算

MapReduce计算完成大型任务的分布式切分,根据数据处理需求,提供一种分布式计算的框架。Map主要针对用户数据分片执行对应的计算任务。Reduce主要实现基于多个Map结果数据的汇聚和整合处理,并生成最后的应用结果。

(2)计算任务调度

计算任务调度应根据用户数据和应用实现,在分布式计算节点上完成任务的生成、运行调度和管理监控。计算任务调度主要负责将集群中的节点资源化,根据应用对计算、存储和网络等资源的需求以及优先级,按照一定的计算调度策略实现计算任务在多个节点的调度执行。

(3)异构并行计算

面向TB/ZB级数据矩阵计算、图计算等复杂的数据处理,异构并行计算提供了CPU/GPU/FPGA混合架构的计算资源在计算引擎中的管理调度,实现对海量数据复杂运算的加速能力,支持面向应用处理特征的计算资源自适应协同调度,通过充分发挥GPU/FPGA的硬件并行计算能力,可最大化提升大数据平台在海量数据处理方面的计算能力。

3.流处理计算

面向实时计算需求,流处理计算提供海量数据的实时入库、数据的实时计算,可对无边界数据集进行连续的处理、聚合和分析,具有低延时高吞吐能力。一般包括流任务管理、分布式实时流任务以及实时流任务数据模型等子技术。

(1)流任务管理

流任务管理面向数据处理流程,实现后台工作流、事件流的拓扑管理、实时计算任务的监听、分发和管控,提供流数据处理任务在分布式计算节点的任务分发、执行过程监控等。

(2)分布式实时流任务

分布式实时流任务面向业务流数据处理需求,提供实时流任务的实现接口,根据流技术任务管理,执行相应的任务运行控制,并监听和上报任务状态。

(3)实时流任务数据模型

实时流任务数据模型提供不同协议和格式的流数据源的数据转换与计算,维护不同流处理任务的数据接入与输出。

4.图计算

图计算是指面向复杂网络处理、社团分析等处理需求,提供知识图谱的大图半自动构建和关联查询、图热点发现、图处理引擎等应用技术,提升大数据平台对复杂关系图谱的查询和分析效率,可高效执行与机器学习、数据挖掘相关的、具有稀疏的计算依赖特性的迭代性算法,并保证计算过程中数据的高度一致性和高效的并行计算性能。

3.1.4 大数据分析

大数据分析技术是通过计算和分析从海量大数据中提取出有用信息,并最终形成知识的技术手段,在大数据体系中处于核心地位。大数据分析需要结合算法的准确高效和人的直观认识,提供对多维度、多时空、多形式的海量数据进行定量分析的能力,以及对非线性和隐藏在数据中的知识进行识别、总结的能力。

在大数据技术体系中,大数据分析主要实现的是分析挖掘的算法,这些算法需要部署到大数据计算环境中才能运行,因此可以说大数据计算是大数据分析的基础环境。大数据应用是大数据分析的上层建筑,其基于大数据分析的通用算法构建面向业务的应用,包含但不限于大数据分析,还可能包括大数据采集、存储、治理和安全等内容。

大数据分析主要包括分析数据准备、分析挖掘、数据可视化和大数据知识计算四个部分。如图3-5所示为大数据分析的分类。

图3-5 大数据分析分类图

1.分析数据准备

分析数据准备是在开展数据挖掘分析之前,对待挖掘分析的数据进行噪声数据过滤、数据属性值填补、属性值归一化、数据去重、数据抽取等操作,使得数据满足后续挖掘分析的要求。

(1)噪声数据过滤

主要用于关系型数据属性值缺失严重、数据异常以及文本型数据出现大量乱码的情况,删除这些噪声数据,从而避免影响挖掘结果的准确性。

(2)数据属性值填补

数据属性值填补是一种填补数据中缺失数值的技术,当对应部分时间点相对应的数值缺失,可以通过前后时间点的值进行插值处理,填补缺失值,保证数据的完整性。

(3)属性值归一化

属性值归一化又叫属性值标准化。用于将同一属性不同数据源的表达方式统一到相同的表达方式,度量单位不同的数值统一到相同的度量单位。

(4)数据去重

数据去重是判断数据是否存在重复并去除重复数据的技术。该技术主要用于减少存储、降低网络带宽、提高大数据挖掘效率,从而应对数据体积激增的现状。其关键技术为快速高效与数据量大小无关的去重算法。

(5)数据抽取

数据抽取是利用特定模型,在海量数据中抽取可用数据的过程。该技术用于解决以人工方式预处理海量数据效率低、不能满足实际应用要求的问题。主要技术包括抽取模型和抽取方法的设计。该技术具备分布式的结果集处理、并发的数据操作以及数据之间的高效转换等特征。

2.分析挖掘

分析挖掘技术是通过算法从大数据中提炼出定量信息与知识的手段。以机器和算法为主导,充分发挥机器在数据分析中的效率与可靠性优势来实现大数据分析。提供对结构化数据以及文本、图像、视频和语音等非结构化数据的分析挖掘能力。技术点包括文本处理、音频处理、图像处理、视频处理、基础算法、时空数据分析和数据关联分析等。其中文本、音频、图像、视频是按数据类型进行分类,主要是考虑到不同类型的多媒体数据分析挖掘技术不同而进行划分的。时空数据分析和数据关联分析是按分析方法进行分类的,主要是考虑到针对常见的时空数据和关联性数据构建通用的分析挖掘方法。基础算法主要是实现一些通用的数据挖掘方法,包括深度学习、机器学习、统计分析等,这些算法可以作为其他分析挖掘方法的基础。

(1)文本处理

对人类自然语言进行分析、理解、生成和翻译,实现自然的人机对话和交互。在词汇级主要包括词法分析、中文词向量表示技术;在短文本级主要包括中文DNN语言模型、短文本相似度、关键词抽取技术等;在段落级主要是不同语种间的机器翻译。

(2)音频处理

主要用于对海量音频数据所包含的信息内容进行自动分析挖掘,解决依靠人工对音频的内容进行标注所造成的“听不清、听不准、听不全、标不快”等问题,通过对音频内容进行分析、理解和训练,实现对音频中所包含的人物、时间、目标、说话内容、场景等的检测、分类、识别、语义分析、合成等,具有降低人工工作量,提高音频内容分析的自动化、智能化的特性。音频处理技术一般包括音频场景理解、音频事件分类、目标声纹识别、说话人身份识别、语音识别、语音合成、音频场景合成等内容。

(3)图像处理

通过对图像进行分割、特征提取和建模,从图像中识别出文字信息、人脸和场景等。图像文本识别包括多场景、多语种、高精度的文字检测和识别,图像人脸识别包括人脸检测、人脸对比、人脸查找等,图像场景识别包括对象识别、行为识别、场景描述等。

(4)视频处理

视频处理主要包括两部分,视频帧数据可以用图像处理技术进行分析,但前后帧变化所反映的信息则需要借助时序分析来提取。主要包括流分析、场景分割、时序对象关联、行为分析等。

(5)基础算法

提供通用性的分析挖掘基础算法,包括用于深度学习的人工神经网络(卷积神经网络和深度置信网络等),针对传统结构化数据(如表单)以及结构化后的非结构数据的机器学习方法,主要包括决策树、神经网络、贝叶斯学习、遗传算法、规则学习、增强学习等。基于统计学理论实现对数据的抽样和统计分析,提升对大数据整体掌控的能力。主要包括聚类分析、判别分析、主成分分析、因子分析、相关分析、联合分析等。

(6)时空数据分析

提供对具有时空特征的数据的分析挖掘算法。针对具有位置信息的数据,提供基于GIS的空间分析挖掘能力,包括空间插值、空间自相关分析、地理统计、叠加分析、缓冲分析等。针对具有时间特征的数据,提供针对时间序列数据的分析挖掘能力,包括回归分析、趋势预测等。

(7)数据关联分析

提供从数据项集之间发现关联性和相关性关系的技术方法。利用关联分析可以发现事物之间的联系,如关联规则或频繁项集。关联分析包括频繁项集生成、关联规则生成、序列模式发现、频繁子图挖掘、非频繁模式挖掘等。

3.数据可视化

可视化分析技术是通过表达、建模的方式从数据中抽取出概要信息并以图形化的方式展现出来,并依靠人对结果进行解释和分析。充分发挥人的感性认知和非线性理解能力,通过可视化交互的手段直观的发现大数据中隐藏的规律和信息,弥补机器探索能力的不足,从而指导大数据分析挖掘。根据不同的大数据分析挖掘理论建立大数据内容可视化展现能力,辅助用户从数据分析理论角度探索价值信息、评估分析性能,从可视化展现层面提升大数据资源的价值信息探索能力。提供对多种结构化数据如普通表格、树和图,时空数据、多媒体数据(如声像图文等数据)的可视化展现。技术点包括层次和网络可视化、文本和文档可视化、时空数据可视化、高维数据可视化和可视化定制框架。

(1)层次和网络可视化

网络结构是现实世界中最常见的数据类型,例如人际关系网络、城市道路、论文引用等。层次结构是以根节点为出发点且不存在回路的特殊网络,如公司组织结构、文件系统等。通常使用点线图来实现可视化,涉及的主要技术点包括节点-链接构建、空间填充、图布局算法等。

(2)文本和文档可视化

人类对视觉符号的感知和认知速度远高于文字符号,从非结构化的文本中提取结构化信息,进而通过可视化呈现文本中蕴含的有价值信息,有助于大大提高对文本数据的利用效率。涉及的主要技术点包括词向量模型构建、主题抽取、特征分布模式、文档集合关系可视化等。

(3)时空数据可视化

时间与空间是描述物体的必要因素,时空数据可视化是对地理信息数据和时变数据进行的可视化。主要包括地图投影、空间标量场可视化、向量场可视化和张量场可视化、时序数据可视化等。

(4)高维数据可视化

描述现实世界中复杂问题和对象的数据通常是多变量高维数据,高维数据可视化是通过降维技术将高维数据降到二维或三维空间,或使用相互关联的多视图来表现不同维度。涉及的主要技术点包括空间映射、流行学习、分治法和平行坐标等。

(5)可视化定制框架

可视化定制框架提供一种直观、易用的可视化构建方式,可以将上述可视化方法进行封装,形成可直接拖动的组件,通过简单地设置关键字段,实现面向应用的大数据的可视化定制。根据不同的大数据分析挖掘理论建立大数据内容可视化展现能力,辅助用户从数据分析理论角度探索价值信息、评估分析性能,从可视化展现层面提升大数据资源的价值信息探索能力。

4.大数据知识计算

大数据知识计算是基于大数据技术,针对信息服务智慧化、协作化和泛在化的需求,用于解决结构化、半结构化及非结构化数据多维度处理问题,依据大数据资源获得隐式的或推断的知识,形成丰富的、复杂关联的知识体系、知识模型、知识图谱,并不断自我完善和演进,实现从海量复杂的数据中获得洞察能力,从而发现规律和预知趋势,做出更明智更精准的决策。相对于人工智能,大数据知识计算覆盖范围和应用领域更加宽泛。人工智能,是通过自控程序让机器表现或模仿得更加像人类,而大数据知识计算更加强调的是交互、学习和推理,通过大数据知识计算与人工智能的结合,可实现机器具备人类的思维能力、判断能力与交互能力。

(1)大数据知识抽取与融合

大数据知识抽取是指把蕴含于大数据资源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库的过程。知识抽取的理论模型支撑有粗糙集、遗传算法、神经网络、潜在语义标引等。知识抽取需要使用自然语言处理技术,从处理的层面具体包括形态分析、语法分析、语义分析、语用分析,从文本分析的层面具体包括词法分析、句法分析、段落分析、篇章分析,用于支撑这些分析的资源包括词典、规则库、常识知识库、领域知识库。

知识融合通过对分布式数据源和知识源进行组织和管理,结合应用需求对知识元素进行转化、集成和融合等处理,从而获取有价值或可用的新知识,同时对知识对象的结构和内涵进行优化,提供基于知识的服务。知识融合过程一般分为:知识定位、知识转换和知识融合三个环节。知识融合主要面向军事、遥感测绘、多源图像融合、物联信息融合、互联网数据融合等方面。

(2)大数据知识分类与建模

大数据知识分类体系的构建,是通过大数据技术从知识所属学科类别的层次揭示知识资源的知识内容,并把相同学科的知识又按相互间的知识关联程度进行知识聚类和知识重组,形成系统的分类体系。大数据知识分类体系主要包括实体节点和类目节点以及两类节点的关系。知识分类的作用是增强知识体系的连通性和推导能力,影响整个知识系统的质量和可用性。

大数据知识建模是通过大数据分析和获取形成一系列知识集合,然后对知识进行形式化表示,完成对知识的逻辑体系化过程。其作用是构建一个良好的知识模型来存储以及描述所需要的知识,是利用知识来创造价值过程中的关键因素。

(3)大数据知识库演化更新

大数据知识库演化更新的目标是通过大数据技术挖掘并努力实现准确、丰富和深入的用户知识服务需求。通过分析基于大数据技术构建的信息源,包含用户行为中的非结构化数据,来发现以往难以确定的重要的信息相互关系,便于预测知识服务的最新趋势,从而把握新的知识服务机遇,实现知识的自动演进。

知识库演化依据知识生命周期原理,对知识基(包括编码知识和非编码知识)进行持续审视与评估,并对其中活性不足或失去活性的知识做出及时地更新与淘汰处理,以确保知识的质量和有效性。

(4)大数据智能语义检索

大数据智能语义检索是基于大数据技术的“知识”搜索,即利用机器学习、人工智能等技术模拟或扩展人的认识思维,提高信息内容的相关性。通过大数据技术对知识资源组织、对概念关联组织,实现检索知识内容和概念关联的知识网络(或称知识地图),对己获取的知识以及知识之间的关系进行可视化描述,展现知识层次的网状结构,便于用户循着知识网络方便地获取知识。智能语义检索涉及的技术方法包括神经语言编程(Neuro-Linguistic Programming),统一资源标识符(URI)、资源描述框架(Resource Description Framework)、本体库(Ontology)、循环神经网络(Recurrent Neural Network)。

基于知识的智能问答技术通过对数据的深度加工和组织管理,以更自然的交互方式满足用户更精确的信息需求。相比于传统基于文本检索的问答系统,利用知识库、知识理解回答自然语言问题可以提供更精确、简洁的答案。大数据知识智能问答常用的方法如下:基于信息提取(Information Extraction)的方法、基于语义解析(Semantic Parsing)的方法和基于向量空间建模(Vector Space Modeling)的方法。

(5)大数据知识智能推荐

大数据知识智能推荐是一种智能知识推理(Inference)技术,它不是建立在用户需要和偏好基础上推荐的,而是以推荐效用(即效用知识)为目标进行推荐。大数据知识智能推荐通过效用知识描述一个项目如何满足某一特定用户的知识,因此可以根据需要和推荐的关系进行规范化的查询和支持推理的智能推荐。大数据知识智能推荐常用的技术方法如下:基于内容的推荐(Content-based Recommendation)、协同过滤推荐(Collaborative Filtering Recommendation)、基于关联规则的推荐(Association Rule-based Recommendation)、基于效用的推荐(Utility-based Recommendation)、基于知识的推荐(Knowledge-based Recommendation)以及组合推荐。

(6)大数据知识服务引擎

基于大数据的知识服务引擎是大规模知识运算和管理平台,不仅可以管理数字知识,还可以提供基于知识、符号编程、自然语言风格的超大型编程语言。通过大数据知识服务引擎可实现知识的理解、整理、搜索和学习。大数据知识服务引擎涉及的主要技术包括知识库构建(Knowledge Base Construction)、知识库验证与计算(Knowledge Validation and Verification, Knowledge Computation)、知识存储(Knowledge Repositories)、知识服务与应用(Knowledge Services and Application)。

3.1.5 大数据治理

来自各种Web和社交媒体数据、各种传感器和网络设备数据、各种信息系统数据、交易信息数据和特征识别数据等快速生成的海量大数据,数据容量大、类型多、生成速度快,使得数据在采集、存储、处理和安全方面都发生了深刻的变化。为了让这些数据能真正更好地被利用,必须在技术层面通过大数据与数据质量、元数据管理、数据隐私、主数据管理等数据生命周期管控技术结合,构建大数据治理技术体系,支撑后续数据能更好地服务于企业的发展,推动基于数据驱动的服务创新和价值创造。如图3-6所示为大数据治理的分类。

图3-6 大数据治理分类图

1.大数据质量管控

由于大数据的来源广、数据量大、数据类型多,针对采集到的数据存在的冗余、残缺和不一致等问题,通过数据质量管控技术,使得处理后的数据符合数据规范,为后期的大数据集成和应用提供保障。大数据质量管控技术是实现大数据价值服务和基于数据驱动创新的基础支撑,对大数据的质量管控,主要包括数据质量控制技术、数据质量评估技术和数据校正与修复技术等。

(1)数据质量控制

数据质量控制技术是通过检测和消除数据中的错误或不一致(脏数据)来提高数据质量的技术途径,其所关注的问题包括缺失数据、错误数据、逻辑错误、相似重复记录等脏数据的检测和消除。确保得到的数据准确及时、完整一致、合规达标、安全可用。在数据质量控制时贯穿数据生命周期设置数据阀值、数据置信区间、ETL处理、数据溯源、算法校验、数据备份、数据建模、数据分析等数据质量控制技术手段确保数据在各个生命周期流转过程中高效可用。

(2)数据质量评估

数据质量的评估技术主要是通过制定评估的标准、业务规则和算法模型对数据内容的有效性、一致性、完整性等进行综合测量和评估。在数据质量评估时,通过定义数据评估的维度、评估的要素、评估的指标和评估的模型等,对数据进行剖析,对数据的结构、内容、规则、关系和可信度等进行测量和评估。通过抽样评估、定期评估、持续监控等对大数据的质量进行定性、定量和综合评估。

(3)数据校正与修复

数据校正与修复技术,主要是对在业务流转过程中出现的缺失数据、异常数据通过技术手段进行处理使其能够满足数据的质量要求和数据规则。通过对异常数据、缺失数据取平均值、众数、中位数、加权均值等,以及用聚类分析、分类统计、数据预测等算法技术手段过滤、补缺、削峰、填谷和转换等进行数据的修复和校正。使其数据尽可能满足质量要求。

2.大数据生命周期管理

大数据生命周期管理技术主要是为了使大数据在采集、存储、处理等不同阶段能更好地发挥价值和实现基于数据驱动的服务创新,来进行数据流转渠道全面管控,在技术上实现对大数据的全生命周期的管控,核心主要包括元数据管理、主数据管理、数据集成和大数据仓库设计几个方面。这几个方面从数据的描述信息、共用数据和总体集成方面对数据提供流向管理,数据仓库为数据的存储方式提供管理,确保数据在流转的过程中流转合规、风险可控。

(1)元数据管理

元数据描述了数据的定义、数据的约束、数据关系等,在物理模型中元数据定义了表或者属性字段的性质。元数据管理主要是对静态和动态元数据进行管理,静态元数据是与数据结果有关的数据,包括名称、描述、格式、类型、关系和业务规则等;动态元数据主要是与数据的状态和数据使用方法有关的数据,包括统计信息、数据的状态、数据的引用等。元数据管理是实现对元数据创建、存储、整合与控制的一套流程集合。由于大数据更多的是非结构化数据,如音/视频、图像、字节流等数据,因此大数据的元数据管理技术和传统的元数据管理技术有很大的不同,大数据的元数据管理是对基于数据驱动的服务创新和数据价值挖掘的支撑,在大数据环境下对元数据管理的实现核心是通过设立分布式元数据存储库、分布式键值存储数据库等方式进行元数据的存储、控制与访问。

(2)主数据管理

主数据管理是指对各个系统(操作/事务性应用系统以及分析型系统)间共享的数据的管理。主数据管理通过使用ETL技术和信息集成技术把各个业务系统核心的数据(主数据)进行整合,集中进行数据的清洗和标准化,并且以服务的方式把统一的、完整准确的主数据提供给业务系统使用。主数据管理通过设计不同的数据模型和管理方法(不同的存储方式和数据分发方式)进行信息整合来实现在不同数据源、数据库之间的数据传输和数据同步自动化,以及不同系统之间进行传输。

(3)数据仓库设计

数据仓库技术是对集成的数据进行存储和数据共享的基础。数据仓库的设计包括数据的维护表、事实表的划分,同时还包括数据的逻辑模型、存储物理模型等。在数据的处理和存储过程中将包括ODS、DW和DM不同的阶段,每个阶段的数据存储(如大表存储、关系数据库存储等)、数据处理技术和元数据存储技术。在数据仓库的架构设计上按照不同的业务逻辑包括使用从下向上和从上向下的不同处理方式,构建数据仓库。在大数据环境下构建数据仓库时,需结合不同业务需求、数据的冷热程度(使用频率)、功能性能要求,构建和选取不同的分布式数据存储架构与计算存取方式。

(4)数据集成

数据集成是针对在大数据环境下数据体量大、类型多、速度快等特点,把来源、格式、特点性质不同的数据在逻辑上或者物理上进行集中,为全面数据共享提供基础。大数据的集成技术根据实际的业务,用大表模式结合数据仓库、分布式缓存、数据中间件等进行大数据集成。数据集成将采集到的数据通过ETL处理后,按照建立的数据集成模型(包括实体关联、星形结构、键值模型、聚合模型等)进行数据的模式设计、关联集成,将集成后的综合数据在数据仓库中进行存储。

3.大数据审计

大数据审计技术主要是对数据的使用方式、数据流转合规性和数据的使用情况进行后期的分析,方便对数据的使用情况进行全维度、全视角的综合分析,达到业务优化和追踪溯源的目的,大数据审计主要是针对大数据系统记录的各种日志信息、业务信息、访问记录、告警日志信息等进行综合分析和智能挖掘,保证大数据系统和数据资源能够更好地运行和对外提供服务。

(1)大数据日志分析

大数据日志分析是在大数据平台上结合自然语言处理、统计学习、语义计算、机器学习算法、深度挖掘技术和审计模型算法等,对日志数据进行分类、聚类等预处理,再通过模式识别、规则识别、对比分析发现敏感信息,实现对大数据系统日志、安全日志、行为日志、事件日志、网管日志等的深度统计、挖掘、搜索、关键信息识别和分类计数,从而在原来简单日志分析的基础上,根据需求实现“纵向”专业分析和“横向”综合分析,达到日志“分析得好、分析得全”的目的,全面提升大数据日志分析能力。

(2)审计报告分析

审计报告分析技术是日志分析外的另一个重要的分析技术,不同于日志分析的全面和专业要求,审计分析要求“审计过程精准、审计覆盖全面、审计结果可视”。在大数据环境下,仅仅采用传统的静态审计报告分析方法无法满足该需求。因此,大数据审计分析除采用传统的审计方式外,还需要结合大数据审计数据本身离散产生、集中分布、动态改变的特点,通过概率论模型,利用大数据分析技术、分布式算法进行全面、精准地分析。同时,结合人工智能技术和网络空间沉浸式展示技术,对审计的结果进行二维、三维甚至多维的智能统计展示,以实现审计报告分析的全面性、客观性、公正性和及时性等。

3.1.6 大数据安全保障

针对大数据环境下,数据资源面临的监管手段落后、全生命周期安全防护能力不足、个人隐私泄露严重以及安全服务缺失等突出问题,围绕大数据在监管、防护、隐私保护和安全服务等方面开展重点研究,突破数据追踪溯源、数据防泄露、数据脱敏、基于大数据的安全服务等关键技术,构建大数据安全保障技术系统,为打造大数据环境下的数据安全监管能力、数据全生命周期安全防护能力、个人隐私保护能力以及基于大数据的安全服务能力提供重要的技术支撑。大数据安全保障技术包括大数据安全监管技术、大数据安全防护技术、大数据隐私保护技术、大数据安全服务技术四个子类。如图3-7所示为大数据安全保障的分类。

图3-7 大数据安全保障分类图

1.大数据安全监管

大数据安全监管应当针对大数据环境下数据资源面临的缺少监管技术手段、监管过于依赖人工方式、监管不到位等问题,重点开展基于大数据的监测预警、数据资源画像、大数据安全势态呈现、大数据应用权力监管、大数据追踪溯源、大数据系统漏洞检测与分析等关键技术的研究,实现大数据环境下对数据资源安全状态的全面监测、智能研判以及精确管控。

(1)大数据监测预警

大数据监测预警技术通过采集现网设备或软件系统存在的威胁信息,利用各种各样的大数据分析技术,对整个攻击过程中不同阶段的数据进行复杂的关联分析,挖掘事件之间的关联和时序关系,以便于发现某些高级恶意威胁,在此基础上实现全局威胁情报共享和整网安全联动,及时阻断、隔离或通知人工干预已发现的恶意威胁,减小或消除恶意威胁可能造成的破坏和损失。

(2)数据资源画像

数据资源画像对数据资源做标签化描述,从不同维度展示资源的信息全貌。通过目标解读、建模体系、维度分解和应用流程等多个步骤,分析资源使用场景,构建数据模型,多重维度地对资源进行分解和重构,最后针对不同的使用者设计画像流程和相应功能。

(3)大数据安全态势呈现

大数据安全态势呈现技术主要是通过基于网络流量数据、时间序列数据、日志数据的挖掘技术和安全态势分析技术,将大数据的网络、系统安全类数据和各种威胁态势数据通过大数据可视化技术直观地展现出来,帮助人们及时了解和分析大数据系统安全状况,识别系统异常或外部入侵行为,预测可能存在的安全威胁,评估系统安全,保证基础设施的安全。

(4)大数据应用权力监管

大数据应用权力监管技术针对数据共享交换阶段因数据权力界定不清导致的监管缺失问题,通过数据权力界定与控制、数据安全风险评估、数据流动监测与分析、数据溯源与安全审计等手段,实现对数据间权属关系的图谱化分析以及对数据来源和流向的全程监视,防止数据在融合、交换、二次利用过程中出现权力越界问题。

(5)大数据追踪溯源

大数据追踪溯源技术通过采用标记和密码技术相结合的方法,在数据采集、存储与处理等过程中对数据进行标记,并保存数据处理环节的标记信息,通过采用递归查询来检索源数据,实现对关键数据的流向、访问者、访问方式和访问时间地追踪,形成数据流向追踪图,重现数据的历史状态和演变过程,为敏感数据非法使用的取证提供支持。

(6)大数据系统漏洞检测与分析

大数据系统漏洞检测与分析通过对大数据集群和系统采用基于机器学习的智能流量异常检测模型,对流量进行实时监控和自主学习,对外界的恶意行为进行有效的防范;以及基于机器学习的智能垃圾过滤模型,实现自动有效的垃圾信息过滤。基于海量数据分析的僵尸网络检测模型、DGA检测、CDN域名分析、DNS流量与协议异常挖掘等技术,实现从访问流量中自动挖掘和智能发现僵尸网络。

2.大数据安全防护

大数据安全防护应当针对大数据环境下数据资源在产生、传输、存储、交换、使用等阶段面临的保密性、完整性以及可用性的需求,重点开展数据可信验证、数据安全传输、数据安全存储、数据安全交换、数据密态计算、数据防泄露与防窜改等关键技术的研究,实现对数据资源全生命周期安全防护。

(1)数据可信验证

数据可信验证技术是对外部上传和采集到的大容量多类型的结构化和非结构化数据进行内容审查和可信验证,防止病毒、恶意脚本、木马、蠕虫等恶意代码对大数据平台造成破坏和通过大数据平台进行扩散。同时,针对文件内容进行涉密敏感数据检测,防止涉密信息非法泄露。

(2)数据防泄露

数据防泄露技术主要是针对大数据容量大、类型多、生成速度快、价值密度稀疏等特点通过高效、安全的动态加解密技术、内容检测与识别技术、数据挖掘技术等对重要数据实现透明加密防护、检测和过滤,达到数据防泄露的目的。经过数据防泄露保护的各类数据,阻止其内容被非法复制、非法外传、非法浏览、非法窃取、非法拍摄,所有用户任何操作行为都受到数据防泄露的安全管理规则约束与监控。

(3)数据防窜改

数据防窜改技术针对大数据全生命周期各个阶段进行监测,对数据在处理和流转、用户操作、在网络中流转等过程中进行监测,确保及时发现数据被窜改的隐患并即时响应,对不同重要级别的数据采取隔离技术、加密存储、数据的分级分类授权技术来防止数据被非法窜改,同时对发生窜改后的数据提供数据的修复技术和数据的追踪溯源技术等,实现数据被非法的窜改后可通过校验算法、备份副本进行数据还原和修复。

(4)数据安全存储

大数据安全存储,主要针对大数据存储系统进行安全防护,确保大数据存取安全可靠、高速存取,通过安全认证、密码设备(密码机、密码卡等)、访问控制、加密网关、权限控制技术和数据的分级分类存储技术实现对分布式关系数据库、分布式文件系统、NoSQL、IP-SAN和FC-SAN等大数据存储形式进行安全防护,实现数据的高速加解密、密文存储、安全隔离等安全防护,确保在存储设备中的数据安全可靠。

(5)数据安全传输

大数据安全传输技术基于传统的通信保障技术手段,根据大数据特点,对来自不同行业的大数据进行超高速和弹性化加解密传输保护,防止在通信过程中,非法获取各类碎片化信息,聚合后形成大数据。大数据安全传输技术需要根据用户实际需要,组合使用SSL传输层加密手段、网络层加密手段等,通过高速传输实现技术,实现大数据的安全传输。

(6)数据密态计算

大数据聚合后,涉及个人、行业等各类大量敏感的结构化和非结构化数据信息,通过密态计算的方式,可防止信息泄露。在安全性要求高的应用场景下,基于全同态或半同态的密文计算,结合密文存储,实现在计算、存储、传输时的全密态,从而避免了在当前计算模型下,明文计算的信息泄露风险。

(7)数据安全交换

大数据安全交换技术以数据密级标签技术、高速多级交换技术为核心,为需要实现安全域内或跨域汇聚、交换的数据提供细粒度的唯一标记,以及高效的传输平台支撑,在网络和安全域的边界实施基于密级和策略的交换控制。实现数据流转过程内的可识别标记,可控可管,以及可以审计追溯,提升大数据平台的安全管控能力。

3.大数据隐私保护

大数据隐私保护应当针对大数据环境下个人隐私数据面临的直接泄露或通过关联挖掘造成的间接泄露问题,重点开展敏感数据发现、数据脱敏、数据匿名保护、密文搜索、差分隐私保护等关键技术的研究,实现个人隐私数据在大数据环境下的安全可靠交换与二次使用。

(1)数据脱敏

数据脱敏技术是指对某些敏感信息通过脱敏规则进行数据的变形,实现对敏感及隐私数据的可靠保护。它有别于加密技术,加密技术是指在数据存储或者传输过程中对数据使用密钥进行处理,变成不可见的密文,在需要使用时,要用密钥对数据进行反向运算获得真实数据。而数据脱敏技术是对数据进行一定逻辑的处理和运算,但是处理过后的数据并不是密文,而是完全有别于原文的另一套明文,在使用时无须反向运算即可直接使用。

(2)敏感数据发现

基于大数据计算框架可实现海量数据的自动分词、向量化、特征提取、特征降维、权重计算、决策树生成等方法,解决结构化数据表、文字、图像、视频等数据的敏感内容识别与提取问题,实现在海量数据中自动、高效、准确地甄别敏感数据,为敏感数据的定向及精准脱敏提供支持。

(3)数据匿名保护

数据匿名保护技术在隐私披露风险和数据精度间进行折中,有选择地发布敏感数据极可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。数据匿名化一般采用两种基本操作。一种是抑制某数据项,即不发布该数据项;另一种是泛化,对数据进行更概括、抽象的描述。常见的数据匿名化模型方法包括k-匿名、l-多样化、t-贴近等。

(4)密文搜索

密文搜索技术是实现隐私数据安全共享的重要技术,这种技术通常要求数据拥有者在将数据密文传输到服务器之前,首先提取该数据的关键词并进行加密,将加密的关键词和加密数据作为整个密文传输给存储服务器。目前密文检索的方法主要分为两种:对称检索加密和非对称检索加密。对称检索加密主要用于加密数据的内容检索,也可用于实现关键词可检索的对称加密。非对称检索加密主要适用于不同用户访问数据,还可以实现连续关键词检索和区间询问。

(5)差分隐私保护

差分隐私保护是基于数据失真的隐私保护技术,采用添加噪声的方法使隐私数据失真但同时保持某些数据或数据属性不变,要求处理后的数据仍然保持某些统计方面的性质,以便进行数据挖掘等操作。差分隐私保护技术可以保证,在数据集中添加或删除一条数据不会影响到查询输出结果,因此即使在最坏情况下,攻击者已知除一条记录之外的所有隐私数据,仍可以保证这一条记录的隐私信息不会被泄露。

4.大数据安全服务

大数据安全服务应当针对大数据平台、大数据应用及用户面临的安全服务缺失问题,重点开展基于大数据的风险评估、大数据环境下的信任管理、大数据环境下的密钥管理和密码服务等技术的研究,充分利用大数据技术在分析挖掘方面的优势,为大数据平台、应用以及用户提供全面的安全保障服务。

(1)基于大数据风险评估

基于大数据的安全风险评估技术是通过采用模糊综合评判法实现对全局及局部数据的安全风险状态进行实时综合评估和可视化展现,并能够对高风险状态的安全数据及时进行告警。模糊综合评判法首先构建模糊综合评价指标,其次通过专家经验法或者AHP层次分析法构建权重向量,在此基础上建立适合的隶属函数从而构建评价矩阵,最后采用适合的合成因子对其进行合成,并对结果向量进行解释。

(2)大数据环境下的信任管理

大数据环境下的信任管理技术是依托大数据分析和挖掘技术为各类服务提供信任管理支撑的关键技术。主要包括了统一身份管理技术和授权与访问控制技术,统一身份管理技术通过大数据挖掘技术智能识别用户身份解决网络空间实体在大数据环境中的多身份问题以及在跨系统、跨域的业务协同问题。授权与访问控制技术通过大数据分级分类模型,度量大数据计算、融合后的数据密级;通过大数据集群主机身份和集群访问控制技术,实现大数据应用主机的安全可信和访问控制;并用大数据智能分析,对大数据集群主机和大数据应用中的各种系统角色提供身份认证和权限访问控制服务。

(3)大数据环境下的密钥管理和密码服务

大数据环境下的密钥管理和密码服务,主要是针对大数据的容量大、类型多、生成速度快等特点,用大规模高速密态运算技术和密钥管理,以满足大数据环境下用户和平台的应用密钥管理和密码服务,大规模高速密态运算技术根据大数据运算需求,弹性、按需、动态提供数据签名与验签,数据加密与解密,散列与验证等密码运算服务,满足大数据中关键指令、关键配置信息的数据加密与解密,和大数据的迁移、分发、复制、同步、备份等流转过程数据的加解密处理需求。大数据环境下密钥管理主要满足大规模环境下用户和平台的应用密钥管理服务、各层次存储数据及网络通信数据加密的密钥使用需求。

3.1.7 大数据应用支撑

大数据应用支撑用于提供给用户友好的大数据资源开发利用平台环境,是大数据平台用户与大数据平台技术体系的交互入口,以提升大数据利用效率为需求牵引,集成大数据技术能力,提供易用、高效的大数据资源开发、分析及流通环境,从而提升对各类应用的支撑效率。包括大数据开发支撑、大数据分析支撑、大数据共享组织管理三个子类。图3-8所示为大数据应用支撑的分类。

图3-8 大数据应用支撑分类图

1.大数据开发支撑

大数据开发支撑应当针对大数据开发需求,提供对用户友好的大数据开发交互环境,为大数据应用支持平台提供大数据资源开发辅助技术支撑,以大数据处理任务为对象,建立以数据开发运维人员为核心的任务管理平台,对下能够引接主流的数据资源类型、集成主流大数据处理技术,对上提供易用的大数据开发任务创建、配置、监控环境。技术点包括大数据开发资源管理与调度、大数据应用开发任务管理。

(1)大数据开发资源管理与调度

大数据开发资源管理与调度用于实现与大数据开发相关的可执行文件、数据的统一管理与调度,该技术点以各类大数据处理的可执行文件、待处理的各类数据资源为管理对象,为大数据开发支持技术提供计算类资源、数据类资源的按需调用能力。以保障大数据分析环境各类操作的交互性体验为核心目标,对计算资源进行管理与调度,集成典型大数据处理框架及大数据资源管理技术,为大数据任务提供细粒度、差异化的计算能力保障。

(2)大数据应用开发任务管理

大数据应用开发任务管理用于构建易用的大数据开发任务创建、配置及执行监控的环境,从逻辑概念层建立大数据任务概念模型,屏蔽不同大数据处理软件的接口差异,构建涵盖大数据任务全生命周期的、对用户友好的大数据任务操作环境。

2.大数据分析支撑

大数据分析支撑应当针对大数据资源分析需求,提供高易用性大数据分析设计辅助环境。以降低数据分析人员分析复杂度、提升数据分析平台的用户友好性为目标,对典型数据挖掘、分析理论进行建模与实现,为用户提供无编码的数据分析环境,同时对缺乏经典理论支撑的数据分析需求提供易用化辅助环境,构建高效、易用的大数据洞察分析辅助环境,技术点包括交互式大数据分析环境、面向分析的大数据算法管理与集成、面向分析的异构数据管理与集成。

(1)交互式大数据分析环境

交互式大数据分析环境以提升用户分析过程中的交互性为目标,针对大数据资源数据规模大、数据处理时间长等问题,从提升交互性体验方面建立覆盖大数据分析全生命周期的交互式辅助能力,为构建用户友好的大数据分析辅助环境提供交互模式、架构支撑。

(2)面向分析的大数据算法管理与集成

面向分析的大数据算法管理与集成以在交互式大数据分析环境下提升大数据算法应用的易用性为目标,围绕用户数据分析需求,提供大数据算法注册、服务机制,从算法层面为构建用户友好的大数据分析环境提供支撑。

(3)面向分析的异构数据管理与集成

面向分析的异构数据管理与集成以服务大数据分析支撑环境为目标,针对多平台、异构数据资源研究统一的大数据逻辑描述模型,建立大数据资源统一注册、管理、服务机制,从数据资源服务层面为构建对用户友好的大数据分析环境提供支撑。

3.大数据共享组织管理

大数据共享组织管理应当针对大数据资源流通共享需求,实现集成管理与高效跨域服务,为实现大数据资源共享流通服务提供支撑。技术点包括分布式数据虚拟组织、多模态数据汇聚引接、数据跨域共享分发、大数据开放服务总线、数据跨异构网络传输。

(1)分布式数据虚拟组织

分布式数据虚拟组织针对广域网环境下的多源异构数据的快速定位与发现需求,采用元数据管理和目录管理技术,提供全局分布式数据虚拟化组织管理能力,实现数据分类管理、基于数据目录的元数据注册发布、检索访问和管理维护功能,支持异构数据的统一描述和语义映射,将物理分布的海量数据虚拟化整合为逻辑集中的全局数据视图。

(2)多模态数据汇聚引接

多模态数据汇聚引接通过数据库开放访问、导入导出、在线上报、数据服务调用、实时流数据接入等多种手段,从各种异构系统实时或定期汇聚引接数据库表、图文声像、实时报文等各类数据,有效解决数据库封闭、文档源码缺失、原开发团队缺位、第三方商业构件依赖等情况下的数据汇聚引接难题。

(3)数据跨域共享分发

数据跨域共享分发采用面向服务、中心调度的思路,提供数据资源申请、交换通道管理、订阅分发、主动推送、下载导出等功能,满足各类用户的共享交换需求,在不同信息系统之间建立标准、安全的数据交换通道,支持数据细粒度访问控制,实现分布式跨域数据的受控共享与交换。

(4)大数据开放服务总线

大数据开放服务总线面向多源异构系统之间的互联互通需求,采用面向服务的技术体制,通过简单参数配置,支持将各类系统的数据访问能力封装为标准统一的数据服务,从而重构各类业务系统的数据服务接口,并统一发布到数据服务总线,提供数据服务注册发布、检索、管理、调用、监控和协议转换等功能,实现基于服务总线的数据开放发布与标准化共享。

(5)数据跨异构网络传输

数据跨异构网络传输面向异构网络之间的数据共享交换需求,提供跨网可靠传输服务、数据传输任务管理、数据传输代理终端等基础传输服务,支持基于不同网络特性和数据特点的传输优化、数据传输实时监控与告警,实现基于数据分类、面向用户任务需求的数据高效、有序分发。