2.2 大数据技术
大数据的本质是从海量的数据中挖掘出有价值的信息。在大数据产生之后,可将大数据的生命周期分为采集、提取、存储、预处理、分析和可视化等阶段,这几个阶段对应的典型技术分别是大数据定向爬取技术、大数据自动摘要技术、大数据存储技术、大数据预处理技术、大数据分析技术和大数据可视化技术等。具体描述如下:
(1)大数据定向爬取技术:首先利用算法将分布的、异构数据源中的数据,如关系数据、平面数据文件等,爬取到临时中间层后,进行清洗、转换、集成;然后加载到数据仓库或数据集中,成为联机分析处理、数据挖掘的基础,也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。
(2)大数据自动摘要技术:利用算法快速进行文本加工处理,从海量的信息中发现有用的信息,并且抽取中心语句,形成与主题相关的摘要[6],提高用户获取信息的效率。
(3)大数据存储技术:利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,对结构化、半结构化和非结构化海量数据进行存储和管理。
(4)大数据预处理技术:在进行数据分析前,对初始数据集进行必要的清洗、集成、转换、归约等一系列的处理,使得待分析的数据集能够达到分析算法要求的最低规范和标准,用于提高后续的数据分析的效率。
(5)大数据分析技术:利用数据挖掘和机器学习等技术,实现对海量数据的处理和分析,并从海量数据中发现有价值的信息。
(6)大数据可视化技术:对大数据分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据。
2.2.1 大数据定向爬取技术
在灾害发生前后,社交媒体不仅会迅速产生海量、多源、异构的灾害大数据,而且社交媒体对这些数据进行更新的速度非常快。在面对海量数据时,为了能够及时地定向爬取与灾害相关的数据,用于后续的数据挖掘、分析与决策,需要对大数据定向爬取技术进行深入的了解和研究。目前,常用的大数据采集方法有系统日志采集方法、网络数据采集方法和其他数据采集方法。考虑到网络数据大部分是以页面(网页)数据形式存在的,因此本节重点介绍面向网络数据的大数据定向爬取技术。
随着互联网技术的飞速发展,类似谷歌、百度这样的搜索引擎,它们会在一定的时间内自动地从互联网上爬取相关的数据,并将爬取的数据用于后续的应用。一个标准的爬取程序会包含众多领域的相关知识,如通信协议、存储数据方式和自然语言处理算法等,使得完整的爬取程序变得相当复杂。数据的爬取过程是由系统自动完成的,系统中的每个模块都有独立的爬取程序。当系统采集完一个网页的数据时,系统就会获得所采集网页上的所有链接。通过这些链接,爬取程序可以跳转至其他的网页上。如果将互联网看成数量巨大并且相互交织连接的网,则每个网页就可以看成一个节点,爬取程序可以按照某种策略顺着这些节点访问不同的网页。
通用爬取的目标是大型网站的全部数据(如搜索引擎获取数据),爬取从特定的种子链接开始,逐步扩大到整个网站,通常采用基于广度搜索的方式。由于通用爬取会对所有的网页进行全文索引,因此对爬取程序的要求很高,不仅要求爬取路径尽可能覆盖整个网络,还要求尽可能地扩大爬取范围。通用爬取流程如图2.1所示。
图2.1 通用爬取流程
与通用爬取相对应的是定向爬取,定向爬取通常用于特定的专业群体,爬取的数据往往局限在某个主题或者与该主题相关的领域[7]。出于成本和性能的考虑,定向爬取通常不会爬取整个互联网的网页数据,因此在爬取数据的过程中,需要根据网页数据与主题的相关度来决定是否对该网页数据进行爬取。此外,还需要考虑采用何种方法来尽可能多地爬取与某个主题相关的网页数据,减少与该主题无关网页数据的爬取。定向爬取不仅要保证所采集的数据具有较高的准确率,还要保证数据具备较好的召回率[8]。定向爬取的特点如下:
(1)主题的确定:定向爬取面向的是特定的专业群体,爬取的是特定领域的数据,因此所爬取的数据内容必须与特定主题相符合。
(2)过滤掉与特定主题无关的网页数据:互联网蕴含着海量的网页数据,网页数据涉及众多主题,与某个特定主题相关的网页数据在所有网页数据中所占的比重很小[9],因此在数据爬取的过程中,需要对网页数据进行分析,选择与特定主题相关的网页数据,过滤掉与特定主题无关的网页数据。
(3)特有的爬取策略:定向爬取采用的是深度优先策略,因此定向爬取通常带有引导性。在进行定向爬取时,首先需要确定与特定主题相关的关键词,计算网页数据与主题的相关度;然后将网页数据与主题的相关度转化为阈值,舍弃低于阈值的网页数据,将高于阈值的网页数据添加到待爬取的链接队列。
定向爬取流程如图2.2所示。
图2.2 定向爬取流程
定向爬取特别重视网页数据与特定主题的相关度,因此定向爬取应尽可能多地爬取与特定主题相关的网页数据,尽量避免爬取与特定主题相关度较低的网页数据或者与特定主题无关的网页数据,从而提高爬取的网页数据的准确率。要想更好地实现上述的功能,定向爬取不仅要采用高性能的主题相关度算法,也要选择合适的种子链接,还得确定完善的主题表达方式和爬取策略等。
2.2.2 大数据自动摘要技术
通过爬取程序获取的网页数据往往包含着大量与特定主题无关的冗余数据。如何快速、精准地搜索与灾害相关的数据并将其呈现给用户,使用户及时掌握灾害的最新发展动态、提升灾害应急管理的效率,是灾害应急管理面临的首要问题。为了解决这类问题,大数据自动摘要技术应运而生。大数据自动摘要技术包括抽取式(Extractive)和摘要式(Abstractive)两种,其中摘要式又可分为单文本自动摘要和多文本自动摘要。本节重点介绍当前主流的多文本自动摘要技术,包括文本的预处理、文本信息特征项的选择,以及摘要抽取的过程。
多文本自动摘要技术是指从多篇同一主题的文本中自动生成与该主题相关的、言简意赅的摘要[10]。多文本自动摘要流程[11]如图2.3所示。
图2.3 多文本自动摘要流程
1.文本的预处理
在自然语言处理领域中,不同文本所保存的风格有所不同。对所有文本(多文本集合)进行的预处理主要包括文本分词、识别特征项、特征项加权等操作。经过文本预处理后,可以将文本以结构化的方式呈现出来,为后续的处理打下基础。英文文本和中文文本的预处理方式是不一样的,英文文本中的各个单词是通过空格来分隔的,对英文文本进行分词相对比较容易,只需要通过空格和标点符号就可以完成。对中文文本进行分词要比英文文本复杂得多,中文文本中各个词语之间没有类似的空格符,因此对中文文本进行分词是预处理的重要环节。
经过文本分词后,下一步要做的是将文本用一系列关键词特征(特征项)来表示。这样就可以将文本转换为计算机可以识别的格式。目前,在自然语言处理领域,对文本进行结构化处理时主要采用向量空间模型(Vector Space Model,VSM),即将文本转换为由多个特征项及其权值构成的文本向量。
向量空间模型是由Salton等人[12]于20世纪60年代末提出来的,该模型涉及的主要技术包括选择特征项、特征项加权等策略,以及文本相关度的计算等技术。向量模型在以统计学方法为基础的自然语言处理中,如自动文本摘要、文本内容索引、文本分类等,得到了广泛的应用。向量空间模型的核心思想是把文本表示成为空间中的特征向量,利用向量之间夹角的余弦值作为文本相似性的度量。向量空间模型的优点是将文本转化为带有权值的特征项集合,从而把对文本的处理转变为空间向量的运算,并且在权值计算的过程中还可以引入主题相似性判断分析等。
2.文本信息特征项的选择
在多文本自动摘要过程中,选取合适的文本信息特征项对于生成的摘要至关重要,直接影响着摘要的质量。文本的特征信息通常包括某些特殊位置,如文章标题中出现的短语或者文本的起始部分等,利用这些特征信息生成的文本信息特征项对于确定文本内容具有很强的指导性。选择文本信息特征项时主要考虑的因素有以下几点:
(1)词频的信息。卢恩(H.P.Luhn)最先提出了进行自动摘要时选择特征项的基本依据。出现频率越高的词语往往越能表达文本内容,但高频词的语义区分度很弱,文本主题中的有效词往往是中频词,特征项首选中频词[13]。
(2)文本标题的信息。文本标题通常是表述文本核心内容的短句,它是文本内容的简要表达。文本标题中的关键词通常是摘要的重要依据,和文本的主题有紧密的关系,尤其是新闻标题中的关键词。
(3)位置的信息。不同语句出现的位置对段落主题的贡献度是截然不同的,著名学者Baxendale对大量的文本进行分析后[14],得出段落主题在段落首句的概率约为85%、在段落末句的概率约为7%,因此应当提高处于特殊位置特征项的权值。
(4)语句结构的信息。不同文本中的语句风格是多种多样的,通常能够反映文本主题的主要是陈述句,因此通常应选择陈述句作为摘要,而感叹句、疑问句、祈使句等不适合作为摘要。
(5)指示性短语的信息。段落中的总结性短语常常是文本中的指示性短语,如“总之”“总而言之”“综上所述”等。应当将文本中包含上述词语的短语作为摘要,这些短语能够有效地表达文本内容。
3.摘要抽取的过程
抽取文本摘要句是多文本自动摘要中的关键一步,对摘要的质量有重要的影响。目前在多文本自动摘要中,抽取文本摘要句的方法主要有Z模型抽取法和MMR模型选择法等。
(1)Z模型抽取法:也称为最大权值选取法,它是一种目前在摘要抽取中的常用方法。Z模型抽取法的核心思想是先计算文本中包含的特征项的各个句子权值,然后依据每个句子的权值进行排序,选择出一定数目权值较高的句子,把这些句子作为文本摘要句。Z模型抽取法的数学模型为:
式中,t表示句子S中所含的特征项;tf(t)表示特征项t在当前文本中出现的频率;idf(t)表示特征项t在整个文本集合中的倒排频率。
(2)MMR模型选择法:也称为最大边缘相关的特征选择法。MMR模型选择法的核心思想是先从文本中选出与主题相关的句子,然后从选出的句子中挑选与之前较少类似的句子作为特征句,这样的语句具有较高的边缘相关度。MMR模型选择法的数学模型为:
式中,D表示文本内容;R表示文本中全部句子的集合;S表示文本集合R中已被选为特征句的集合;si和sj表示选择的句子;R/S表示集合R中还未被选为特征句的句子集合;sim()表示计算特征句的相似性;λ表示权值调节因子,其取值范围是0~1。
MMR模型选择法的优点是选出的特征句在语义方面能够比较接近文本内容,特征句之间的冗余度较低;其缺点是无法自动确定表述主题特征句的数量,以及无法准确预估权值调节因子的取值。
2.2.3 大数据存储技术
随着灾害的发生,有关灾害的结构化数据和非结构化数据呈现爆炸式的增长趋势。如何实现海量、异构灾害数据的存储是必须解决的问题。在实践中,通常采用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等来对海量的结构化数据、半结构化数据和非结构化数据进行存储和管理。本节重点介绍云存储环境中海量数据的分布式存储。
云存储是一种新兴的网络存储技术,其概念是由云计算的概念延伸和发展而来的。云存储系统是指将网络中大量类型各异的存储设备通过集群应用、网格技术或分布式文件系统等功能组织起来,为用户提供集业务访问和数据存储服务于一体的系统。
在云存储环境中,数据通常存储在由云存储提供商(Cloud Storage Provider,CSP)提供的存储空间中,而不是存储在单一的主机或服务器中。CSP运营着大规模的数据中心,对这些数据加以管理并集成,使其成为用户可以访问的资源。在云存储环境中,存储端的设备情况、架构方式对于用户是透明的,云存储系统的接口对于不同的终端设备来讲都是兼容的,用户只需要连接到云端就能随时随地访问云存储系统。对于那些需要数据存储空间,以及需要租用虚拟机、虚拟存储空间服务的用户,云存储系统会根据其需求分配合适大小的存储池,由此可见,云存储系统主要提供数据存储、访问和管理等服务。
云存储系统自顶向下可划分为访问层、应用接口层、基础管理层和存储层,其结构如图2.4所示。
图2.4 云存储系统的结构
(1)访问层。访问层在应用接口层的基础上为不同用户提供云存储服务,CSP可以根据自身的业务类型量身定制云存储产品,如存储空间租赁服务、远程共享、在线存储等。
(2)应用接口层。在应用接口层中,不同CSP可根据自身需求开发出不同的应用程序接口(API),用于提供不同类型的服务,如网络硬盘、数据存储业务等。相对于其他层而言,应用接口层是最灵活多变的。
(3)基础管理层。作为应用接口层和存储层的桥梁,基础管理层是云存储系统中最重要且最难实现的部分。基础管理层通过集群系统、网格计算、分布式文件系统等将存储层的存储设备协同起来工作,为应用接口层提供存储和数据访问等功能,对应用接口层的数据进行处理并将处理结果存储到存储设备中。
(4)存储层。存储层位于云存储系统底部,不仅包括通过网络连接在一起的存储设备,还包括构建在其上的存储管理系统。存储层用于实现存储虚拟化、存储集中管理、状态监控、维护升级等功能,其中的存储设备通常包括直连式存储(Direct-Attached Storage,DAS)设备、光纤通道存储设备和IP存储设备等。
云存储系统除了具有内部实现对用户透明,以及可按需分配的优点,还具有可扩展性高、可靠性高等优点,这些优点离不开分布式文件系统的支撑。根据云存储系统内置的分布式文件系统是否存在元数据服务器(也称为主节点),可将云存储系统分为有中心云存储系统和无中心云存储系统两类。
1.有中心云存储系统
有中心云存储系统采用主从结构,由一个主节点和多个存储节点组成。存储节点用来存储数据,主节点存储的是存储节点上所有数据的元数据。有中心云存储系统中常用的分布式文件系统有Google文件系统(Google File System,GFS)和Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)。例如,GFS包含主服务器(Master Server)、数据块服务器(Chunk Server)和客户端(Client)3个组件,其系统架构如图2.5所示。
图2.5 GFS系统架构
用户可以通过GFS客户端进行类似传统文件系统中的操作,如新建、打开、关闭、读写和删除文件;数据块服务器负责存储切分后的数据块;主服务器用于存储所有数据的元数据,如文件与数据块之间的映射关系、数据块的存放位置等。从图2.5中可以看出,GFS中的控制流与数据流是分开的,其中客户端与主服务器之间,以及主服务器与数据块服务器之间只存在元数据的交互,客户端与数据块服务器之间存在数据交互。GFS并不是一个通用的云存储系统,主要用于存储大文件,对小文件的存储并没有做专门的优化。此外,GFS是通过添加新数据来完成大部分文件的更新的,而不是更改已有的数据,注重读写的速度与效率,适用于大型的搜索业务。
2.无中心云存储系统
顾名思义,无中心云存储系统是一个没有主节点的云存储系统,采用的不是主从结构,即客户端与存储节点之间没有专门存储元数据的节点,元数据和数据块都存储在各个存储节点中,因而存储节点的可扩展性较强。目前,典型的无中心云存储系统有Amazon开发的基础存储架构Dynamo、Gluster的GlusterFS、OpenStack的对象存储服务Swift、对等云存储系统MingCloud等。
在没有专门用于存储元数据的主节点的情况下,客户端的数据和元数据如何分布到云存储系统中的多个存储节点上,这是要解决的首要问题。Dynamo和Swift利用一致性哈希算法将数据和存储节点映射到同一个环状的哈希空间上,通过环状结构将数据映射到存储节点上;GlusterFS系统采用弹性哈希算法(Davies-Meyer算法)将输入的文件路径和文件名转化为长度固定的唯一输出值,根据该值选择子卷来定位和访问数据;MingCloud采用改进后的Kademlia算法[20-22]来负责存储节点之间的互通性,将分散的存储节点组成在逻辑上结构化的对等网络,使得存储节点的地址空间与文件的地址空间之间建立起映射关系,以便查找数据。其中,一致性哈希算法、Kademlia算法是目前主流的分布式哈希表(Distributed Hash Table,DHT)算法。DHT实际上是一个由网络中所有节点共同维护的一张巨大哈希表,每个节点和数据都在DHT中分配了唯一的标识符,每个节点按照DHT算法负责网络中一小部分路由信息和数据。根据DHT算法可以确定资源所在的存储节点,目前应用较多的典型的算法有Chord算法[23,24]、一致性哈希算法、Kademlia算法等。
2.2.4 大数据预处理技术
为了使数据集的数据质量满足数据分析的要求,首先要做的就是对数据集进行预处理。通过本节介绍的大数据预处理技术,读者可了解数据清洗、数据集成、数据转换以及数据归约等方面的相关知识。
在数据分析中,数据集中的数据(如格式或类型)往往不满足数据分析算法的要求,因此在进行数据分析前要先对数据集进行必要的预处理,使得数据集中的数据满足数据分析算法要求的最低规范和标准[25]。
数据分析系统通常由数据预处理和数据处理两个部分组成。数据预处理的任务是为数据分析算法提供准确、有效、具有针对性的数据,剔除那些与数据分析不相关的数据,并且通过修改数据集中数据的格式来统一数据集中的数据格式,为数据分析算法提供高质量的数据,从而提高数据分析的效率,提高数据分析发现知识的准确率[26]。数据预处理的主要环节有数据清洗、数据集成、数据转换、数据归约[27]。
1.数据清洗
在现实生活中,由于多种原因,数据集中的数据通常是不一致和不完整的。为了提高数据的质量,必须清除数据集中不一致的数据,改善数据集中不完整的数据(如对数据集进行缺失填充的操作)[28]。
在采集数据时,由于采集条件的限制或者人为的原因,数据集中某些数据存在缺失的情况,造成了数据的不完整。这些缺失的数据会使原始数据集中的信息量减少,影响数据挖掘的结果,因此需要对这些数据进行缺失填充处理。
异常数据是指远离数据集一般水平的数据。与数据集中其他数据相比,异常数据不符合数据集的一般模型[29]。在日常生活中,大部分事件和对象都是正常和具有普遍性的,但我们不能忽视那些表现不正常和不普遍的事件和对象,这些事件和对象可能隐藏着重要的信息,具有更高研究价值。离群点检测是一种在数据集中发现异常数据的技术,其目的是消除数据集的噪声或者发现数据集中潜在的有价值信息[30]。
数据清洗是一个非常重要的任务,由于数据分析算法的需求不同,以及每个数据集的自身特点,因此数据清洗并没有统一的过程。
2.数据集成
由于大数据技术的快速发展,各行各业的数据量都在急剧增加,每个行业都会对自己的数据进行管理,各个行业之间的数据信息系统可能不同。如果对不同行业的数据进行挖掘,那么就需要将不同行业的数据合并在一个数据源下。数据集成就是将存储在不同的数据源中的数据合并到一个数据源中[28]。
在不同的数据源中,不同的数据属性可能代表同一个含义,或者同一个数据属性可能代表不同的含义。如何对这些数据属性进行匹配,这就涉及实体识别的问题。例如,一个数据源中数据属性为people_id,另一个数据源中数据属性为pe_id,如何才能确定这两个属性是否代表同一个含义呢?如果数据源中的某个数据属性能够被其他数据属性导出,那么这个属性就是冗余的。在进行数据集成时,需要考虑如何识别出这些冗余的数据属性。另外,在不同的数据源中,相同数据属性,其值可能不同,如某一数据源中表示性别的数据属性值是male和female,而另一数据源中表示性别的数据属性值是0和1,在进行数据集成时,就需要进行数据冲突检测。不同数据源的数据属性值及其表示形式,对数据集成来说是一大难点。
3.数据转换
各个行业都在管理着自己的数据,拥有自己的数据管理系统。这些数据管理系统是根据每个行业的需求和设计者的喜好来设计的,这就产生了不同的数据格式。数据挖掘算法对数据格式有特定的限制,在进行数据挖掘时,需要将不同的数据格式转换成统一的数据格式。数据转换主要包含以下几个方面:
(1)数据集的泛化:指概念的替换,使用高层次的概念替换低层次的概念,如可以将城市(地点属性)泛化成省或者国家等高层次的概念。
(2)特征构造:在数据集中构造新的属性。
(3)数据离散化:将数据集中连续的数据转换为离散的数据,以满足数据挖掘算法只能处理离散数据的限制。
4.数据归约
由于大数据的数据量非常大,在数据集中普遍存在一些重复的数据或者冗余的数据。数据归约就是识别这些重复的数据以及冗余的数据,对数据集的规模进行缩小,并且仍然能够保存原有数据集的完整信息。数据归约的策略有以下几种:
(1)数据属性子集的选择。现实中数据集的数据属性个数可能成千上万,但并非所有数据属性都与数据挖掘的任务有关。与数据挖掘任务不相关的数据属性可能会导致数据挖掘的时间变长、数据挖掘的效率变差,所以有必要对这些数据集进行数据属性子集的选择。
(2)数据属性值的归约。数据属性值的归约是指通过替代的数据或者较小的数据来减少原始数据的数据量。
(3)实例归约。实例归约用于缩小数据集的大小,通过抽样的方式可以得到比较小的数据集,并且不会破坏原始数据集的完整性,以便后续的数据挖掘分析。
2.2.5 大数据分析技术
大数据具有数据量大、类型繁多、价值重要、要求快速处理等特征,这些特征对数据分析技术提出了新的要求和挑战。数据分析技术融合了数据挖掘、数据库、人工智能、深度学习、统计学、知识工程、信息检索等技术,其应用非常广泛[31]。例如,Google从全球博客(Blog)的数据中挖掘出了与流感相关的信息,建立了一个预警机制,并利用该机制成功预测了2009年冬季流感的传播[32]。数据分析的方法有很多,典型的方法有数据挖掘和深度学习,以及这两种方法的结合。数据挖掘技术已被广泛应用到了各行各业,并得到了极大的发展,本节重点介绍数据挖掘技术的相关知识。
数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程[33]。
数据挖掘的示意图如图2.6所示[26]。被挖掘的数据可以是结构化的或半结构化的数据,也可以是异构的数据。发现信息和知识的方法可以是数学的或非数学的方法,也可以是归纳的方法。最终被发现的信息和知识可以用于信息管理、查询优化、决策支持,以及数据自身的维护等[34]。
图2.6 数据挖掘的示意图
目前,常用的数据挖掘技术主要是神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等[31]。
(1)神经网络法。神经网络法是指在模拟生物神经系统结构和功能的基础上,通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多项数据挖掘任务。神经网络法中的学习方法主要表现在权值的修改上,其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是需要较长的学习时间,不适合处理高维变量,无法观察学习过程,具有“黑箱”性,生成的结果也难以解释。神经网络法主要应用于数据挖掘的聚类技术中。
(2)决策树法。决策树是通过一系列规则对数据进行的分类,其表现形式类似于树状结构的流程图。最典型的决策树法是罗斯·昆兰(J.Ross Quinlan)提出的ID3算法[35],以及在ID3算法的基础上提出的C4.5算法[36]。决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程,描述简单,易于理解,分类速度快;其缺点是很难基于多个变量组合发现规则。决策树法适合处理非数值型数据,特别适合大规模的数据处理。
(3)遗传算法。遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成规则的、基于进化理论的机器学习方法。遗传算法的基本观点是“适者生存”,具有隐含并行性、易于和其他模型结合等性质。遗传算法的主要优点是可以处理多种数据类型,可以并行处理各种数据,对问题的种类具有很强的鲁棒性;其缺点是需要的参数太多,编码困难,计算量比较大。遗传算法常用于优化神经元网络,解决其他方法难以解决的问题。
(4)粗糙集法。粗糙集法也称为粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据归约、数据相关度发现、数据意义的评估等问题。粗糙集法的优点是算法简单,不需要关于数据的任何预备的或额外的信息;其缺点是难以直接处理连续的数据,须先进行数据的离散化。连续数据的离散化是制约粗糙集法实用化的瓶颈[37]。粗糙集法适合处理近似推理、数字逻辑分析和化简、建立预测模型等问题。
(5)模糊集法。模糊集法利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物属性的[31],系统的复杂性越高,模糊性就越强。
(6)关联规则法。关联规则反映了事物之间的相互依赖性或关联性,最著名的关联规则法是由大卫·阿格拉瓦尔(David R.Agrawal)等人提出的Apriori算法。最小支持度和最小可信度是为了发现有意义的关联规则而给定的两个阈值,从这个意义上讲,数据挖掘的目的就是从数据源中挖掘出满足最小支持度和最小可信度的关联规则。
数据挖掘只是一个强大的工具,它不会在缺乏指导的情况下自动发现数据挖掘模型,而且得到的模型必须在现实生活中进行验证。数据分析者必须知道所选用的数据挖掘算法的原理是什么,以及该算法是如何工作的,并且要了解期望解决问题的领域、理解数据、了解数据挖掘的过程。只有这样才能解释最终得到的结果,从而不断完善数据挖掘模型,使数据挖掘真正满足人们的要求,服务于社会[31]。
2.2.6 大数据可视化技术
人们从外界获得的数据,大部分都是通过视觉获得的。可视化是指使用图形化的方式,以一种直观的、便于理解的形式展示数据的过程。大数据可视化技术是指利用图形处理、计算机视觉等对大数据进行可视化展示的技术。在大数据可视化的过程中,不仅将数据集中的每个数据项看成单个图元素,用数据集构成数据图像,还将数据的各个数据属性值以多维数据的形式表示。通过大数据可视化技术,人们可以从不同的维度观察数据,达到对数据进行更深入的观察和分析的目的,可以在图形界面上获取对海量数据的宏观感知。但这并不意味着一定要对数据进行全面、完备性的呈现,也不意味着要追求图形化数据的美学形式,让图形化的数据看起来绚丽多彩、极端复杂。大数据可视化技术的核心思想是以清晰有效的方式,通过数据来呈现人们的思想、表达人们的观点。
大数据可视化技术有着极为重要的作用,它不仅有助于人们跟踪数据,还有助于人们分析数据,让人们可以通过宏观、整体的视角来分析和理解数据。大数据可视化技术的应用使信息的呈现方式更加形象、具体和清晰,为人们提供了理解灾害的全新视角,提升了应急救灾的水平。