数据流上频繁模式和高效用模式挖掘
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 绪论

1.1 背景和意义

智能终端、互联网及无线传感网络的发展将我们带入了一个数据的时代,据市场研究公司Strategy Analytics的分析师预测称:在未来5年内,全球移动用户基数将增加到89亿;中国三家电信运营商的各省份公司也都在构建着自己的数据仓库,而这些数据仓库的总体规模已达到数十PB的水平;腾讯微博每天约有4000万条微博信息;YouTube每月上传的视频近100万h。此外,传感器网络、移动网络、电子邮件、社会网络以及生物信息等领域每天都会产生海量数据,在此推动下,数据流成为未来数据发展的一个主要趋势,而从数据流中挖掘有用的知识得到广泛的重视。

数据挖掘(Data Mining, DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。当积累的数据越来越多,如何从积累的数据中提取有用的知识成为很多行业的当务之急。数据挖掘的技术主要有关联规则挖掘、聚类分析、分类、预测、时序模式和偏差分析等。

自从数据挖掘技术出现以来,关联规则挖掘一直是数据挖掘领域中的一个最基本和最重要的研究方向。关联规则挖掘的重要工作就是挖掘频繁项集(频繁模式),因此关联规则挖掘也常常称为频繁模式挖掘。根据处理的事务数据集的类型不同,存在传统数据集上的频繁模式挖掘、不确定数据集上的频繁模式挖掘和具有内外部效用值数据集中的高效用模式挖掘等。传统的数据集仅仅考虑了事务项集中的项是否出现,而没有考虑事务项集中的项集效用值;高效用模式挖掘将事务项集中的效用值也考虑到模式的挖掘模型中;不确定事务数据集中的频繁模式挖掘考虑了事务项集中项对应值的不确定性。以上不同类型中的模式挖掘已被广泛应用在商业、企业、过程控制、政府部门及科学研究等领域。如在移动通信数据中,可以通过频繁模式挖掘出高消费客户群的消费规则、不同客户群之间的关系、增值较高的业务组合、客户的消费推荐等;在关联规则产生的过程中,可以同时利用频繁模式和高效用模式来产生利润最大的规则。另外频繁模式挖掘也被扩展到了聚类、分类、预测、序列模式、异常检测等其他数据挖掘技术中。

本书分别对传统数据流、不确定数据流中的频繁模式挖掘算法及数据流中高效用模式挖掘算法进行了分析与研究,分别介绍新的挖掘算法或者对已有算法的改进算法;同时本书也对大数据集中的频繁模式挖掘算法进行了分析与研究,并介绍基于MapReduce并行框架的大数据的频繁模式挖掘算法。