前言
数据挖掘是自动地从海量的数据中找到新颖的、有价值的、隐藏的知识的技术,是近十几年来信息科学领域最活跃、最重要的一个交叉学科。研究成果包括关联规则算法、分类模型、聚类模型、顺序模式算法、异常值检测算法、推荐系统等。如今,数据挖掘技术已在商业智能、客户关系管理、互联网、基因工程、科学数据分析、地理信息系统、安全监控、军事国防等领域得到成功应用。
然而,由于大数据具有“3V”特征,即数据量极大(通常指TB级以上)、类型复杂多样、数据变化快且实时性强,已有的数据挖掘算法和技术正在面临挑战。首先,由于很多算法的复杂度是非线性的,处理“大数据”的速度无法满足用户的需要。其次,目前已有的复杂类型数据的挖掘方法,例如图挖掘、空间数据挖掘、文本挖掘、网页挖掘等,所能处理的数据类型十分有限,特别是高维数据,挖掘的准确性和效率有明显的局限性。另外,对于实时数据流应用,例如流媒体数据、实时监控数据等,目前的数据流挖掘技术还不能满足其实时性要求。
与一般数据相比,地球科学数据更为复杂。它涉及地理、天文、空间、大气、海洋、生态、地质等基础学科,包含位置数据、属性数据、空间实体关系数据等,具有空间性、时间性、高维性、海量性、复杂性、不确定性。目前的大数据挖掘研究较少考虑地球科学数据的独有特征。而且,随着遥感技术的发展,除了矢量数据、栅格数据,还出现了海量的遥感影像数据。尽管以深度卷积神经网为代表的深度学习模型已在图像识别和分类应用中获得成功,但鉴于遥感影像比普通图像分辨率低、噪声多、数据量更大,目前还处于研究的起步阶段。
国际科学数据委员会(CODATA)中国委员会汇集了我国一大批科学数据领域的专家,为大家提供了很好的学术交流平台。参与本书撰写的几个专家都是CODATA中国委员会的活跃分子:中国科学院大学的刘莹教授团队长期从事大数据挖掘算法理论研究;中国科学院国家天文台的崔辰州研究员团队长期进行天文大数据研究;国家空间科学中心的邹自明研究员团队长期从事空间科学大数据研究;中国科学院遥感与数字地球研究所的李国庆研究员团队长期在地球观测大数据方面开展研究。近年他们都主持和参加了国家相关部门组织的与地球科学大数据相关的大量研究项目,在天文、空间、遥感、地理、地质、生态等领域初步进行了大数据研究,开展了地球科学大数据相关的数据管理、共享、分析、挖掘工作,并为公众和科学家提供了多种大数据服务。在科研交流中,我们有一个共同的困惑和压力,那就是缺少适合于地球科学研究的大数据分析和挖掘算法,特别是刚刚开始进行地学大数据研究的学者往往困惑于该如何下手选择算法,现在已出版的书籍和文献往往无法说清楚哪些算法是适合于大数据挖掘的。编著这本书就是我们尝试回答这个问题的一个探索。
本书不是特定科研项目的产出,而是撰写团队对于过往工作的总结和反思。在撰写任务分工上,刘莹团队(成员包括向超、吴林志、刘锦怡、崔红元)负责关联规则、K-最近邻分类、基于层次的聚类、基于网格的聚类、序列模式挖掘、卷积神经网络以及自动编码器算法的撰写,邹自明团队(成员包括胡晓彦、钟佳)负责决策树分类、贝叶斯分类、粗糙集分类、神经网络分类、支撑向量机、线性回归、K均值、K-medoids以及基于密度的聚类算法的撰写,李国庆团队(成员包括庞禄申、李风朋)负责集成学习、逻辑回归、深度信念网以及异常检测算法的撰写,崔辰州团队(成员包括许允飞、张磊)参与了决策树、支撑向量机以及K-means分类算法的撰写,中电科海洋信息技术研究院有限公司的赵正建、赵硕参与了Bagging算法的撰写,中国科学院遥感与数字地球研究所的刘鹏副研究员对全部算法进行了严格的学术审查,中国科学院遥感与数字地球研究所的庞禄申博士研究生为本书的统稿和撰写组织做了大量工作,在中国科学院遥感与数字地球研究所进行客座研究的中国地质大学的李风朋同学为本书的成书做了大量辅助性工作。
本书的出版得到了国家重点研发计划“地球观测与导航”专项“地球资源环境动态监测技术”项目之课题四“多源遥感监测数据在线融合及协同分析云平台(编号:2016YFB0501504)”以及中国科学院数字地球重点实验室主任基金(编号:1108000001)的支持。特别感谢中国科学院院士郭华东和中国科学院大学的石勇研究员对这项工作的指导,并为本书作序。在本书的撰写过程中,得到了许多专家的帮助和支持,无法一一列举,在此谨向他们表示诚挚的感谢。
我们希望在论述中可以尽可能覆盖到目前本领域的主要研究进展,所以本书引用了大量国内外学者的研究成果,书中都一一进行了标注,在此一并表示感谢。由于作者水平有限,部分内容和作者观点可能有不妥之处,恳请读者批评指正。
李国庆 刘莹
2017年4月3日于北京