前言

计算机技术的发展总是伴随着企业计算技术的应用，企业需求又进一步刺激了计算机等信息科学技术的高速发展，数据库技术在企业业务中发挥了重要作用。信息系统产生的数据量日益增多，企业应用中的业务数据在发挥了当期效用后，作为历史资料大量积存起来。这些历史数据中是否蕴藏着丰富的知识呢？这些知识能否被利用来为企业决策服务呢？这个问题在企业界和学术界受到越来越多的关注。

随着知识经济的发展，社会经济生活发生了翻天覆地的变化，企业在日常决策中感受到的压力越来越大。这种压力来自于：（1）决策速度的压力。面对竞争激烈的市场，企业需要快速决策，需要对市场快速作出反应；（2）决策成本的压力。快速发展中的企业，决策不容失误，否则后果严重；（3）决策难度的压力。面对纷繁复杂的市场信息，需要处理的信息繁多，需要考虑的因素众多，决策难度显著增加。企业决策者面临前所未有的压力。

自从信息技术在企业实践中得到广泛应用以来，人们一直在寻找决策支持系统的良好解决方案，希望信息技术的优势能在决策领域发挥重要作用。这种决策辅助在今天显得尤为迫切。在决策支持领域，传统的方法是由专家或信息技术人员总结并描述知识或规则，从外部输入系统，形成知识库、模型库和方法库，结合数据库进行决策辅助的活动。然而，由于知识太多而且具有复杂性和模糊性，难以准确描述和有效利用，模型又难以精确地表述具体的应用，导致许多决策支持系统失败。数据库知识发现技术（Knowledge Discovery in Database, KDD）的出现扭转了这种局面。KDD 是从一个系统内部自动获取知识，从大量数据中寻找蕴涵其中但尚未被发现的知识，这种数据应用技术的出现，必然会更有力地支持企业的战略决策。

数据库知识发现是一个很新的研究领域，由于其具有为企业创造巨大经济效益的潜力，因而备受国内外研究人员关注。聚类分析是数据知识发现的关键技术之一，高维数据又是当前的重要应用领域之一，研究高维数据的聚类知识发现，具有重要的理论意义和现实意义。本书正是基于这种考虑，紧紧围绕高维聚类的关键技术进行研究，提出了一整套高维聚类方法，其中包括高维数据相似性的定义、高维聚类算法（包括硬聚类和软聚类）、离群点检测和高维聚类结果表示方法等，为聚类知识发现提供了一种新的思路。全书共分为 9 章，内容包括：知识发现与 KDD、聚类知识发现及其关键技术、高维数据相似性的定义、基于粗图模型的聚类算法研究、高维二元数据的映射聚类算法、基于蚂蚁行为的聚类算法、高维数据空间的离群点检测方法、高维数据聚类结果的表示和聚类知识发现数据建模及应用等。

本书适用于数据库知识发现领域的研究和应用人员，也可作为相关领域博士生、硕士生和高年级本科生的参考书。

在本书写作过程中，获得了北京联合大学商务学院“供应链知识管理与创新”科研基地建设项目资助，在此表示感谢。陈云飞对本书第 6 章有重要贡献，在此表示感谢。本书在写作中参阅了大量文献，在此向这些文献的作者们表示感谢！

作者

2008年9月于北京