数据挖掘方法及天体光谱挖掘技术
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 绪论

随着数据库和计算机网络的广泛应用,数据处理领域面临两方面的难题。一方面是数据雪崩:现实世界中产生的数据量呈指数级增长,人们所拥有的信息量急剧增大,超大规模的数据集与日俱增,待处理的海量数据层出不穷,信息量远远超过了人脑掌握、消化的能力,这就是数据雪崩。另一方面,先进的观测技术和现代监测仪器的推广和应用使我们的监测范围更加广泛,随着数据维度的增加,许多数据分析变得非常困难,特别是随着维度的增加,数据在它所占据的空间中越来越稀疏。对于分类,这可能意味着没有足够的数据对象来创建模型,将所有可能的对象可靠地指派到一个类;对于聚类,点之间的密度和距离的定义(对聚类而言是至关重要的)失去了意义,这就是“维灾难”。

如此庞大的信息量已经远远超过了人脑可以驾驭的范围,传统的人工处理方法已经无法处理和利用如此大规模的海量、高维数据,更无法快速、准确地从中获取有用知识,传统的数据库技术和数据处理手段也已经不能满足要求。由于人们迫切需要将这些数据转换成有用的信息和知识,所以如何从海量、高维数据中快速提取有用信息已成为亟待解决的问题之一。正是基于这样的需求,数据挖掘技术受到了广泛关注,并得以快速发展。