智能信息融合与目标识别方法
上QQ阅读APP看书,第一时间看更新

5.1 图像聚类分割概述

聚类是指依照某一个准则将数据集划分为某几个类或簇,使得属于同一类内的数据集合具有较高的相似度,而属于不同类的数据集合具有较低的相似度,因而聚类过程的关键就是尽可能地将同类事物聚集在一起,将不同类别的数据集合尽可能地分离。聚类分析属于多元统计方法中的一种,在样本进行聚类分析的时候,在样本所属的类别和类别数目未知的情况下,该方法依据样本数据,采用数学方法来处理数据集的分类问题。聚类分析在图像处理领域,尤其在图像分割方面发挥着相当重要的作用,因而产生了许多基于聚类算法的图像分割方法。

聚类的定义:由许多数据点组成的数据集X,此数据集是一个N×d的矩阵,且X中包含的数据点xj在数据空间B中,并且表示为xj=(xj1xj2,…,xjd)∈Bxj的属性定义为数值型或枚举型的xji;若数据集X包括Nxjj=1,2,…,N)数据点作为其对象,然后把数据集X分裂为k个分割Dmm=1,2,…,k)和噪声Dn,并且当数据集X是噪声Dn与没有交集的多个分割Dmm=1,2,…,k)并集的时候,完成聚类算法,其表达式如下:

978-7-111-59317-1-Chapter05-1.jpg

数据类型包括:数据聚类矩阵和相异矩阵。数据矩阵是目标与变量组织的数据表达方式,若聚类中有N个对象xjj=1,2,…,N),且每个对象选择P个变量,则第j个对象的第i个变量的观测值表示为xji,因此,聚类中有N个对象的所有观测值组成的N×P的矩阵,即为此聚类过程的数据矩阵,其表达式见式(5-2),且第j个对象的P个变量的观测值表示为向量xJ,其表达式见式(5-3);相异度矩阵是目标与其结构的数据表达方式,若聚类数据集中的对象ij之间的相异性用一个非负数值eij)量化表示,则聚类数据集存储的N个对象的相异度矩阵,表示为一个N×N的矩阵,见式(5-4)。从式(5-4)可以看出,eij)=eji)且eii)=0;当对象ij之间越相近或相似时,eij)就趋近于零,反之当对象ij之间相距越远或不相同时,eij)的取值就越大,因此相异度矩阵可以表示出聚类数据集存储的N个对象间的相似或相异程度。

978-7-111-59317-1-Chapter05-2.jpg

完整的图像聚类过程不仅包含聚类算法本身,还包括图像的特征选择与提取以及数据集的相似度度量的计算,其图像聚类过程可用图5-1表示,从图5-1中可以反映出图像聚类过程的前两步:图像特征的选择与提取以及数据集相似度的计算会受到聚类输出反馈的影响。

978-7-111-59317-1-Chapter05-3.jpg

5-1 图像聚类过程

到目前为止,评价聚类方法的优劣还没有量化的客观标准,因而聚类方法效果的好与差主要采用以下几个标准来衡量:是否具有处理大量数据集合的能力;是否具有处理数据抗噪声的能力;是否具有处理携带间隔或嵌套的任意类型数据的能力;是否具有处理后的输出结果与数据输入的顺序无关的能力;是否具有处理多维数据的能力;在聚类过程中是否需要先验知识。