第四节 基于主成分分析的多点相对连通系数
前面提出的RCC指标表征了任一节点对于某一目标节点的影响,但在将此定义向多个目标节点组成的目标节点集扩展时,由于任一节点相对于各个目标点的RCC指标在数学上不是线性独立的,其总的影响系数不能简单地通过加权相加得到。
为解决此问题,可把任一节点所对应的连通关系集合表示成网络中n个节点对其影响的线性组合。这样每个节点可看作由n个属性来描述的一个对象,相应节点属性的属性值为对应的RCC值。为消除相关属性间的相互影响,可采用主成分分析的方法对其进行变换,以求得在数学上彼此独立的主成分来合成总的影响系数。
奇异值分解是主成分分析的主要工具,其实施过程如下。
假设目标节点集内有k个节点,每个节点可看作n维空间中的向量vi,则目标节点集中的所有向量可组成一个k×n的矩阵:
其中矩阵的元素vij是任一节点i对某一目标节点j的影响程度,正好可以使用前面提出的相对连通系数RCC。
将此矩阵看作观测矩阵,并转换成平均偏差形式。定义其协方差矩阵为S=AAT,其中:
对A作奇异值分解:
其中U为A的左奇异向量矩阵,∑是一拟对角矩阵:
对角线上的元素是A的奇异值,代表主成分向量中保存的连通性信息量的大小。
A的右奇异向量矩阵V是一n×n正交矩阵,其中的列向量就是与A的奇异值对应的主成分向量,依次代表了第一主成分、第二主成分等变换后的维度方向。由于矩阵是正交的,这些主成分方向都相互垂直,对应的主成分向量都是线性无关的。这样,矩阵B中那些彼此相关的向量经奇异值分解后就转换成了线性无关的主成分向量。
一个主成分向量的n个分量对应于该向量在原n维空间Rn中n个节点方向的坐标值,代表了各个节点对于整个多目标节点集在该主成分方向的影响程度。由于有多个主成分向量,因此必须把这些向量合成在一起才能得到各节点对于多目标节点集总的影响程度。这里因为各主成分对应的奇异值代表该向量中的连通性信息量的大小,因此在合成时可以用对应的奇异值作为权值进行加权累加。由于各个主成分向量是线性独立的,所以这时可以不必担心线性相关的问题。最终得到的向量的分量值代表了各节点对于多目标节点集总的影响程度,可看作前述相对连通系数概念在多目标节点集上的扩展:
根据主成分向量的权值合成针对多目标节点集的相对连通系数的流程如图3-4所示。
图3-4 基于主成分分析的针对多目标节点集的相对连通系数