大数据可视分析方法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5 实例3——EasySVM:基于可视分析方法的支持向量机的白盒分析方法

1.5.1 简介

支持向量机(SVM)是一种常用的监督学习方法,在文本分析、计算机视觉、生物信息等领域有着广泛的应用。然而不同于决策树等基于规则的分类方法,支持向量机的“黑盒”特性使得其模型训练过程和预测过程较难理解。虽然这种隐藏细节过程的特性使用户不必陷于烦琐的细节参数调整过程之中,但对于非机器学习专家的决策者来说,这种黑盒特性带来了较低的可解释性和可信度。同时,支持向量机中非线性核函数的应用使得模型能够处理复杂的非线性分类问题,但进一步增加了普通用户的理解成本,降低了可解释性,并同时增加了计算开销。

基于上述两个问题,本案例提出了一种基于“白盒”策略的支持向量机可视分析方法。该方法的目标在于:

①使用交互式可视化方法,使用户尽可能清楚地理解训练数据的分布以及模型的核心结构;

②提供一套使用多个线性支持向量机模型逼近非线性分类边界的方法;

③能够提取出模型中主要的分类模式,并将其转化为分类规则,以便于解释和传播分类结果。

1.5.2 方法概览

传统的支持向量机模型通常被当作黑盒模型,难以被理解和解释,并且其核心结构也很难直观呈现出来。图1-37展示了迭代式的可视化模型构建过程,其中包含三个主要模块。

图1-37 交互式可视化模型构建过程

(1)支持向量机的可视化构建过程

为了让用户能够快速直观地理解训练过程中所使用的训练数据,理解并探索数据分布、寻找数据中的异常值,本案例设计了一种基于正交投影的可视化方案,并同时将基于这些训练数据构建出的支持向量机模型核心结构展示在视图中。本案例还设计了一种交互式投影控制方法,可支持用户对投影角度的自由调整。

(2)局部支持向量机的可视化构建

支持向量机通常使用线性核函数来处理数据中的线性分类边界。对于非线性分类问题来说,非线性核函数是支持向量机模型中常用的一种方法。然而使用非线性核函数的模型的分类可解释性更加复杂,并且计算开销较大。这里提出了一种交互式可视分析方法,如图1-38中流程(b)所示,通过构建多个线性支持向量机,以达到逼近非线性分类边界的目的。

图1-38 流程(a):全局模型构建过程;流程(b):局部模型构建过程

(3)可视化分类规则抽取

为了解决支持向量机的分类判断标准难以向非专家用户进行解释的问题,我们设计了专门的可视化规则抽取视图(图1-39)。该视图主要使用散点图和平行坐标结合的方法,使用户能够交互式地在坐标轴上选取分类所在的区间,以生成分类规则。

图1-39 EasySVM系统界面