数据挖掘实用案例分析
上QQ阅读APP看书,第一时间看更新

1.6 数据分析结果的评价

分析算法及其衍生的算法有很多,不同的算法具有不同的特点,并且在不同的数据集上表现也不一样,所以对分析结果的评价很重要,这样才能够知道在何种情况下选择何种算法,使用何种标准能达到分析的目标。

对结果进行分析时,常见的问题是容易混淆因果关系和相关性,例如,我们分析发现保养比较规律的汽车比保养维修不规律的出现意外事故的概率低,我们就认为保养规律与不发生意外事故呈现因果关系,而实际上可能是因为保养规律的驾驶人更自律,或者是其更加认真遵守交通规则,与是否发生意外事故只是相关关系。

在模型评价中容易出现主观性问题,由于数据采集或业务理解的局限,容易让分析人员认为某种方案的改进一定可以解决企业的问题,没有综合数据、业务、场景等多个维度对模型分析结果进行解读。分析报告虽然很有逻辑性,看起来很合理,但是不符合企业实际应用场景,反而对企业决策产生负面作用。所以,分析结果的评估需要业务专家参与,对结果的合理性、理解性、实用性进行评估,使其具有落地的价值。

1.6.1 分类算法的评价

对分类算法的结果评价主要有精确率(Precision)、F-Score、准确率(Accuracy)、召回率(Recall)、特效度(Specificity)、ROC(Receiver Operating Characteristic)曲线、曲线包围面积(Area Under Curve,AUC)。

上述指标涉及混淆矩阵的概念,如图1.14所示,其中总记录数Total为4217条,其中TP为13条,FP为175条,FN为3条,TN为4026条,其中,精确率(Precision)是模型精确性的度量,预测正例数占所有正例数的比例,Precision=TP/(TP+FP)=13/(13+175)= 0.07,准确率(Accuracy)是所有预测正确的记录数与总记录数之比,Accuracy=(TP+ TN)/Total=(13+4026)/(13+3+175+4026)=0.96,召回率(Recall)是模型覆盖面的度量,是表示多少个正例被识别为正例,体现了分类器对正类的识别能力,本例中,Recall= TP/(TP+FN)=13/(13+3)=0.81,特效度(Specificity)是表示所有负例被识别正确的比例,度量的是对负例的识别能力,Specificity=TN/(FP+TN)=4026/(4026+175)=0.96。

图1.14 混淆矩阵示例

图1.14中,TP(True Positive)表示样本的真实类别为正,最后预测得到的结果也为正。FP(False Positive)表示样本的真实类别为负,最后预测得到的结果却为正。FN(False Negative)表示样本的真实类别为正,最后预测得到的结果却为负。TN(True Negative)表示样本的真实类别为负,最后预测得到的结果也为负。

ROC曲线由负正类率(False Positive Rate,FPR)作为横坐标,正正类率(True Positive Rate,TPR)作为纵坐标。ROC曲线距离参考线越远,其检验的准确度越高。AUC是ROC曲线下的面积,其值越大越好。

对于不同的分析任务,可在上述指标中选择某几个作为衡量标准。例如,在疾病预测时,需要着重关注召回率,而不是精确率,因为疾病在多数情况下是正例(不患病),负例(患病)较少,两个类的样本比例差别很大的情况下,例如,100条记录中,5次发现患病,其中4次为误报,1次为识别出来,相较于全部识别为正常的精确率99%,虽然精确率降低为96%,但是Recall却由原来的0/1=0%上升到1/1=100%,虽然误报了疾病(经过复查可以排除),但是却没有遗漏错过真正患病的人群。

可以通过分析软件对分类结果进行自动化分析,例如,在SPSS Modeler中可以在生成的模型后面连接一个“分析”节点,运行它即可获得前述的各项分析结果,其属性配置及分析结果如图1.15所示。

图1.15 分析节点属性配置及分析结果

在属性选择中选中“重合矩阵”,可以显示混淆矩阵的数值,如果选中“置信度图”,则会显示置信度值报告,在评估度量中可以查看分区中训练集和测试集的AUC和Gini值。

1.6.2 聚类结果的评价

由于聚类是在没有类别标准的情况下对数据进行类簇划分,所以聚类分析结果的评价首先要由业务专家对其业务含义进行评估,通过应用到实际场景中来评价结果的好坏,看一下其区分程度。

应用散点图查看聚类结果,将聚类结果通过散点图的形式显示到二维或三维的空间中,查看各个聚类的分布情况,可以直观看到类与类之间的区分程度。例如,在SPSS Modeler中可以使用“图形板”节点可视化显示聚类中各维度变量的结果,除此之外,还有以下聚类指标。

1.RMSSTD(Root Mean Square STD)

RMSSTD表示群体中所有变量的综合标准差,RMSSTD越小表明群体内个体对象相似程度越高,聚类效果越好。

2.R Square

R Square表示聚类后群体间差异的大小,R Square越大表明不同的簇群间的相异度越高,聚类效果越好。

3.SRP(Semi Partial R square)

SRP用于凝聚层次聚类算法的评价,表示当原来两个群体合并成新群体的时候,其所损失的群内相似性的比例。一般来说,SRP越小,表明合成新的群体时,损失的群内相似性比例越小,新群体的相似性就越高,聚类效果就越好。

4.簇类间距离

簇类间距离主要用于层次聚类算法的聚类评价,表示在要合并两个细分群体时,分别计算两个群体的中心,以求得两个群体的距离。一般情况下,聚类间的距离越小说明两个聚类越适合合并成一个新的聚类。

1.6.3 关联分析的评价

关联分析中几个重要的概念分别是支持度(Support)、置信度(Confidence)、提升度(Lift)。其中,支持度是指某一项集(若干个商品的集合)出现的可能性,即support{x-> y}=Pxy),如果支持度较低,则这一项集非频繁项集,不具有研究价值。

置信度是指项集中x出现的情况下,y出现的概率,即包括x的项集中同时包括y的可能性:Confidence(xy)=Py|x)=Pxy)/Px);提升度是在包含y的项集中,同时包含x的项集比例,Lift(x-> y)=Py|x)/Py)=Confidence(x-> y)/Py)。提升度是为了弥补置信度的缺陷,主要用于分析xy之间的关联强度,值越高说明关联性越强。

1.6.4 回归分析结果的评价

回归分析结果的评价分为两部分,首先是模型指标,是对模型结构合理性和显著性进行评价。其次是回归模型中回归系数的评价指标。

模型指标包括R、R方、调整R方(Adjusted R Square)、因变量预测标准误差(Std Error of the Estimate)、总离差、自由度、平均离差(Mean Square)、F值、F值的显著性水平(Sig)、模型个例数(N),其中比较重要的是以下5个。

1.R

在模型概述表中查看,用于评价回归模型的总体表现,又称为确定性系数,表示自变量对因变量的解释程度,取值为0~1,值越大,说明解释能力越强。

2.调整R

调整R方是对R方进行修正后的值,对非显著性变量给出惩罚,没有R方的统计学意义,与实际的样本的数值无关,相较于R方,其误差较少,是回归分析中重要的评价指标,其值越大说明模型效果越好。

3.因变量预测标准误差

标识因变量的实际值与预测值的标准误差,其值越小说明模型的准确性越高,代表性越强,拟合性越好。

4.F

在方差分析表中查看,用于检测回归方法的相关关系是否显著,如果显著性水平(Sig)指标大于0.05,表示相关性较弱,没有实际意义,如果Sig指标小于0.05,但是各自变量的Sig指标均超过0.05,就需要应用t检验来查看回归系数表中各变量的显著性水平,或者是由于自变量之间出现了共线性问题,需要通过逐步回归的方法将显著性较差的自变量剔除。

5.N

N显示的是应用于模型的实际样本数量,可能有部分数据存在空值或其他异常值,导致模型的个案数少于样本数,如果发现其值较大,需要对数据重新进行预处理。

多元回归方程公式:

要求每个Xi必须是相互独立的,其中bi表示回归系数。回归系数可以从回归系数表中查看,其评价指标主要包括以下4个。

1)非标准化系数(Unstandardized Coefficients)

非标准化系数就是多元回归方程式(1.1)中的bi,表现在几何上是斜率。由于其数值与实际的自变量数值的单位,彼此之间无法进行比较,为了对非标准化系数的准确性进行衡量,使用非标准化系数误差(SER)来对样本统计量的离散程度和误差进行衡量,也称为标准误差,它表示样本平均值作为总体平均估计值的准确度,SER值越小说明系数预测的准确性越高。

2)标准化系数(Standardized Coefficients)

在多元回归分析中,由于各自变量的单位可能不一致,就难以看出哪一个自变量的权重较高,为了比较各自变量的相对重要性,将系数进行标准化处理,标准化系数大的自变量更重要。

3)t检验及其显著性水平(Sig)

t检验的值是以标准误差的单位度量观测样本统计量与假设值之间的差,t值相对越大,表示模型能以更高的精度估计系数,其Sig/p指标小于0.05,说明显著性水平较高,如果t值较小且Sig/p指标较高,说明变量的系数难以确认,需要将其从自变量中剔除,然后继续进行分析。

4)B的置信区间(95% Confidence Interval for B Upper/Lower Bound)

B的置信区间用来检验B的显著性水平,主要为了弥补t检验和其Sig值的不足,如果B的置信区间下限和上限之间包含了0值,即下限小于0而上限大于0,则说明变量不显著。在SPSS分析时,可以选择“专家”选项卡中的输入选项进入高级统计,选中“参数估计”,以显示B的95%置信区间的上限和下限。

1.6.5 深度学习的评价

深度学习的模型也可以分为监督式学习和非监督式学习两种。用于分类的深度学习模型其结果的评价与分类算法一致,以准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分值(F1 Score)为主,辅以ROC、AUC,并结合实际应用场景进行结果评价。

如果深度学习的应用方向是聚类的目的,数据源并没有进行标记,那么其模型结果的评价按照聚类算法的标准来操作,如RMSSTD、R Square、SRP等。