大数据征信及智能评估:征信大数据挖掘与智能分析技术
上QQ阅读APP看书,第一时间看更新

1.2.2 众包数据的消噪

因为标注数据准确率的问题,众包标注数据无法直接地应用到一些对模型推理能力有较高要求的系统中,研究者们开始探索能够以后处理的方式提升标注数据准确率的方法。缓解标注准确率过低问题的主流方案之一是利用冗余标注,即针对一个样本获得来自多个标注者的结果,随后使用多种标签聚合的方案来剔除数据中的噪声,最终选择并保留一类作为当前样本的标注结果。标注结果的冗余能降低数据样本上存在的偏差,显著提升每个数据标注结果的可靠性。

在此基础上,一种简单直接的解决方式是通过多数投票(Majority Voting)原则,即将数据样本出现频次最多的标签视为当前样本的真实标签,从而为每个数据选择一个概率学意义上可能性最高的标签,并在后续学习过程中将其视为样本的真实标签进行模型的训练。然而,该方法存在着两个典型的缺陷。首先,多数投票方法忽略了标注者个人的认知与偏好对于标注结果的影响,无法利用标注者与样本之间的映射信息;其次,多数类投票很难对每个样本的难度与其他关键特征进行显式建模,对于具体的数据特征不够敏感。随着研究的不断深入,其他类型的方法也逐渐被提出。总体而言,用于消噪的方法可以分为基于EM、基于带噪学习与基于主动学习三类。

(1)基于EM的方法

与多数投票方法不同,EM是一种迭代的算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。在众包任务上,EM算法允许迭代地训练一个概率模型,同时对每个标注者的错误率或标注偏好等特性进行参数估计。

EM算法被广泛应用于具有无法观测的隐变量的参数模型中。由于参数模型的隐变量不能直接观测,无法直接使用极大似然估计等方法直接求得参数的解析值,EM算法通过迭代的方式不断逼近参数的真实解。在每一轮迭代中,EM算法都由计算期望(E-step)与最大化(M-step)构成。在计算期望过程中,利用目前已经观测到的变量估计值,计算其最大似然估计值;在最大化过程中,通过算得期望的估计值对隐变量的参数进行更新。更新后的参数将用于下一轮迭代中的期望计算。

在20世纪70年代,Dawid和Skene首先提出在众包等未知数据真实标签的情况下,可以应用概率模型,基于EM方法来联合建模标注者的标注能力与样本的真实标签(25),由于EM方法能够充分利用数据的冗余性与标注者与数据间的映射关系,在后续的几十年中被广泛研究(26)(27)。Whitehill等(28)提出了通过统一的概率模型来对图像所属的标签类型、图像分类难度与标注者的专业程度进行推断,并证明了基于EM的模型对于对抗攻击与标签噪声具有鲁棒性。

近年来,Karger等提出了众包数据上的消息传递方法(29),并论证了在二分类的众包任务上,当每个样本的冗余标注数量超过一个阈值后,基于EM的方法将严格优于多数投票方法;Liu等(30)将任务转换为图模型中的推理任务,使用信念传播(Belief Propagation)与平均场(Mean Field)对多数投票和EM方法进行了推广,发现对标注者的参数初始化会在很大程度上影响EM模型的最终精度。在此基础上,Platanios提出了一个端到端的框架(31),在EM的E-step基于参数更新样本的估计标签,并在M-step通过最大化期望函数的方式来同时学习数据的困难度(Difficulty)向量,以及标注者的竞争力(Competence)向量,最终用两者的矩阵乘积表示特定标注者对特定数据的混淆矩阵。该方法能够同时对样本与标注者进行评估,在综合考虑整体众包标注质量时十分有效。

虽然在实践中已经证明,EM在冗余度超过某个阈值后,其性能会显著优于多数投票方法,然而同时,实际生活中对于一个数据样本进行冗余标注所需要的成本很高,时常无法获得支持EM进行有效迭代与更新的冗余量。随后,研究者们开始探索样本冗余度与EM方法应用的相关性,及在低冗余度下对EM方法进行改善,从而提升其适应能力。Sheng等人在其研究中(32)指出,冗余标注的必要性本质上取决于获得数据与标注数据的成本差异,即由众包发起者根据不同的任务自行配置,如图1.2.3所示。Ipeirotis等(33)与Lin等人(34)都认为,在标注者的准确率低于某个阈值时,冗余标注才是严格必要的;同时最终推理模型的准确率也与所选用基分类器的精度上限有关。Khetan等人(35)则认为,出于标注成本的考虑,在实际标注场景中数据的冗余度很难达到3甚至5,极端情况下,当冗余度只有1(即每条数据只由一个标注者进行标注)时,由EM算法估计得到的标注者质量将完全相等,从而失去了应用价值。

图1.2.3 Sheng等人在小规模数据上进行的探究实验,不同曲线表示不同的标注准确率(q),横轴为标注样本数量,竖轴为最终模型准确率。在特定情况下,“低准确度+大量标注数据”的组合可以胜过“高准确度+少量标注数据”的组合,说明了冗余标注的有效性。(36)

(2)基于带噪学习的方法

带噪学习方法(37)也常被用于众包数据的消噪。在该场景下,研究者们假设数据的冗余标签由一个与其真实标签相关的错误率产生。带噪样本可以通过预设样本权重、调整训练过程,以及使用对噪声鲁棒的损失函数(38)来进行筛选与自适应地进行降权或删除。近年来,Natarajan等人(39)研究了在均匀分布噪声下的二分类问题,提出了两种噪声鲁棒的损失函数,并在随机噪声分布下分析论证了该方法的性能下限;Jindal等人(40)提出了使用一个正则化的Dropout层来缓解数据中的噪声问题。

Guan等(41)研究了如何充分利用每个标注者的信息,并通过对每个标注者进行单独建模,最后通过加权方式来获得推测的数据真实标签分布。虽然该方法的思路与本书后续提出的多源数据决策级融合方法较为一致,但前者仅仅利用了每个标注者的信息,没有通过标注者信息之间的传递与交互以提升最终的精度。

除了上述方式之外,也有研究利用现有的深度学习能够通过梯度下降等方式自动收敛到合适参数,从而剔除部分较为明显噪声的特性,从模型结构出发,尝试设计能够提取表示能力强的共有特征的方法,深度残差网络ResNet(42)是其中的一个典型,如图1.2.4所示。

图1.2.4 ResNet中的一个块(Block)结构(43)

ResNet由数十层甚至上百层的特征提取块(Block)构成,每一个块都具有独立的特征提取能力,以所提取特征与上一个块的特征输出直接加和作为当前块的输出。直接加和的过程称为残差连接(Residual Connect)。在设计时,数十层块的参数自开始到结束逐渐收缩,从而起到提取更为抽象的共性特征的作用。特别地,在书中所提出的34层ResNet典型结构中,除去输入与输出层外,剩余的32层块参数自下而上被打散为512、256、128与64四种,从而实现提取精细化特征(隐层数量512)到提取抽象高维特征(隐层数量64)的目的。由于特征更加抽象、有限的表达向量中仅能存储具有共性的数据特征,因此具有隐层收缩特点的深度模型对于数据噪声具有一定的适应能力。

(3)基于主动学习的方法

主动学习(Active Learning)(44)是机器学习的一个子领域,是通过一些人为设计的技术手段或数学方法来降低人工标注成本的重要手段之一,旨在通过对机器学习的过程采取人工参与和干预,以筛选出合适的候选集加入训练集,或进一步提供人工标注的方法,在只能获取少量有标注数据的场景下被广泛使用(45)

根据主动学习介入标签标注的阶段不同,也可以分为标注时学习与标注后学习。图1.2.5展示了标注时使用主动学习进行数据挑选的迭代式流程:对于输入的样本,使用一个模型或是规则来判断当前样本加入训练集后,能为后续应用带来预期多少的收益,并根据预期收益大小来选择显示给标注者的数据。除此以外,也有研究使用推理模型直接判断样本分类的困难程度,并挑选模型认为较难的数据分发给标注者。

图1.2.5 在标注过程中引入主动学习来挑选样本(46)

具体而言,主动学习挑选样本的经典策略可以分为以下两类。

第一,随机采样策略(Random Sampling, RS)。在未被标注的数据样本中以随机的方式挑选下一批将被标注的数据。

第二,不确定性策略(Uncertainty Sampling, US)。如上文所述,该策略假设分类器对于自身分类置信度越低的样本具有越高的困惑度,从而这些样本对训练当前分类器能够提供更加丰富的信息,因此使用分类器直接将低置信度分发给标注者。

在众包数据消噪的任务中,主动学习不仅被用来阶段性评估数据样本的真实标签,也适用于添加噪声鲁棒的损失函数,或设计消噪的训练过程。该方法的应用基于一个潜在的共识,即标注任务中每个数据都有一定的多样性,导致其标注难度不同。因此,在使用主动学习的同时,这些方法仍然会主动保留EM形式的迭代过程,以确保在未见数据上的泛化能力。较为典型的是,Khetan等(47)在众包数据的每轮迭代过程中,同时保留数据中的高置信度标签,并筛除低置信度的标签,在每轮迭代中仍使用EM来评估未被标记数据的参数。