大数据征信及智能评估:征信大数据挖掘与智能分析技术
上QQ阅读APP看书,第一时间看更新

1.2 多模态融合相关理论技术

1.2.1 众包标注

众包标注,与专家标注相对,旨在让发起者能够快速、大量地获得非专家标注数据,通过牺牲部分标注精度以换取标注效率。众包任务通常发布于Amazon Mechanical Turk(AMT)网络众包平台,由任务发起者在该平台上发布任务并提供数据,在完成任务价格、答题时间等众包参数的设定后,由平台定向分发给人工标注并收集答案返回给发起者,是一种分布式的问题解决机制。

图1.2.1展示了一种典型的众包工作流程。由上层的众包任务发起者提交任务到中层的众包平台;下层的众包标注者们发现该任务后,进行任务的领取与标注,并返回标注结果到众包平台;最后由标注者收集平台标注结果,进行任务结算。目前的众包平台通常也支持由众包任务发起者所提供的质检行为,即对标注结果进行质量(往往是标注的准确率、一致性等)检验,并根据质检结果动态调整后续发放给众包标注者的激励数量(通常是金钱或其他补偿性物质)。

图1.2.1 众包工作流程(24)

然而,在众包便捷高效、能够快速搭建系统的友好特性之下,其收集到的数据也存在样本噪声、标注不一致等问题。具体而言,基于众包标注数据的下游应用,其效果一般会受到以下三个方面的共同制约。

(1)标注错误

成为众包标注者并不需要专业领域的知识,其较低的门槛导致了标注过程中不可避免地出现低置信的标注结果(Uncertainty Labeling)并引入标注者个人偏见(Bias)。众包平台常见的按量付费模式也使得众包标注者倾向于标注更多样本,而非对已标注的数据进行检查,进而直接影响到下游应用的精度。

(2)标注不一致

在序列标注等边界分割类任务中,由于标注者自身认知差异,可能导致分割边界出现偏差,使得下游模型的训练过程中出现收敛速度慢、在局部最优点之间发生抖动等异常情况。图1.2.2展示了一种序列标注任务的常见不一致性问题:标注者均认为自己标注了正确的“产品”,但实际选择边界时出现了分歧。

图1.2.2 命名实体识别任务中出现的不一致性

(3)人效配置

由于大数据时代获取无标签数据成本很低,众包发起者往往拥有大量的无标签数据及有限的众包标注预算。因此,在总数据标注量有限的情况下,将少量的数据分发给全部标注者,以获得标注冗余度较高的标注数据,还是分发大量且不重复的数据,从而获得冗余度较低但数量更多的标注结果,同样会与后续的模型选择等过程联合影响到下游应用效果。