1.1.3 研究内容
研究多源数据的融合对于大数据应用具有重要意义,本章主要针对多源数据的决策级融合方法展开算法研究,在此基础上提出了一种基于多模态技术的特征级数据融合实现方法,对数据的决策起到辅助作用。在以上工作的基础上,本书开发了一个融合上述方法的数据融合与消噪原型系统,能够完成基础的多源数据特征级融合与决策级消噪工作,具有一定的应用价值。
本章将以众包中的图像分类问题为例探究多源数据的融合,主要研究数据为cifar-10与cifar-100,共计12万张样本数据。本书模拟了不同冗余度、不同准确度的众包标注者并将其作为具有不同噪声的数据源,将其标注结果作为具有冗余标签、带噪的多源数据样本。在研究特征级数据融合时,通过基于规则与深度学习模型的方法给数据样本赋予文本信息,并以此研究多模态技术融合给数据的决策层面所带来的影响。
一类传统而有效的解决方案是将样本中的单个标注结果视为不可靠的标签,使用EM算法来对真实数据的标签进行估计,同时对每位标注者的标注质量、样本的困难度进行同步的评估。然而,EM算法要求数据的标签具有较高的标注冗余度,否则将极大地影响对标签期望的估计结果,导致参数估计出现偏差。此外,也有研究者选择将多源数据视为普通的带噪数据,使用主动学习、带噪学习等解决思路,通过对模型进行集成、添加噪声鲁棒的损失函数等方式去除其中的噪声样本,或降低具有较低置信度的样本在训练过程中的权重,从而在一定程度上完成决策级的数据融合。然而,此类方法无法充分利用甚至丢弃了数据源的信息,即无法对数据源给出一种特征层面的描述,从而影响了这些方法在决策级融合任务上的精度。针对以上研究中仍存在的缺陷,本章提出了一种基于协同学习的多源数据决策级融合方法(Co-Training with Mutual Information re-weighted Distribution, CT-MID);针对特征级的数据融合,本章研究了多模态技术在多源异构数据融合中的应用,实现了多模态数据的初步应用。
本章的总体贡献总结如下:
首先,本章提出了一种基于协同学习的决策级多源数据融合方法CTMID。方法由初始化模块、信息交互模块与信息聚合模块构成,能从多视角动态考察模型能力与数据质量,提升预测模型精度。在信息交互模块中引入标准化信息作为数据源之间的一致性度量指标,在信息聚合模块中采用多头注意力适配器实现不同视角的信息聚合。实验证明,CT-MID相较现有方法具有更强的推理能力、更低的数据敏感性与良好的一致性维护能力,在评估数据集上平均相对准确率相较同组次优基线方法提升超过1.6%与2.1%,并在高噪声数据组别中提升明显,达到3.2%与3.5%。
其次,本章基于多模态技术,通过设计并训练多种具有不同能力的多层感知机适配器,将不同模态的数据进行特征级的融合,从而对数据的决策起到正向辅助作用。实验证明,引入不同模态的信息对后续模型推理过程有着积极影响。
最后,在本章提出方法的基础上,开发了一个多源数据融合与消噪系统,初步实现了特征层面与决策层面的数据融合。该原型系统支持模型的训练、复用与扩展,能够与用户进行控制端的动态交互,提升了后续应用中的泛用性与使用时的用户体验。