1.1.2 研究现状
在大数据时代的数据量急剧增加与云计算等技术带来的计算能力增强的背景下,多源数据融合的研究热度也水涨船高。在某些情况下,数据及其完整的描述并非来自同一信息源,而是有不同的来源,而这些来源分别或共同定义了该数据不同的特征维度或标签,从而被称为多源数据(Multi-source Data)(6)。同时,由于不同的数据源对数据可能具有不同的表示,导致数据呈现出复杂(Complex)、异构(Heterogeneous)等特点,将多源数据进行融合显得尤为关键。
多源数据的融合任务可以划分为数据级融合、特征级融合与决策级融合三级模型(7),分别表示在原始数据侧、数据特征侧与数据标签侧执行融合。Dasarathy信息融合模型(8)具体表述了这些融合过程的特点,见表1.1.1。
表1.1.1 Dasarathy信息融合模型的5个融合级别(9)
数据级融合旨在对重复采集的数据样本进行融合,例如多张图片的像素融合与相互补充、对多个不同位置传感器所接收信息的整合等。数据级的融合通常使用基于数理统计的方法,例如多数枚举方法、加权聚合方法、贝叶斯方法。图1.1.4展示了一种图像领域的泊松融合方法,通过将泊松方程转换为拉普拉斯方程,并使用Mean-value Coordinates求得近似解,从而实现两张图片的融合。
图1.1.4 基于泊松融合的数据级融合示例(10)
在文本领域,郭丽娟等人对多源多领域文本进行了标注,并基于标注的数据构建汉语依存句法树库,进一步丰富了汉语句法分析研究的数据多样性。值得注意的是,该成果在数据分析后发现,获得的文本数据标注一致性较低,除了需要在后续引入专家审核外,也体现了多人标注(标注冗余度)的重要性(11)。本书在后续对于数据决策级融合的分析过程中涵盖了对标注冗余度的比较分析,为该工作提供了一定的补充。
与数据级融合给定特定的目标,且与后续应用本身关联较小的特点不同,多源数据的特征级融合是影响后续应用效果的关键部分之一。在该阶段,不同来源、不同模态的异构数据经由特征提取转化为稠密的向量表示,并通过多种方式进行集成与融合。为了充分利用异构数据中的信息,多模态技术在该阶段也得到了广泛的使用。
目前常用的特征级融合方法又可根据组合的具体方法分为特征组合、特征选择与特征变换三类。特征组合与特征选择对于多来源、多模态的数据特征向量通过拼接、堆叠、加权或选优的方式进行融合,作为数据样本的新特征表示。该方法因为简单便捷、执行速度快、运行稳定等特性,常用于CTR预估等对时间要求较为严格的应用。在Google提出的用于Google Play推荐系统的Wide&Deep方法中,分别使用了基于线性模型的Wide部分对稀疏表示特征进行交叉组合,使用基于前馈神经网络的Deep部分完成低维稠密向量的表达,提升系统泛化能力。Wide与Deep两部分获得的向量表示最终通过加权的方式进行融合,从而完成对标签的学习,如图1.1.5所示。
图1.1.5 Wide & Deep方法结构(12),其输出部分使用加权的方式进行特征组合
基于特征变换的特征级数据融合方法占目前主流研究的多数,特征变换旨在将异构特征的向量表示映射到可比的新向量空间,从而辅助数据特征的融合,目前主流的特征变换方法可以分为基于模板推理、基于统计方法、基于深度学习三类。
(1)基于模板推理的特征融合方法
较为典型的模板推理特征融合方法有基于人工规则与基于优化算法两类。人工规则法通过人工预定义的规则或预建立的知识库来指导特征的融合,而基于优化算法的方法通过遗传算法、模拟退火等方法,采用启发式随机搜索的方式选择对任务精度有效的特征维度。牛丽红等提出了一种基于遗传算法的多传感器数据特征优化方法,通过一个辅助的神经网络来评估特征的表达能力,如果当下特征未达到设定的目标,则通过遗传算法对特征进行进一步的选择与优化(13),如图1.1.6所示。
图1.1.6 基于遗传算法与辅助神经网络的特征变换方法流程(14)
(2)基于统计方法的特征融合方法
在模板式的特征融合方法后,基于统计方法的特征融合成为广泛研究的对象,如贝叶斯推理方法、D-S证据推理法(15)等。与基于模板推理的方法类似,这些方法在一个任务评估工具的指导下,能够通过参数化的形式对特征进行变换与融合。其优点在于同时获得的参数化模型具有较强的解释性,且能通过有监督学习的方式自动对参数进行学习,避免了过多的人工干预。
(3)基于深度学习的特征融合方法
基于深度学习的特征融合方法在目前较为常用,它具有更强的特征抽取能力与标签泛化能力。该类方法通常使用结构复杂、具有大量参数的神经网络模型,例如:用于图像特征提取的ImageNet(16)与ResNet(17)、用于文本特征提取的BERT(18)等。
异构多源数据融合涉及的核心技术为多模态融合,即对不同数据类型(图像、文本)或是特征形态(枚举、时序、图)进行融合。在工业界已经有不少关于多模态融合在电商、医疗等特殊领域的具体应用,该技术的逐渐落地表明了多模态技术对于数据级特征的提取与融合的有效性。其中,使用预训练模型提取的特征直接进行训练不失为一个有效的方法,如图1.1.7所示。
图1.1.7 由Google提出的用于文本特征提取的预训练模型BERT(19)
最后,决策级的数据融合主要在于一致性维护与标签的噪声消除,这是由于在一些情况下,不同的数据源对于数据标签会出现相异的表述。例如,对于电影下一句模棱两可的评论,不同的评价模型可能给出“中性”与“积极”两种情感分析结果,在存储该数据样本时,通常需要将答案归纳到没有歧义的一个特定标签中。因此,决策级的数据融合通常使用人工定义的归纳规则,或是具有分类能力的概率模型与神经网络分类器完成(20)。图1.1.8展示了目前主流的基于EM(Expectation Maximization)的决策级融合方法(21),首先由同一数据的不同标签进行数据源错误矩阵与样本质量矩阵的初始化,该初始化步骤往往通过多数类投票或带权投票完成;随后,通过期望步与评估步的迭代以更新上述矩阵,从而使其收敛到更加符合实际的数值。
容易发现,通过不同数据源、不同数据模态间的相互补充、修正,能更好地从数据中提取有效信息,获得泛用性更强的特征表示。此外,研究发现,在信息的呈现与表达上,多来源、多模态数据具有更强的鲁棒性,在实际应用上更占优势(22),因此,研究多源数据的融合是必要且关键的。本章将协同学习方法应用于多源数据的决策级融合,并运用多模态技术对数据进行特征级融合,从而提升了下游模型效果,为多源数据的融合提供了一种新颖而有效的解决方案。
图1.1.8 使用基于EM方法的框架对数据源质量进行评估,在数据决策上进行融合(23)