第一部分
基础技术研究
第1章
多源多模态征信大数据融合方法
1.1 多模态融合概述
1.1.1 研究背景与意义
随着大数据时代的来临,大数据相关技术的运用已经对如今生活的各方面产生影响,包括教育、医疗、金融等领域。IBM提出目前的大数据具有“5V”的特点:数据量大(Volume)、数据质量不可控(Veracity)、数据多样(Variety)、价值密度低(Value)与增长速度快(Velocity)等,这些特点往往影响到人们充分利用数据中的信息,从而进一步影响到数据的应用。
大数据时代的数据分析工作通常涉及对多个来源、多模态数据的融合(1)。例如,同一条新闻往往会被不同的门户网站收录,并由编辑配上不同的标题、图片,并受到不同用户群体的评论。为吸引受众,编辑在事件报道标题中偶尔会夹杂倾向性的文字,如图1.1.1所示,同一事件“LV推出充气夹克”在不同媒体报道的标题中分别呈现出积极、消极与中性三种类型的描述。因此,在对事件进行总结时,往往需要综合考虑不同的标题,选择性地对多源数据进行筛选与融合,以提升数据的可信度。
图1.1.1 媒体对“LV推出充气夹克”的事件报道和配图不尽相同,为数据融合带来阻碍
此外,学者们也广泛研究了不同模态数据的应用,多模态数据的融合能够为下游系统提供更好的特征表示、服务于更多样的业务场景。微软研发的聊天机器人小冰通过对大量“图片—评论”样本对的学习,在核心对话引擎基础上添加了图片评论模块(2),从而使得日常的聊天显得生动有趣,如图1.1.2所示。在电商领域,阿里提出的“FashionBERT”动态融合了多模态的商品图片与文字描述,如图1.1.3所示,通过预训练的方式更好地实现了该领域图像特征的提取,并在开源的图文检索数据集上取得领先效果(3)。
图1.1.2 小冰学习的“图片—评论”对示例,0/1/2分别表示较差/一般/较好的图片评论(4)
图1.1.3 “FashionBERT”预训练模型通过计算向量k近邻的方式进行商品推荐(5)