基于去噪和动量蒸馏的跨模态检索模型构建方法技术

技术编号:39064323 阅读:13 留言:0更新日期:2023-10-12 19:57
本发明专利技术公开了一种基于去噪和动量蒸馏的跨模态检索模型构建方法,属于跨模态检索领域,方法包括:构建包含N个级联的第一模态数据编码器、以及N个级联的第二模态数据编码器的编码单元;在第i个第一、第二模态数据编码器的输出端之间设置第i自监督去噪单元,用于对第i层的原始联合特征标记依次进行加噪、解码重构,得到第i层的重构联合特征标记,i∈(1,N

【技术实现步骤摘要】
基于去噪和动量蒸馏的跨模态检索模型构建方法


[0001]本专利技术属于跨模态检索领域,更具体地,涉及一种基于去噪和动量蒸馏的跨模态检索模型构建方法。

技术介绍

[0002]随着互联网的逐步成熟、移动终端的普及、自媒体等行业的快速发展,数据的生成者不再局限于部分大型公司和企业,越来越多的用户参与到多媒体数据的创作中。在数据时代的推动下,用户对数据利用的需求越来越大,也更为复杂。跨模态检索算法可以通过一个模态(如图像)查询另一个模态(如文本),因此,具有极高的实际应用需求。预训练+微调范式在跨模态检索领域展现出巨大的能力,首先通过大规模的跨模态数据集对模型进行预训练,然后再针对不同的下游任务进行微调,通过这种训练方式显著提升了多模态任务(如图像文本检索、视频文本检索、视觉问题回答等)的性能,超越了以往的训练方法。
[0003]尽管如此,目前的技术在实际应用场景下仍具有局限性。当前主流的跨模态预训练模型一般分为单流模型和双流模型两类。单流模型通过细粒度的交互取得了较好的性能,但是巨大的计算成本会导致检索效率低下。双流模型尽管在检索效率上得到了较大的提升,但是由于缺乏不同模态之间特征的细粒度交互,往往只能取得次优的检索准确度。
[0004]跨模态检索任务通常存在着数据稀疏的问题。以图像文本跨模态检索为例,图像和文本数据中,许多样本只有部分信息,或者只有极少的图像和文本数据可用于学习。同时,随着图像文本预训练的数据集规模变得巨大,几乎不可能进行大规模的人工标注。因此,这些大规模数据本身不可避免的存在噪声。这些形式的噪声数据都会对模型训练带来极大的负面影响,如何使用包含噪声的数据集学习视觉和文本表征,如何减少噪声数据对的影响、甚至利用噪声数据对提升模型的鲁棒性,这些是与实际非常贴切且亟需解决的问题。

技术实现思路

[0005]针对现有技术的缺陷和改进需求,本专利技术提供了一种基于去噪和动量蒸馏的跨模态检索模型构建方法,其目的在于解决图像文本数据集本身存在噪声导致模型泛化能力不足的问题,以及解决单流视觉语言预训练模型推理缓慢、双流模型缺乏信息交互导致准确率较低的问题。
[0006]为实现上述目的,按照本专利技术的一个方面,提供了一种基于去噪和动量蒸馏的跨模态检索模型构建方法,包括:构建编码单元,所述编码单元包含N个级联的第一模态数据编码器、以及N个级联的第二模态数据编码器,N>1;在第i个第一模态数据编码器和第i个第二模态数据编码器的输出端之间设置第i自监督去噪单元,用于对第i层的原始联合特征标记依次进行加噪、解码重构,得到第i层的重构联合特征标记,i∈(1,N

1);构建跨模态检索模型,所述跨模态检索模型包含:设置于编码单元输出端的融合去噪单元、动量蒸馏单元和相似度计算器,以及所述编码单元和所述自监督去噪单元;以重构联合特征标记和原始
联合特征标记之间的KL散度最小为目标,构建模态交互损失,并构建包含所述模态交互损失、融合去噪损失和跨模态对比学习损失的总损失函数;以所述总损失函数收敛为目标,训练所述跨模态检索模型。
[0007]更进一步地,第一模态为文本,第二模态为图像,方法还包括:采用同义词替换、随机插入、随机交换、随机删除方式中的一种或多种方式,扩充文本样本集;采用随机遮掩从图像样本中筛选出部分图像,形成新的图像样本,以扩充图像样本集;所述训练所述跨模态检索模型包括:利用扩充后的文本样本集和图像样本集,训练所述跨模态检索模型。
[0008]更进一步地,所述第i自监督去噪单元具体用于:连接第i个第一模态数据编码器的输出和第i个第二模态数据编码器的输出,得到第i层的原始联合特征标记;采用遮掩的方式在第i层的原始联合特征标记中加入噪声,并通过轻量跨模态解码器,对包含噪声的联合特征标记进行解码重构,得到第i层的重构联合特征标记。
[0009]更进一步地,所述模态交互损失为:
[0010][0011]其中,L
msd
为所述模态交互损失,KL[]为KL散度计算函数,cat()为连接向量函数,trans()为transformer函数,w
i
为第i层第一模态数据特征向量,v
i
为第i层第二模态数据特征向量,为加噪后的第i层第一模态数据特征向量,为加噪后的第i层第二模态数据特征向量。
[0012]更进一步地,所述融合去噪单元用于:对所述编码单元最后一层输出的两个模态的数据特征标记依次进行连接、解码重构,得到两个模态的数据特征;利用两个模态的数据特征中的可见特征,预测两个模态的数据特征中的掩码特征,得到两个模态的最终数据特征。
[0013]更进一步地,所述相似度计算器用于:计算所述融合去噪单元得到的两个模态的最终数据特征之间的相似度,以输出与第一模态数据相似度最高的第二模态数据。
[0014]更进一步地,所述动量蒸馏单元用于:根据两个模态的最终数据特征分别累积对应得到的队列,修正所述相似度计算器得到的相似度。
[0015]按照本专利技术的另一个方面,提供了一种基于去噪和动量蒸馏的跨模态检索方法,利用如上所述的基于去噪和动量蒸馏的跨模态检索模型构建方法得到的训练后的跨模态检索模型,检索与第一模态数据相匹配的第二模态数据。
[0016]按照本专利技术的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的基于去噪和动量蒸馏的跨模态检索模型构建方法,或者,实现如上所述的基于去噪和动量蒸馏的跨模态检索方法。
[0017]总体而言,通过本专利技术所构思的以上技术方案,能够取得以下有益效果:
[0018](1)提供了一种基于去噪和动量蒸馏的跨模态检索模型构建方法,通过设计的去噪训练任务,在特征编码器的中期和后期进行模态交互,从而加强模态间关联的学习,提高模型检索的准确率,且具有更高效的推理速度;
[0019](2)将自然语言处理中文本数据增强算法和动量蒸馏模型相结结合,可以解决实
际应用中数据不足的问题、并缓解数据本身存在的噪声样本带来的模型过拟合影响,实验表明,两者相互配合可以有效提高模型对稀疏检索数据的鲁棒性,提升模型泛化能力;
[0020](3)对图像块进行大比例的随机掩蔽,随后使用视觉编码器对未掩蔽图像块进行编码,以此来降低编码器计算的时间复杂度和存储需求,故而可以把批次大小变得更大,进一步提高模型的鲁棒性和泛化能力;同时也支持检索数据库特征的预编码和存储,极大了扩展了在实际生活中的应用落地空间。
附图说明
[0021]图1为本专利技术实施例提供的基于去噪和动量蒸馏的跨模态检索模型构建方法的流程图;
[0022]图2为本专利技术实施例提供的基于去噪和动量蒸馏的跨模态检索模型的结构示意图;
[0023]图3为图2所示模型中自监督去噪单元的结构示意图;
[0024]图4为图2所示模型中融合去噪单元的结构示意图;
[0025]图5为图2所示模型中动量蒸馏单元的结构示意图。
具体实施方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于去噪和动量蒸馏的跨模态检索模型构建方法,其特征在于,包括:构建编码单元,所述编码单元包含N个级联的第一模态数据编码器、以及N个级联的第二模态数据编码器,N>1;在第i个第一模态数据编码器和第i个第二模态数据编码器的输出端之间设置第i自监督去噪单元,用于对第i层的原始联合特征标记依次进行加噪、解码重构,得到第i层的重构联合特征标记,i∈(1,N

1);构建跨模态检索模型,所述跨模态检索模型包含:设置于编码单元输出端的融合去噪单元、动量蒸馏单元和相似度计算器,以及所述编码单元和所述自监督去噪单元;以重构联合特征标记和原始联合特征标记之间的KL散度最小为目标,构建模态交互损失,并构建包含所述模态交互损失、融合去噪损失和跨模态对比学习损失的总损失函数;以所述总损失函数收敛为目标,训练所述跨模态检索模型。2.如权利要求1所述的基于去噪和动量蒸馏的跨模态检索模型构建方法,其特征在于,第一模态为文本,第二模态为图像,方法还包括:采用同义词替换、随机插入、随机交换、随机删除方式中的一种或多种方式,扩充文本样本集;采用随机遮掩从图像样本中筛选出部分图像,形成新的图像样本,以扩充图像样本集;所述训练所述跨模态检索模型包括:利用扩充后的文本样本集和图像样本集,训练所述跨模态检索模型。3.如权利要求1所述的基于去噪和动量蒸馏的跨模态检索模型构建方法,其特征在于,所述第i自监督去噪单元具体用于:连接第i个第一模态数据编码器的输出和第i个第二模态数据编码器的输出,得到第i层的原始联合特征标记;采用遮掩的方式在第i层的原始联合特征标记中加入噪声,并通过轻量跨模态解码器,对包含噪声的联合特征标记进行解码重构,得到第i层的重构联合特征标记。4.如权利要求1或3所述的基于去噪和动量蒸馏的跨模态检索模型构建方法,其特征在于,所述模态交互损...

【专利技术属性】
技术研发人员:凌贺飞李南希李平
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1