基于去噪和动量蒸馏的跨模态检索模型构建方法技术

技术编号：39064323 阅读：13 留言：0更新日期：2023-10-12 19:57

本发明专利技术公开了一种基于去噪和动量蒸馏的跨模态检索模型构建方法，属于跨模态检索领域，方法包括：构建包含N个级联的第一模态数据编码器、以及N个级联的第二模态数据编码器的编码单元；在第i个第一、第二模态数据编码器的输出端之间设置第i自监督去噪单元，用于对第i层的原始联合特征标记依次进行加噪、解码重构，得到第i层的重构联合特征标记，i∈(1,N

全部详细技术资料下载

【技术实现步骤摘要】
基于去噪和动量蒸馏的跨模态检索模型构建方法

[0001]本专利技术属于跨模态检索领域，更具体地，涉及一种基于去噪和动量蒸馏的跨模态检索模型构建方法。

技术介绍

[0002]随着互联网的逐步成熟、移动终端的普及、自媒体等行业的快速发展，数据的生成者不再局限于部分大型公司和企业，越来越多的用户参与到多媒体数据的创作中。在数据时代的推动下，用户对数据利用的需求越来越大，也更为复杂。跨模态检索算法可以通过一个模态(如图像)查询另一个模态(如文本)，因此，具有极高的实际应用需求。预训练+微调范式在跨模态检索领域展现出巨大的能力，首先通过大规模的跨模态数据集对模型进行预训练，然后再针对不同的下游任务进行微调，通过这种训练方式显著提升了多模态任务(如图像文本检索、视频文本检索、视觉问题回答等)的性能，超越了以往的训练方法。
[0003]尽管如此，目前的技术在实际应用场景下仍具有局限性。当前主流的跨模态预训练模型一般分为单流模型和双流模型两类。单流模型通过细粒度的交互取得了较好的性能，但是巨大的计算成本会导致检索效率低下。双流模型尽管在检索效率上得到了较大的提升，但是由于缺乏不同模态之间特征的细粒度交互，往往只能取得次优的检索准确度。
[0004]跨模态检索任务通常存在着数据稀疏的问题。以图像文本跨模态检索为例，图像和文本数据中，许多样本只有部分信息，或者只有极少的图像和文本数据可用于学习。同时，随着图像文本预训练的数据集规模变得巨大，几乎不可能进行大规模的人工标注。因此，这些大规模数据本身不可避免的存在噪声。这些形...

【技术保护点】

【技术特征摘要】
1.一种基于去噪和动量蒸馏的跨模态检索模型构建方法，其特征在于，包括：构建编码单元，所述编码单元包含N个级联的第一模态数据编码器、以及N个级联的第二模态数据编码器，N＞1；在第i个第一模态数据编码器和第i个第二模态数据编码器的输出端之间设置第i自监督去噪单元，用于对第i层的原始联合特征标记依次进行加噪、解码重构，得到第i层的重构联合特征标记，i∈(1,N
‑
1)；构建跨模态检索模型，所述跨模态检索模型包含：设置于编码单元输出端的融合去噪单元、动量蒸馏单元和相似度计算器，以及所述编码单元和所述自监督去噪单元；以重构联合特征标记和原始联合特征标记之间的KL散度最小为目标，构建模态交互损失，并构建包含所述模态交互损失、融合去噪损失和跨模态对比学习损失的总损失函数；以所述总损失函数收敛为目标，训练所述跨模态检索模型。2.如权利要求1所述的基于去噪和动量蒸馏的跨模态检索模型构建方法，其特征在于，第一模态为文本，第二模态为图像，方法还包括：采用同义词替换、随机插入、随机交换、随机删除方式中的一种或多种方式，扩充文本样本集；采用随机遮掩从图像样本中筛选出部分图像，形成新的图像样本，以扩充图像样本集；所述训练所述跨模态检索模型包括：利用扩充后的文本样本集和图像样本集，训练所述跨模态检索模型。3.如权利要求1所述的基于去噪和动量蒸馏的跨模态检索模型构建方法，其特征在于，所述第i自监督去噪单元具体用于：连接第i个第一模态数据编码器的输出和第i个第二模态数据编码器的输出，得到第i层的原始联合特征标记；采用遮掩的方式在第i层的原始联合特征标记中加入噪声，并通过轻量跨模态解码器，对包含噪声的联合特征标记进行解码重构，得到第i层的重构联合特征标记。4.如权利要求1或3所述的基于去噪和动量蒸馏的跨模态检索模型构建方法，其特征在于，所述模态交互损...

【专利技术属性】
技术研发人员：凌贺飞，李南希，李平，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人