一种基于对齐自纠正的鲁棒跨模态检索方法技术

技术编号：36465289 阅读：12 留言：0更新日期：2023-01-25 23:05

本发明专利技术公开了一种基于对齐自纠正的鲁棒跨模态检索方法，该方法包括：提取视觉特征与文本特征；将视觉特征与文本特征输入跨模态检索网络中做深度融合；使用多任务训练模型进行预热；使用预热后的模型计算所有样本对的损失；对损失数值拟合贝塔混合模型；利用贝塔混合模型对数据中对齐标签进行自纠正；使用新标签训练模型至收敛得到跨模态检索模型。本发明专利技术提出的鲁棒跨模态检索方法，能够通过损失分布自适应地纠正跨模态检索中错误的数据，提高了在噪声监督下的跨模态检索性能。在噪声监督下的跨模态检索性能。在噪声监督下的跨模态检索性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对齐自纠正的鲁棒跨模态检索方法

[0001]本专利技术涉及多媒体信息处理领域，具体涉及一种基于对齐自纠正的鲁棒跨模态检索方法。

技术介绍

[0002]跨模态检索是给定一个模态的查询词去查询另外一个模态的语义匹配样本。随着互联网技术的蓬勃发展和智能设备的普及与国内外购物软件与通讯软件等移动端App的流行，多媒体数据在数量爆炸式增长，多媒体数据的激增带来了大量的跨模态检索的需求，目前使用文字去检索想购买的目标商品和检索图片与视频的需求已经相当普遍。经过研究发现，目前方法在训练数据带有噪声时，例如：图文不匹配，性能会大幅下降。
[0003]跨模态检索一般可通过两种方式实现。第一种是通过对比学习最小化负例之间相似度，最大化正例之间相似度，但当正例是不匹配的样本时，模型仍然会错误地最大化正例之间的相似度。第二种是通过图文匹配任务进行二分类，对匹配的样本分类为1，不匹配的样本分类为0，但错误的标签也会降低模型的训练效果。所以需要设计一种鲁棒的跨模态检索方法，其在噪声数据存在时，仍然可以保持较好的检索性能。

技术实现思路

[0004]本专利技术的目的在于提出一种基于对齐自纠正的鲁棒跨模态检索方法，结合多任务训练提高模型鲁棒性，利用贝塔混合分布对样本损失进行建模并对标签进行修正，以应对在噪声数据存在情况下鲁棒的模型训练需求。
[0005]实现本专利技术目的的技术解决方案为：第一方面，本专利技术提供一种基于对齐自纠正的鲁棒跨模态检索方法，包括如下步骤：
[0006]步骤1、提取视觉特征与...

【技术保护点】

【技术特征摘要】
1.一种基于对齐自纠正的鲁棒跨模态检索方法，其特征在于，包括如下步骤：步骤1、提取视觉特征与文本特征；步骤2、将视觉特征与文本特征输入跨模态检索网络中做深度融合；步骤3、使用多任务训练模型进行预热；步骤4、使用预热后的模型计算所有样本对的损失；步骤5、对损失数值拟合贝塔混合模型；继续训练跨模态检索模型，计算样本损失值属于均值较大的贝塔混合模型的后验概率并对对齐标签进行自纠正；步骤6、利用贝塔混合模型对数据中对齐标签进行自纠正；步骤7、使用新标签训练模型至收敛得到跨模态检索模型。2.根据权利要求1所述的基于对齐自纠正的鲁棒跨模态检索方法，其特征在于，所述步骤1中，提取视觉特征与文本特征的具体过程为：对于视觉文本样本(I
i
,T
i
)，利用Faster R
‑
CNN网络提取视觉模态特征向量v＝[v1,
…
v
m
]，Bert网络模型提取文本特征向量t＝[t1,
…
t
n
]。3.根据权利要求2所述的基于对齐自纠正的鲁棒跨模态检索方法，其特征在于，所述步骤2中，将视觉特征与文本特征进行拼接[v1,
…
v
m
,t1,
…
t
n
]，拼接后输入跨模态检索Transformer网络T
θ
中做深度融合。4.根据权利要求3所述的基于对齐自纠正的鲁棒跨模态检索方法，其特征在于，所述步骤3中，多任务训练包括以下部分：(1)将Transformer网络T
θ
输出的全局[CLS]特征二分类，计算交叉熵损失，进行图片文本匹配任务，具体形式为：本匹配任务，具体形式为：其中，Classifier(
·
)为两层神经网络，l
BCE
为二分类损失，为全局[CLS]特征的分类预测，y
i
为当前图片文本对的对齐标签，y
i
∈{0,1}；(2)将Transformer网络T
θ
输出的<MASK>的特征进行掩码预测，计算分类损失，进行单词掩码预测任务，具体形式为：l
ML
＝
‑
E
(t,v)～D
logP
θ
(t
m
|t
\m
,v)其中，E(
·
)为取均值，(t,v)～D为对数据集D中数据采样得到图片文本对特征(t,v)，l
...

【专利技术属性】
技术研发人员：郭金一，林晓凡，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人