一种基于对齐自纠正的鲁棒跨模态检索方法技术

技术编号:36465289 阅读:12 留言:0更新日期:2023-01-25 23:05
本发明专利技术公开了一种基于对齐自纠正的鲁棒跨模态检索方法,该方法包括:提取视觉特征与文本特征;将视觉特征与文本特征输入跨模态检索网络中做深度融合;使用多任务训练模型进行预热;使用预热后的模型计算所有样本对的损失;对损失数值拟合贝塔混合模型;利用贝塔混合模型对数据中对齐标签进行自纠正;使用新标签训练模型至收敛得到跨模态检索模型。本发明专利技术提出的鲁棒跨模态检索方法,能够通过损失分布自适应地纠正跨模态检索中错误的数据,提高了在噪声监督下的跨模态检索性能。在噪声监督下的跨模态检索性能。在噪声监督下的跨模态检索性能。

【技术实现步骤摘要】
一种基于对齐自纠正的鲁棒跨模态检索方法


[0001]本专利技术涉及多媒体信息处理领域,具体涉及一种基于对齐自纠正的鲁棒跨模态检索方法。

技术介绍

[0002]跨模态检索是给定一个模态的查询词去查询另外一个模态的语义匹配样本。随着互联网技术的蓬勃发展和智能设备的普及与国内外购物软件与通讯软件等移动端App的流行,多媒体数据在数量爆炸式增长,多媒体数据的激增带来了大量的跨模态检索的需求,目前使用文字去检索想购买的目标商品和检索图片与视频的需求已经相当普遍。经过研究发现,目前方法在训练数据带有噪声时,例如:图文不匹配,性能会大幅下降。
[0003]跨模态检索一般可通过两种方式实现。第一种是通过对比学习最小化负例之间相似度,最大化正例之间相似度,但当正例是不匹配的样本时,模型仍然会错误地最大化正例之间的相似度。第二种是通过图文匹配任务进行二分类,对匹配的样本分类为1,不匹配的样本分类为0,但错误的标签也会降低模型的训练效果。所以需要设计一种鲁棒的跨模态检索方法,其在噪声数据存在时,仍然可以保持较好的检索性能。

技术实现思路

[0004]本专利技术的目的在于提出一种基于对齐自纠正的鲁棒跨模态检索方法,结合多任务训练提高模型鲁棒性,利用贝塔混合分布对样本损失进行建模并对标签进行修正,以应对在噪声数据存在情况下鲁棒的模型训练需求。
[0005]实现本专利技术目的的技术解决方案为:第一方面,本专利技术提供一种基于对齐自纠正的鲁棒跨模态检索方法,包括如下步骤:
[0006]步骤1、提取视觉特征与文本特征;
[0007]步骤2、将视觉特征与文本特征输入跨模态检索网络中做深度融合;
[0008]步骤3、使用多任务训练模型进行预热;
[0009]步骤4、使用预热后的模型计算所有样本对的损失;
[0010]步骤5、对损失数值拟合贝塔混合模型;继续训练跨模态检索模型,计算样本损失值属于均值较大的贝塔混合模型的后验概率并对对齐标签进行自纠正;
[0011]步骤6、利用贝塔混合模型对数据中对齐标签进行自纠正;
[0012]步骤7、使用新标签训练模型至收敛得到跨模态检索模型。
[0013]第二方面,本专利技术提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法的步骤。
[0014]第三方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法的步骤。
[0015]本专利技术与现有技术相比,其显著优点在于:(1)本专利技术利用多任务训练,有效缓解
了Transformer模型对噪声过拟合速度过快问题,为进行标签纠正扩大了时间窗口;(2)本专利技术利用贝塔混合模型,对跨模态检索中数据进行自适应聚类与标签纠正,提高了模型在噪声数据监督下的检索性能。
[0016]下面结合附图对本专利技术做进一步详细的描述。
附图说明
[0017]图1为本专利技术基于对齐自纠正的鲁棒跨模态检索方法流程图。
[0018]图2为本专利技术基于对齐自纠正的鲁棒跨模态检索方法网络框架图。
[0019]图3为本专利技术在40%噪声的Flickr30K数据集上拟合贝塔混合模型的可视化图。
[0020]图4为本专利技术在40%噪声的Flickr30K数据集上的训练集可视化图。
具体实施方式
[0021]如图1、图2所示,一种基于对齐自纠正的鲁棒跨模态检索方法,提取视觉特征与文本特征;将视觉特征与文本特征输入跨模态检索网络T
θ
中做深度融合;使用多任务训练模型进行预热;使用预热后的模型T
θ
计算所有样本对的损失;对损失数值拟合贝塔混合模型B;利用贝塔混合模型对数据中对齐标签进行自纠正;使用新标签训练模型至收敛得到跨模态检索模型。本专利技术使用Transformer模型作为基本模型进行模态间充分融合,结合多任务训练与图片噪声标签学习技术,提高了在噪声干扰下跨模态检索模型性能。下面对本专利技术步骤进行详细说明:
[0022]步骤1、提取视觉特征与文本特征:
[0023]对于视觉文本样本(I
i
,T
i
),利用Faster R

CNN网络提取视觉模态特征向量v=[v1,

v
m
],Bert网络模型提取文本特征向量t=[t1,

t
n
]。
[0024]步骤2、使用多任务训练模型进行预热:
[0025]将视觉特征与文本特征输入跨模态检索网络T
θ
中做深度融合具体过程为:将视觉特征与文本特征进行拼接[v1,

v
m
,t1,

t
n
],拼接后输入跨模态检索Transformer网络T
θ
中做深度融合。
[0026]步骤3、使用多任务训练模型进行预热:
[0027](1)将Transformer网络T
θ
输出的全局[CLS]特征二分类,计算交叉熵损失,进行图片文本匹配任务,具体形式为:
[0028][0029][0030]其中,Classifier(
·
)为两层神经网络,l
BCE
为二分类损失,为全局[CLS]特征的分类预测,y
i
为当前图片文本对的对齐标签,y
i
∈{0,1}。
[0031](2)将Transformer网络T
θ
输出的<MASK>的特征进行掩码预测,计算分类损失,进行单词掩码预测任务,具体形式为:
[0032]l
MLM


E
(t,v)~D
log P
θ
(t
m
|t
\m
,v)
[0033]其中,E(
·
)为取均值,(t,v)~D为对数据集D中数据采样得到的图片文本对特征(t,v),l
MLM
为掩码预测损失,P
θ
(t
m
|t
\m
,v)为观测到<MASK>外的单词t
\m
与所有图片区域v后
对<MASK>单词的预测。
[0034]步骤4、使用预热后的模型T
θ
计算所有样本对的损失:
[0035]在不更新模型的前提下,使用预热后的模型T
θ
计算所有样本对的图片文本匹配任务的二分类损失。
[0036]步骤5、对损失数值拟合贝塔混合模型B:
[0037](1)首先建立含有两成分的贝塔混合模型(BMM):
[0038][0039]其中p(l本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对齐自纠正的鲁棒跨模态检索方法,其特征在于,包括如下步骤:步骤1、提取视觉特征与文本特征;步骤2、将视觉特征与文本特征输入跨模态检索网络中做深度融合;步骤3、使用多任务训练模型进行预热;步骤4、使用预热后的模型计算所有样本对的损失;步骤5、对损失数值拟合贝塔混合模型;继续训练跨模态检索模型,计算样本损失值属于均值较大的贝塔混合模型的后验概率并对对齐标签进行自纠正;步骤6、利用贝塔混合模型对数据中对齐标签进行自纠正;步骤7、使用新标签训练模型至收敛得到跨模态检索模型。2.根据权利要求1所述的基于对齐自纠正的鲁棒跨模态检索方法,其特征在于,所述步骤1中,提取视觉特征与文本特征的具体过程为:对于视觉文本样本(I
i
,T
i
),利用Faster R

CNN网络提取视觉模态特征向量v=[v1,

v
m
],Bert网络模型提取文本特征向量t=[t1,

t
n
]。3.根据权利要求2所述的基于对齐自纠正的鲁棒跨模态检索方法,其特征在于,所述步骤2中,将视觉特征与文本特征进行拼接[v1,

v
m
,t1,

t
n
],拼接后输入跨模态检索Transformer网络T
θ
中做深度融合。4.根据权利要求3所述的基于对齐自纠正的鲁棒跨模态检索方法,其特征在于,所述步骤3中,多任务训练包括以下部分:(1)将Transformer网络T
θ
输出的全局[CLS]特征二分类,计算交叉熵损失,进行图片文本匹配任务,具体形式为:本匹配任务,具体形式为:其中,Classifier(
·
)为两层神经网络,l
BCE
为二分类损失,为全局[CLS]特征的分类预测,y
i
为当前图片文本对的对齐标签,y
i
∈{0,1};(2)将Transformer网络T
θ
输出的<MASK>的特征进行掩码预测,计算分类损失,进行单词掩码预测任务,具体形式为:l
ML


E
(t,v)~D
logP
θ
(t
m
|t
\m
,v)其中,E(
·
)为取均值,(t,v)~D为对数据集D中数据采样得到图片文本对特征(t,v),l
...

【专利技术属性】
技术研发人员:郭金一林晓凡
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1