基于语义共享的深度跨模态检索方法及系统技术方案

技术编号:32660708 阅读:22 留言:0更新日期:2022-03-17 11:10
本发明专利技术公开了一种基于语义共享的深度跨模态检索方法及系统,属于多模态学习领域,该方法包括如下步骤:提取图片和文本的细粒度特征;使用共享模型学习多模态一致性表示;通过掩码预测和分类预测优化模型;基于模型进行跨模态检索。本发明专利技术采用深度自注意力网络作为基本模型,对多模态数据分别提取细粒度特征并使用共享模型在同一语义空间中学习不同模态数据的一致性表示,解决了以往跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题,通过标签预测和掩码预测多任务损失函数对共享深度自注意力网络模型进行参数学习,有效地提升了跨模态检索的精度。提升了跨模态检索的精度。提升了跨模态检索的精度。

【技术实现步骤摘要】
基于语义共享的深度跨模态检索方法及系统


[0001]本专利技术属于多模态学习领域,特别涉及一种基于语义共享的深度跨模态检索方法及系统。

技术介绍

[0002]随着多媒体数据的快速增长,单一模态的检索难以满足当下的数据分析需求,相关跨模态检索算法应运而生。现阶段的跨模态检索聚焦于拟合文本和图片间的关联,主要挑战在于如何度量数据间的内容相似性。传统的跨模态检索算法通常使用多模态数据的全局特征或者局部特征进行相似性计算并使用模态间的一致性损失进行特征约束。经研究发现,现有的跨模态检索算法问题主要为:使用模态间的一致性损失进行特征约束导致了弱模态对强模态的干扰问题,造成检索准确度难以进一步提升。
[0003]目前在跨模态检索任务中,对于样本的使用关注点从利用样本的全局信息转变到局部信息,在一定程度上提高了模型的性能,但是并未解决模态一致性损失的干扰问题。

技术实现思路

[0004]本专利技术为解决传统跨模态检索任务中一致性损失函数对模型的干扰问题,提出了一种基于语义共享的深度跨模态检索方法及系统,使用共享模型在同一语义空间中学习本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语义共享的深度跨模态检索方法,其特征在于,包括如下步骤:步骤1,提取图片和文本的细粒度特征;步骤2,使用共享模型学习多模态一致性表示;步骤3,通过掩码预测和分类预测优化模型;步骤4,基于模型进行跨模态检索。2.如权利要求1所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤1中,提取图片和文本的细粒度特征,具体为:对于文本使用双向门控循环神经网络对单词进行编码,并记录单词位置信息;对于图片使用提取区域特征的卷积神经网络提取细粒度编码,并根据区域位置计算位置信息;对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入,公式如下所示:式中以及分别表示输入图片的原始区域特征以及位置特征,ψ1,ψ2表示为全连接函数,φ为非线性映射函数,得到共享模型最终的输入。3.如权利要求2所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤2中,在模型中使用共享模型学习多模态一致性表示,具体为:使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联,具体形式如下:其中为样本i的文本或图片细粒度特征集合,作为共享模型的输入,z
i
为习得的图片或文本的多模态一致性表示。4.如权利要求3所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤3中,在模型中通过掩码预测和分类预测优化模型,包括以下步骤:(1)使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:其中y
i
为样本标签,N为样本数量,g为分类器,分别为图片和文本的多模态一致性表示;(2)对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为:式为:式为:其中m为掩码区域的索引值,v
i
、w
i
分别表示第i个图片以及文本实例,分别为图
片和文本掩码的区域信息和单词信息,分别表示图片和文本中被掩码区域的上下文信息,gv,gw分别为图片以及文本的分类器,目的是希望通过掩码区域的上下文信息对掩码区域进行预测,P
gw
,P
gv
表示对图片以及文本的掩码预测的概率,为任何凸函数,最终L2表示图片和文本基于上下文对掩码部分进行预测的损失值之和;(3)使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:L=L1+λL2其中λ为掩码损失权重。5.如权利要求4所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤3中,使用共享模型学习多模态一致性特征表示进行跨模态检索,计算通过共享模型得到图文的一致性表示的相似度,利用相似度矩阵计算归一化折损累计增益...

【专利技术属性】
技术研发人员:杨杨张初兵肖亮杨健
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1