一种基于多粒度特征融合的跨模态检索方法和系统技术方案

技术编号:35738081 阅读:23 留言:0更新日期:2022-11-26 18:40
本发明专利技术公开了一种基于多粒度特征融合的跨模态检索方法和系统,涉及图文跨模态双向检索的技术领域,所述方法包括:获取跨模态数据集,提取图像数据的图像细粒度特征和位置细粒度特征,提取文本数据的词细粒度特征;将位置细粒度特征嵌入图像细粒度特征,获得的区域细粒度特征;将所有细粒度特征输入跨模态检索模型合成一个全局粗粒度特征,并进行多粒度特征融合,获得视觉模态特征和文本模态特征;之后计算细粒度总和相似度和全局相似度,构建最终损失函数并进行优化,获得训练好的跨模态检索模型,用于跨模态检索。本发明专利技术克服了跨模态检索方法存在的异构鸿沟,同时考虑了局部区域信息和全局信息,融合了多粒度特征,提高了跨模态检索的准确率。态检索的准确率。态检索的准确率。

【技术实现步骤摘要】
一种基于多粒度特征融合的跨模态检索方法和系统


[0001]本专利技术涉及图文跨模态双向检索的
,更具体地,涉及一种基于多粒度特征融合的跨模态检索方法和系统。

技术介绍

[0002]随着深度学习技术的兴起和来自互联网的多模态数据爆发式增长,关于多模态数据与深度学习结合的研究逐渐成为近年来的研究热点。然而,图像视觉特征与文本特征本身并不存在天然联系,视觉特征往往表示为原始的像素阵列,由三通道RGB值来记录每个像素点的信息;而文本特征往往具有更高水平的含义,单个单词一般用one

hot编码来表示。这两种形式的特征可能含义相同,但特征表示却极为不同。因此,这两种模态之间存在着异构鸿沟,使得模态之间难以匹配和检索。跨模态检索的研究为上述问题提供了解决方案,它通过学习两种模态在公共子空间的特征表示,并缩小它们在公共子空间中的距离,来弥合不同模态间的异构鸿沟,从而实现跨模态检索。早期的工作通过学习一个网络,将整张图片和整段句子这种粗粒度特征嵌入到公共子空间中来实现模态间的检索。然而,粗粒度特征并不能很好的表达出局部区域细节这种高水平本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度特征融合的跨模态检索方法,其特征在于,包括:S1:获取跨模态数据集,所述跨模态数据集包含相互对应的图像数据和文本数据;S2:提取图像数据的图像细粒度特征和位置细粒度特征,提取文本数据的词细粒度特征;S3:将位置细粒度特征嵌入图像细粒度特征中,获得区域细粒度特征;S4:将区域细粒度特征和词细粒度特征输入构建的跨模态检索模型中,提取视觉模态特征和文本模态特征;S5:根据视觉模态特征和文本模态特征计算局部细粒度相似度和细粒度总和相似度;S6:根据局部细粒度相似度和细粒度总和相似度构建最终损失函数,以最终损失函数取得最小值为目标进行优化,获得训练好的跨模态检索模型;S7:将待检索的图像数据或文本数据输入训练好的跨模态检索模型中,进行跨模态检索,获得检索结果。2.根据权利要求1所述的基于多粒度特征融合的跨模态检索方法,其特征在于,所述步骤S2中,提取图像数据的图像细粒度特征和位置细粒度特征的方法为:将图像数据输入现有的目标检测网络中,提取图像数据中目标区域位置和目标框在图像数据中的坐标信息;根据目标区域位置获得图像细粒度特征I
i
;根据目标框在图像数据中的坐标信息,计算位置细粒度特征O
i
;首先计算图像数据中两个目标框之间的重叠度,计算公式为:个目标框之间的重叠度,计算公式为:个目标框之间的重叠度,计算公式为:式中,代表图像中第i个目标框与第j个目标框的重叠度,i,j∈[1,r],r表示图像数据中目标框的个数;col
ij
表示第i个目标框与第j个目标框重叠区域竖直方向的重叠长度,row
ij
表示第i个目标框与第j个目标框重叠区域水平方向的重叠长度;和分别表示第i个目标框左上角和右下角的坐标;和分别表示第j个目标框左上角和右下角的坐标;将第i个目标框与所有目标框的重叠度集合记为该目标框的位置细粒度特征O
i
,则其中,O
i
表示图像数据第i个目标框的位置细粒度特征,sum表示图像数据第i个目标框与其余所有目标框的重叠度总和。3.根据权利要求1所述的基于多粒度特征融合的跨模态检索方法,其特征在于,所述步骤S2中,提取文本数据的词细粒度特征的方法为:将文本数据输入现有的BERT网络中,提取包含上下文语义关联的词细粒度特征t
m
,m∈[1,M],其中M表示文本数据中的单词个数。4.根据权利要求2所述的基于多粒度特征融合的跨模态检索方法,其特征在于,所述步骤S3中,获得区域细粒度特征的具体方法为:
将图像细粒度特征I
i
和位置细粒度特征O
i
串联,获得区域细粒度特征:v
i
=lonear([I
i
,O
i
];θ
f
)式中,v
i
表示第i个目标区域的区域细粒度特征,I
i
表示第i个目标区域的图像细粒度特征,linear表示线性映射操作,θ
f
表示线性映射参数。5.根据权利要求3或4所述的基于多粒度特征融合的跨模态检索方法,其特征在于,所述步骤S4中,构建的跨模态检索模型包括并行的视觉模态特征提取单元和文本模态特征提取单元;视觉模态特征提取单元包括依次连接的第一transformer编码器、第一线性映射层、第二transformer编码器、第一相加点和第一归一化层;文本模态特征提取单元包括依次连接第二线性映射层、第三transformer编码器、第二相加点和第二归一化层;所述第一transformer编码器、第二transformer编码器和第三transformer编码器均有若干个transformer编码层组成,每个transformer编码层结构相同。6.根据权利要求5所述的基于多粒度特征融合的跨模态检索方法,其特征在于,所述步骤S4中,提取视觉模态特征和文本模态特征的具体方法为:对于图像模态,将区域细粒度特征输入第一transformer编码器中,处理后的输出经第一线性映射层映射为第一中间细粒度特征;将第一中间细粒度特征输入第二transformer编码器中,处理后获得第二中间细粒度特征;将第一中间细粒度特征和第二中间细粒度特征在第一加和点求和后,输入第一归一...

【专利技术属性】
技术研发人员:曹江中张桂豪
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1