一种分层监督跨模态图文检索方法技术

技术编号:32645807 阅读:41 留言:0更新日期:2022-03-12 18:27
本发明专利技术公开了一种分层监督跨模态图文检索方法,所述的方法包括步骤如下:S1:构建用于提取图像特征和文本特征的特征提取网络;S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;S3:构建模态对抗网络,将图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;S4:构建哈希码生成网络,并利用哈希码生成网络约束特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据检索。本发明专利技术能实现对具有分层监督跨模态数据的检索,提升跨模态检索效率。升跨模态检索效率。升跨模态检索效率。

【技术实现步骤摘要】
一种分层监督跨模态图文检索方法


[0001]本专利技术涉及跨模态图文检索
,更具体的,涉及一种分层监督跨模态图文检索方法。

技术介绍

[0002]随着互联网和物联网的迅速发展,产生了海量有价值的多模态数据。如何在海量数据中快速高效地找到与之相关的多模态信息极其重要,这就使得跨模态检索具有了应用场景和研究意义。
[0003]现有跨模态检索方法大多针对非层次结构监督信息,无法充分挖掘到标签丰富的语义信息。然而,在许多现实应用场景中,跨模态数据的标签监督信息往往具有某种层次结构,内含丰富的语义信息。因此,构造充分挖掘分层监督信息的跨模态检索方法对信息检索领域是极其重要的。
[0004]现有技术一种基于多层语义深度哈希算法的图像

文本跨模态检索方法,通过多标签数据之间的共现关系定义数据之间的相似度,并以此作为网络训练的监督信息。设计综合考虑多层语义相似度与二值相似度的损失函数,对网络进行训练,使得特征提取和哈希码学习过程统一在一个框架内,实现端到端学习。该算法充分利用数据之间的语义相关性信息,提高了检索准确率,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分层监督跨模态图文检索方法,其特征在于:所述的方法包括步骤如下:S1:构建用于提取图像特征和文本特征的特征提取网络;S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;S3:构建模态对抗网络,将图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;S4:构建哈希码生成网络,并利用所述的哈希码生成网络约束所述的特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据检索。2.根据权利要求1所述的分层监督跨模态图文检索方法,其特征在于:所述的特征提取网络包括用于提取图像特征的第一深度神经网络、用于提取文本特征的文本提取网络;将第一深度神经网络的最后一层修改为哈希码输出层,其神经元数为哈希码长度,使用激活函数,将输出映射到

1到1之间;所述的文本提取网络包括用于向量化数据集中所有文本词袋模型,由五级并联的均值池化层构造的多尺度特征堆叠模型,所述的多尺度特征堆叠模型用于提取不同感受野下的高阶和低阶特征,其窗口大小分别为1
×
1、2
×
2、3
×
3、5
×
5、10
×
10,由三层全连接层构成的第二深度神经网络。3.根据权利要求2所述的分层监督跨模态图文检索方法,其特征在于:所述的第二深度神经网络,具体如下:第一层全连接层的网络节点数为多尺度特征堆叠模型输出维数;第二层是网络节点数为4096维的全连接层,由第二层全连接层输出初步高维特征值;第三层是节点数为哈希码长度h
t
,激活函数为Sigmoid的全连接层,即将第三层全连接层作为哈希码输出层。4.根据权利要求1所述的分层监督跨模态图文检索方法,其特征在于:所述的模态对抗网络使用E个具有三层全连接层的网络,第一个隐藏层的结点数与输入的特征维度一样;第二个隐藏层的结点数与第e层标签层的标签总数Φ
e
一致;第三层结点数为2,其激活函数是Sigmoid函数,输出为二值码,0表示图像模态,1表示文本模态;其中,E代表图像文本对的标签层数,标签层的索引自上而下为{1,2,...,E}。5.根据权利要求4所述的分层监督跨模态图文检索方法,其特征在于:所述的模态对抗网络的对抗损失使用交叉熵损失函数,定义如下所示:网络的对抗损失使用交叉熵损失函数,定义如下所示:其中,L
Adv
表示模态对抗网络总的目标函数,L
Adv_e
表示第e层标签对应的对抗损失,v
i
表示每个数据的真实标签监督信息,G(*;ε)是数据集β(i)在模态对抗网络中生成的模态概率分布,ε是模态对抗网络的参数。6.根据权利要求5所述的分层监督跨模态图文检索方法,其特征在于:所述的哈希码生
成网络包括不同标签层关联子模块,通过引入标签层内相似性损失和标签层间相关性损失,来充分挖掘每一层标签存在的内在相似度和标签层间存在的相关性;不同语义类别区分子模块,通过设计一个不同语义类别区分的总目标函数,使不同语义的模态数据在公共空间中彼此保持一定的距离,从而避免不同语义数据对检索的干扰;跨模态哈希损失子模块,将初步高维特征值转换为最优编码长度哈希码,以压缩数据维度并降低数据存储空间,实现对跨模态数据精准快速的检索。7.根据权利要求6所述的分层监督跨模态图文检索方法,其特征在于:所述的不同标签层关联子模块包括2个分支,分别是标签层内相似...

【专利技术属性】
技术研发人员:陈锐东强保华陶林郑虹孙苹苹张世豪
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1