一种基于双变分自编码器的跨模态哈希检索方法技术

技术编号:38716196 阅读:10 留言:0更新日期:2023-09-08 14:59
本发明专利技术公开一种基于双变分自编码器的跨模态哈希检索方法,包括:将样本的图像信息和文本信息输入预设的特征提取网络得到原始的图像特征和文本特征;基于图像和文本模态下的特征,构建图像变分自编码器模型和文本变分自编码器模型,将图像原始特征和文本原始特征嵌入到公共隐空间中;构建损失函数,为所述特征提取网络的哈希学习提供约束。本发明专利技术在训练方式上的改进可以有效利用稀疏图中的近邻信息,不仅可以减小由于未利用全局信息引起的性能损失,同时还可以提升高相关性检索性能。同时还可以提升高相关性检索性能。同时还可以提升高相关性检索性能。

【技术实现步骤摘要】
一种基于双变分自编码器的跨模态哈希检索方法


[0001]本专利技术涉及计算机
更具体地,涉及一种基于双变分自编码器的跨模态哈希检索方法。

技术介绍

[0002]过去几十年见证了互联网上不同类型内容的快速增长。相同的事件或对象可以描述为不同种类的数据,这些数据可以称为具有异构属性的多模态数据。大量的这些多模式数据影响了人们对信息的需求以及他们在互联网上的搜索方式。跨模态检索的目的是用查询数据搜索其他不同模态的相关数据。例如,使用描述性的文本检索数据库中的相关图片。
[0003]如今,跨模态检索引起了越来越多的研究关注。跨模态检索最困难的问题是如何衡量数据不同模态特征之间的相似性,这被称为异质性差距。为了支持相似关系搜索,需要将不可比较的数据映射为可比较的特征。
[0004]迄今为止,无监督哈希方法可以根据是否利用成对信息(即训练阶段之前提供的对应关系)分为两大类。第一种类型将高级特征嵌入到潜在的汉明空间中,并限制量化损失和分布损失。虽然这种算法取得了一些令人印象深刻的结果,但它的性能远不能令人满意。为了不仅扩大哈希码的方差,而且收集更多的原始信息。第二类方法侧重保留成对信息来构造相似性约束。其中一些方法通过图结构保留了相似性信息。尽管这些工作取得了一定的突破,但该任务仍存在两个主要问题。首先,在小批量深度学习模型中基本上都存在包含预定义局部邻域信息的稠密图会得到很多冗余信息的问题,这意味着大多数临近信息是无用的,并且会误导公共汉明空间中的邻域关系,从而学习冗余哈希码。其次,以前的方法未能对观察数据的后验分布进行建模,在训练过程中仅采用相似性信息。
[0005]鉴于这些问题,我们提出了一种基于双变分自编码器的跨模态哈希检索方法。

技术实现思路

[0006]本专利技术的一个目的在于提供一种基于双变分自编码器的跨模态哈希检索方法,以解决现有技术存在的问题中的至少一个。
[0007]为达到上述目的,本专利技术采用下述技术方案:
[0008]一种基于双变分自编码器的跨模态哈希检索方法,所述方法包括:
[0009]将样本的图像模态信息和文本模态信息输入预设的特征提取网络得到原始的图像特征和文本特征;
[0010]基于图像模态下的特征和文本模态下的特征,构建图像变分自编码器模型和文本变分自编码器模型,将原始图像特征和原始文本特征嵌入到公共隐空间中;
[0011]构建损失函数,为所述特征提取网络的哈希学习提供约束。
[0012]可选地,所述预设的特征提取网络包括:为VGG16网络的前7层全连接层的图像特征提取网络,为通用语句编码器的文本特征提取网络。
[0013]可选地,所述图像变分自编码器和所述文本变分自编码器包括编码器和解码器;
所述编码器和解码器包括三层,并且在两层之间插入Leaky

Rule层和Batch

Norm层。
[0014]可选地,所述构建的损失函数包括模态内重构损失函数、模态间重构损失函数、聚类损失函数、模态对齐损失和重构一致性损失函数。
[0015]可选地,所述模态内重构损失函数为
[0016][0017]其中x
I
和z
I
分别代表图像模态下的原始特征向量和经过图像自编码器得到的连续隐空间特征向量;代表图像模态下基于原始特征分布得到的连续隐空间特征分布的近似分布,z
I
=μ
I

I

∈,其中μ
I
和σ
I
通过图像自编码器中的编码器得到,分别代表多元正态分布的均值向量和标准差向量,编码器的参数为φ
I
,为图像模态下连续隐空间下的先验分布,同样假设为正态分布;表示图像模态下隐空间特征的先验分布与后验分布的近似分布之间的Kullback

Leibler(KL)散度;表示求期望值,log(
·
)表示以自然常数为底数的对数运算,表示图像模态下,基于连续隐空间特征分布得到的原始特征分布,试验中使用图像自编码器中的解码器实现,解码器的参数为θ
I
,表示图像模态下重构出的原始特征分布的极大似然估计下限;
[0018]x
T
和z
T
分别代表文本模态下的原始特征向量和经过图像自编码器得到的连续隐空间特征向量;代表文本模态下基于原始特征分布得到的连续隐空间特征分布的近似分布,z
T
=μ
T

T

∈,其中μ
T
和σ
T
通过文本自编码器中的编码器得到,分别代表多元正态分布的均值向量和标准差向量,编码器的参数为φ
T
,为文本模态下连续隐空间下的先验分布,同样假设为正态分布;表示文本模态下隐空间特征的先验分布与后验分布的近似分布之间的Kullback

Leibler(KL)散度;表示文本模态下基于连续隐空间特征分布得到的原始特征分布,试验中使用图像自编码器中的解码器实现,解码器的参数为φ
T
,表示文本模态下重构出的原始特征分布的极大似然估计下限。
[0019]可选地,所述模态间重构损失函数形式如下:
[0020][0021][0022]可选地,所述聚类损失函数包括
[0023]模态下聚类损失函数
[0024][0025]其中,代表图像模态下第i个样本分配给第j个聚类中心的概率;表示图像模态下第i个样本属于第j个聚类中心的概率;代表文本模态下第i个样本分配给第j个聚类中心的概率;表示文本模态下第i个样本属于第j个聚类中心的概率。
[0026]可选地,所述模态对齐损失形式如下:
[0027][0028]其中||
·
||
F
为矩阵的Frobenius范数,||
·
||2为矩阵的2范数,和分别代表第i个样本经过图像模态下编码器生成的多元正态分布的均值向量和标准差向量,和分别代表第i个样本经过文本模态下编码器生成的多元正态分布的均值向量和标准差向量。
[0029]可选地,所述重构一致性损失函数形式如下:
[0030][0031]其中
[0032][0033]||
·
||为向量的模长,(
·
)
T
为矩阵或向量的转置,cos(
·
,
·
)为向量间的余弦相似度,tanh(
·
)为正切激活函数;λ、γ为预设的权重参数,n为预设的单次训练样本数量,β是一个聚类密集度超参数,β>1表示哈希码对的相似度得分需要大于1,相应地使汉明空间中的节点密集,而β<1表示哈希码对的相似度得分需要小于1,并且相应地使汉明空间中的节点稀疏,随着训练步数的增加,κ趋于无穷大可以使得正切激活函数逐渐成为取符号函数,令和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双变分自编码器的跨模态哈希检索方法,其特征在于,所述方法包括:将样本的图像模态信息和文本模态信息输入预设的特征提取网络得到原始的图像特征和文本特征;基于图像模态下的特征和文本模态下的特征,构建图像变分自编码器模型和文本变分自编码器模型,将原始图像特征和原始文本特征嵌入到公共隐空间中;构建损失函数,为所述特征提取网络的哈希学习提供约束。2.根据权利要求1所述的方法,其特征在于,所述预设的特征提取网络包括:为VGG16网络的前7层全连接层的图像特征提取网络,为通用语句编码器的文本特征提取网络。3.根据权利要求1所述的方法,其特征在于,所述图像变分自编码器和所述文本变分自编码器包括编码器和解码器;所述编码器和解码器包括三层,并且在两层之间插入Leaky

Rule层和Batch

Norm层。4.根据权利要求1所述的方法,其特征在于,所述构建的损失函数包括模态内重构损失函数、模态间重构损失函数、聚类损失函数、模态对齐损失和重构一致性损失函数。5.根据权利要求4所述的方法,其特征在于,所述模态内重构损失函数为为其中x
I
和z
I
分别代表图像模态下的原始特征向量和经过图像自编码器得到的连续隐空间特征向量;代表图像模态下基于原始特征分布得到的连续隐空间特征分布的近似分布,z
I
=μ
I

I

∈,其中μ
I
和σ
I
通过图像自编码器中的编码器得到,分别代表多元正态分布的均值向量和标准差向量,编码器的参数为φ
I
,为图像模态下连续隐空间下的先验分布,同样假设为正态分布;表示图像模态下隐空间特征的先验分布与后验分布的近似分布之间的Kullback

Leibler(KL)散度;表示求期望值,log(
·
)表示以自然常数为底数的对数运算,表示图像模态下,基于连续隐空间特征分布得到的原始特征分布,试验中使用图像自编码器中的解码器实现,解码器的参数为θ
I
,表示图像模态下重构出的原始特征分布的极大似然估计下限;x
T
和z
T
分别代表文本模态下的原始特征向量和经过图像自编码器得到的连续隐空间特征向量;代表文本模态下基于原始特征分布得到的连续隐空间特征分布的近似分布,z
T
=μ
T

T
...

【专利技术属性】
技术研发人员:赵阳李小君
申请(专利权)人:北京电子工程总体研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1