【技术实现步骤摘要】
一种基于双变分自编码器的跨模态哈希检索方法
[0001]本专利技术涉及计算机
更具体地,涉及一种基于双变分自编码器的跨模态哈希检索方法。
技术介绍
[0002]过去几十年见证了互联网上不同类型内容的快速增长。相同的事件或对象可以描述为不同种类的数据,这些数据可以称为具有异构属性的多模态数据。大量的这些多模式数据影响了人们对信息的需求以及他们在互联网上的搜索方式。跨模态检索的目的是用查询数据搜索其他不同模态的相关数据。例如,使用描述性的文本检索数据库中的相关图片。
[0003]如今,跨模态检索引起了越来越多的研究关注。跨模态检索最困难的问题是如何衡量数据不同模态特征之间的相似性,这被称为异质性差距。为了支持相似关系搜索,需要将不可比较的数据映射为可比较的特征。
[0004]迄今为止,无监督哈希方法可以根据是否利用成对信息(即训练阶段之前提供的对应关系)分为两大类。第一种类型将高级特征嵌入到潜在的汉明空间中,并限制量化损失和分布损失。虽然这种算法取得了一些令人印象深刻的结果,但它的性能远不能令人满意。为了不仅扩大哈希码的方差,而且收集更多的原始信息。第二类方法侧重保留成对信息来构造相似性约束。其中一些方法通过图结构保留了相似性信息。尽管这些工作取得了一定的突破,但该任务仍存在两个主要问题。首先,在小批量深度学习模型中基本上都存在包含预定义局部邻域信息的稠密图会得到很多冗余信息的问题,这意味着大多数临近信息是无用的,并且会误导公共汉明空间中的邻域关系,从而学习冗余哈希码。其次,以前的方法未能对观察数 ...
【技术保护点】
【技术特征摘要】
1.一种基于双变分自编码器的跨模态哈希检索方法,其特征在于,所述方法包括:将样本的图像模态信息和文本模态信息输入预设的特征提取网络得到原始的图像特征和文本特征;基于图像模态下的特征和文本模态下的特征,构建图像变分自编码器模型和文本变分自编码器模型,将原始图像特征和原始文本特征嵌入到公共隐空间中;构建损失函数,为所述特征提取网络的哈希学习提供约束。2.根据权利要求1所述的方法,其特征在于,所述预设的特征提取网络包括:为VGG16网络的前7层全连接层的图像特征提取网络,为通用语句编码器的文本特征提取网络。3.根据权利要求1所述的方法,其特征在于,所述图像变分自编码器和所述文本变分自编码器包括编码器和解码器;所述编码器和解码器包括三层,并且在两层之间插入Leaky
‑
Rule层和Batch
‑
Norm层。4.根据权利要求1所述的方法,其特征在于,所述构建的损失函数包括模态内重构损失函数、模态间重构损失函数、聚类损失函数、模态对齐损失和重构一致性损失函数。5.根据权利要求4所述的方法,其特征在于,所述模态内重构损失函数为为其中x
I
和z
I
分别代表图像模态下的原始特征向量和经过图像自编码器得到的连续隐空间特征向量;代表图像模态下基于原始特征分布得到的连续隐空间特征分布的近似分布,z
I
=μ
I
+σ
I
⊙
∈,其中μ
I
和σ
I
通过图像自编码器中的编码器得到,分别代表多元正态分布的均值向量和标准差向量,编码器的参数为φ
I
,为图像模态下连续隐空间下的先验分布,同样假设为正态分布;表示图像模态下隐空间特征的先验分布与后验分布的近似分布之间的Kullback
‑
Leibler(KL)散度;表示求期望值,log(
·
)表示以自然常数为底数的对数运算,表示图像模态下,基于连续隐空间特征分布得到的原始特征分布,试验中使用图像自编码器中的解码器实现,解码器的参数为θ
I
,表示图像模态下重构出的原始特征分布的极大似然估计下限;x
T
和z
T
分别代表文本模态下的原始特征向量和经过图像自编码器得到的连续隐空间特征向量;代表文本模态下基于原始特征分布得到的连续隐空间特征分布的近似分布,z
T
=μ
T
+σ
T
...
【专利技术属性】
技术研发人员:赵阳,李小君,
申请(专利权)人:北京电子工程总体研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。