一种面向多模态检索的自适应半配对询问哈希方法技术

技术编号:39674722 阅读:10 留言:0更新日期:2023-12-11 18:41
本发明专利技术提出了一种面向多模态检索的自适应半配对询问哈希方法,其步骤为:对训练数据集中成对的图像样本和文字样本分别进行预处理;联合执行投影学习

【技术实现步骤摘要】
一种面向多模态检索的自适应半配对询问哈希方法


[0001]本专利技术涉及多模态哈希检索的
,尤其涉及一种自适应的半配对多模态哈希检索的方法


技术介绍

[0002]目前,社交网络中的多媒体数据持续以惊人的速度快速增长,使得信息搜索遇到前所未有的巨大挑战

哈希作为一种有效的表示技术,以其低存储

高效等优点在信息检索

推荐和计算机视觉等领域发挥着重要作用

哈希方法的目标是将高维数据映射成一串紧凑的二进制代码

通过快速异或
(XOR)
运算来加速大规模数据中的近似最近邻
(ANN)
搜索

早期的先驱者专注于图像搜索并提出了各种单模态哈希方法

单模态哈希广泛应用于图像搜索应用并取得令人满意的表现

[0003]然而,单模态哈希主要目的是处理单一模态数据,对于多模态应用程序来说是棘手的

在实际目标搜索任务中,目标对象通常由来自不同方面的成对多模态数据来表征

例如,微信朋友圈中的一张图片往往附有相关的文字描述

由于不同媒体之间具有高度的相关性,因此支持跨不同模态相似性度量的新兴需求受到关注

跨模态哈希方法拟实现以一种模态作为查询从数据库中检索其他模态的搜索任务

然而,现有的单模态哈希和跨模态哈希在编码阶段无法直接对成对的多模态数据进行编码

[0004]最近,一些研究者致力于研究带有多种模态特征的多模态样本的哈希编码方法

一种直观的方式是扩展单模哈希,将多模态数据简单拼接为统一的高维特征来处理

然而,这种处理方式造成了棘手的维数灾难和信息冗余

为了克服这一问题,多模态哈希方法应运而生,将异构多模态数据点转换成一串统一的二进制编码

如多特征哈希
(Multiple Feature Hashing

MFH)、
多视图潜在哈希
(Multi

view Latent Hashing

MVLH)、
多视图对齐哈希
(Multiview Alignment Hashing

MAH)、
深度多模哈希
(Deep Multi

modal Hashing

SIDMH)
和哈达玛矩阵引导的多模哈希
(Hadmard matrix

Guided Multi

modal Hashing

HGMH)。
这些方法利用多模态数据的互补性来学习它们的联合哈希码,可以很容易地为具有成对模态的查询数据生成哈希码

但仍存在未解决的问题:在数据编码阶段,并不能确定所有样本都有完全配对的模态

针对有部分模态缺失的样本,现有模型的哈希编码能力有限,在解决不成对模态数据的联合编码问题方面却鲜有尝试

[0005]单模态哈希旨在仅包含单一模态的数据集上实现哈希搜索

单模态哈希方法分为数据独立方法和数据依赖方法

具有代表性的数据独立方法包括局部敏感哈希
(Locality

sensitive Hashing,LSH)、
核化局部敏感哈希
(Kernelized Locality Sensitive Hashing,KLSH)、
平移不变核哈希
(Shift

invariant Kernel Hashing,SIKH)


数据独立方法需要较长的编码长度才能保持较高的性能,增加了内存消耗和存储成本

通常,与数据独立方法相比,数据依赖方法更受欢迎,具有更好的检索精度

迭代量化
(Iterative Quantization,ITQ)
是一种经典的数据依赖哈希方法,通过学习零中心化后的数据的正交旋转矩阵,降低了从数据空间到二元超立方体空间过程的量化误差

有监督离散哈希算法
Multi

modal Hashing,HGMH)
联合执行子空间学习和目标特征学习来获得一个判别性和统一性的哈希函数

[0008]尽管上述方法取得了很大的进步,但是忽视了训练数据和测试数据之间的差异,这提供潜在的改进动机

从训练阶段学习到的硬化哈希函数并不适用于所有查询

因此,近年来研究了具有动态查询码的多模态哈希方法

具有动态查询自适应的在线多模态哈希
(Online Multi

modal Hashing with Dynamic Query

adaption,OMH

DQ)
利用多模态信息的互补性和以成对的语义标签作为监督信息来学习鲁棒的哈希函数

自适应多模态融合哈希
(Adaptive Multi

modal Fusion Hashing,AMFH)
引入哈达玛矩阵为特定类生成哈希中心,并诱导具有相同类的样本在汉明空间中靠近其类中心点

上述方法根据查询内容的变化自适应地获取融合多个模态信息的查询哈希码,以捕获多模态数据中的模态差异

[0009]多模态检索有别于传统的图像检索,传统的图像检索应用中一个样本就仅仅是一张图片,然而多模态检索中一个实例样本包含了图片

文字等多模态信息

[0010]因此,多模态哈希能够将异构的多模态数据转化为联合的二进制编码串

由于其具有低存储成本

快速的汉明距离排序的优点,已经在大规模多媒体检索中受到了广泛的关注

现有的多模态哈希方法假设所有多模态数据是完全配对的并且能够根据训练阶段学习到的哈希函数获得其联合哈希特征

然而,在实际搜索应用中不能保证所有数据都是完全配对的情况,此类多模态哈希方法在编码阶段不能很好地处理半成对的多模态样本

目前,很少有工作能够同时为非成对的模态数据和具有成对模态数据的询问样本生成哈希编码提供有效的方案


技术实现思路

[0011]针对多模态哈希检索应用中某些模态信息缺失的实例样本的哈希编码技术问题,本专利技术提出一种面向多模态检索的自适应半配对询问哈希方法,结合了投影学习

跨模态重构学习和多模态融本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向多模态检索的自适应半配对询问哈希方法,其特征在于,其步骤如下:步骤一:训练阶段:对训练数据集中成对的图像样本和文字样本分别进行预处理,得到图像模态和文本模态的特征矩阵;步骤二:对图像模态和文本模态的特征矩阵联合执行投影学习

跨模态重构学习

多模态融合学习和语义保持哈希学习来学习获得判别性的哈希映射函数,并获得跨模态重构矩阵;步骤三:对新到达批量的询问样本进行预处理得到各个模态的核特征,若询问样本仅含有图像或仅含有文本,则通过训练学习得到的跨模态重构矩阵来补全缺失的模态特征;步骤四:编码阶段:将补全后成对的多模态特征矩阵输入到哈希映射函数,获得询问样本的哈希编码矩阵;采用自加权融合策略更新哈希映射函数中的模态加权系数,并获得批量询问样本的哈希编码特征矩阵,多次迭代后输出最优的哈希编码矩阵;步骤五:检索阶段:将询问样本划分为询问集和检索集,通过哈希码计算询问集中询问样本与检索集的汉明距离,选择汉明距离最近的几个样本作为检索结果
。2.
根据权利要求1所述的自适应的半配对多模态哈希检索方法,其特征在于,所述步骤一中进行预处理的方法为:训练数据集由
n
个图像

文本的样本组成,图像集和文本集分别由和表示,其中,第
i
个图像样本和第
i
个文字样本相对应,且
d
x
≠d
y
;标签矩阵
L

[l1,

,l
n
]∈R
r
×
n
,
其中,
r
表示训练数据集中的类别数;第
i
个标签
l
i

[l
i1
,

,l
ir
]
T
∈R
r
,当第
i
个样本被划分为第
j
个类别时则标签
l
ij
=1,否则
l
ij
=0;采用径向基函数核来获取图像特征和文本特征
,
即第
m
个模态中的第
i
个样本的核特征为其中,
σ
m
是第
m
个模态对应的核宽;表示第
m
个模态中的第
i
个样本的原始特征,
A
(m)
表示从第
m
个模态中随机选择的锚点样本集;使用
X1和
X2分别表示经过核化计算后的图像模态和文本模态的特征矩阵
。3.
根据权利要求1或2所述的自适应的半配对多模态哈希检索方法,其特征在于,所述步骤二的实现方法为:首先分别将图像模态和文本模态的特征矩阵投影到低维的子空间得到文本特征矩阵和图像特征矩阵;然后在子空间中,文本特征矩阵可被图像样本的低维特征重构,图像特征矩阵也能被文本样本的低维特征重构;最后,图像模态和文本模态的特征矩阵被加权融合获得联合的哈希特征,同时在离散的汉明空间中保留了样本间的语义结构性

将上述过程转换成一个联合的目标优化问题;采用交替优化的方式求解目标优化问题的目标函数,得到最优的优化参数列表,从而获得判别性的哈希映射函数
。4.
根据权利要求3所述的自适应的半配对多模态哈希检索方法,其特征在于,所述哈希映射函数为:其中,分别是图像特征矩阵和文本特征矩阵,
α1和
α2分别为图像和文本的加权系数,
W1和
W2分别表示图像子空间和文本子空间到汉明空间的映射矩阵,
P1和
P2分别表示图像核特征空间和文本核特征空间映射到它们对应的子空间的映射矩阵
。5.
根据权利要求4所述的自适应的半配对多模态哈希检索方法,其特征在于,所述判别性的哈希映射函数的获得方法为:所述投影学习和跨模态重建学习的过程转换为:
其中,
P
m
∈R
d
×
k

U
m
∈R
k
×
d
分别表示第
m
个模态的映射矩阵和跨模态重构基矩阵,
E
m
∈R
d
×
n
表示第
m
个模态通过投影获得的子空间特征矩阵,
λ
是平衡参数,表示矩阵的
Frobenius
范数;多模态联合哈希特征学习融合成对的图像模态和文本模态的独特属性信息,并保留多模态语义结构信息,则:其中,
W
m
∈R
c
×
d
表示将第
m
个模态从子空间转换为汉明空间的映射矩阵,
M
指的是模态数量,
B
表示联合的哈希特征矩阵,
c
为哈希编码的长度,
β
是平衡参数,
α
m
是第
m
个模态对应的融合权重的加权系数,
S∈R
n
×
n
是训练样本间的语义相似度矩阵,
t
是平滑参数;将投影学习和跨模态交叉重构学习与多模态联合哈希特征学习表述成为一个整体的优化问题为:优化问题为:其中,
...

【专利技术属性】
技术研发人员:庾骏牛志永韩闯李坤霖李祖贺陶红伟马江涛黄伟殷君茹
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1