一种面向多模态检索的自适应半配对询问哈希方法技术

技术编号：39674722 阅读：10 留言：0更新日期：2023-12-11 18:41

本发明专利技术提出了一种面向多模态检索的自适应半配对询问哈希方法，其步骤为：对训练数据集中成对的图像样本和文字样本分别进行预处理；联合执行投影学习

全部详细技术资料下载

【技术实现步骤摘要】
一种面向多模态检索的自适应半配对询问哈希方法

[0001]本专利技术涉及多模态哈希检索的
，尤其涉及一种自适应的半配对多模态哈希检索的方法
。

技术介绍

[0002]目前，社交网络中的多媒体数据持续以惊人的速度快速增长，使得信息搜索遇到前所未有的巨大挑战
。
哈希作为一种有效的表示技术，以其低存储
、
高效等优点在信息检索
、
推荐和计算机视觉等领域发挥着重要作用
。
哈希方法的目标是将高维数据映射成一串紧凑的二进制代码
。
通过快速异或
(XOR)
运算来加速大规模数据中的近似最近邻
(ANN)
搜索
。
早期的先驱者专注于图像搜索并提出了各种单模态哈希方法
。
单模态哈希广泛应用于图像搜索应用并取得令人满意的表现
。
[0003]然而，单模态哈希主要目的是处理单一模态数据，对于多模态应用程序来说是棘手的
。
在实际目标搜索任务中，目标对象通常由来自不同方面的成对多模态数据来表征
。
例如，微信朋友圈中的一张图片往往附有相关的文字描述
。
由于不同媒体之间具有高度的相关性，因此支持跨不同模态相似性度量的新兴需求受到关注
。
跨模态哈希方法拟实现以一种模态作为查询从数据库中检索其他模态的搜索任务
。
然而，现有的单模态哈希和跨模态哈希在编码阶段无法直接对成对的多模态数...

【技术保护点】

【技术特征摘要】
1.
一种面向多模态检索的自适应半配对询问哈希方法，其特征在于，其步骤如下：步骤一：训练阶段：对训练数据集中成对的图像样本和文字样本分别进行预处理，得到图像模态和文本模态的特征矩阵；步骤二：对图像模态和文本模态的特征矩阵联合执行投影学习
、
跨模态重构学习
、
多模态融合学习和语义保持哈希学习来学习获得判别性的哈希映射函数，并获得跨模态重构矩阵；步骤三：对新到达批量的询问样本进行预处理得到各个模态的核特征，若询问样本仅含有图像或仅含有文本，则通过训练学习得到的跨模态重构矩阵来补全缺失的模态特征；步骤四：编码阶段：将补全后成对的多模态特征矩阵输入到哈希映射函数，获得询问样本的哈希编码矩阵；采用自加权融合策略更新哈希映射函数中的模态加权系数，并获得批量询问样本的哈希编码特征矩阵，多次迭代后输出最优的哈希编码矩阵；步骤五：检索阶段：将询问样本划分为询问集和检索集，通过哈希码计算询问集中询问样本与检索集的汉明距离，选择汉明距离最近的几个样本作为检索结果
。2.
根据权利要求1所述的自适应的半配对多模态哈希检索方法，其特征在于，所述步骤一中进行预处理的方法为：训练数据集由
n
个图像
‑
文本的样本组成，图像集和文本集分别由和表示，其中，第
i
个图像样本和第
i
个文字样本相对应，且
d
x
≠d
y
；标签矩阵
L
＝
[l1,
…
,l
n
]∈R
r
×
n
,
其中，
r
表示训练数据集中的类别数；第
i
个标签
l
i
＝
[l
i1
,
…
,l
ir
]
T
∈R
r
，当第
i
个样本被划分为第
j
个类别时则标签
l
ij
＝1，否则
l
ij
＝0；采用径向基函数核来获取图像特征和文本特征
,
即第
m
个模态中的第
i
个样本的核特征为其中，
σ
m
是第
m
个模态对应的核宽；表示第
m
个模态中的第
i
个样本的原始特征，
A
(m)
表示从第
m
个模态中随机选择的锚点样本集；使用
X1和
X2分别表示经过核化计算后的图像模态和文本模态的特征矩阵
。3.
根据权利要求1或2所述的自适应的半配对多模态哈希检索方法，其特征在于，所述步骤二的实现方法为：首先分别将图像模态和文本模态的特征矩阵投影到低维的子空间得到文本特征矩阵和图像特征矩阵；然后在子空间中，文本特征矩阵可被图像样本的低维特征重构，图像特征矩阵也能被文本样本的低维特征重构；最后，图像模态和文本模态的特征矩阵被加权融合获得联合的哈希特征，同时在离散的汉明空间中保留了样本间的语义结构性
。
将上述过程转换成一个联合的目标优化问题；采用交替优化的方式求解目标优化问题的目标函数，得到最优的优化参数列表，从而获得判别性的哈希映射函数
。4.
根据权利要求3所述的自适应的半配对多模态哈希检索方法，其特征在于，所述哈希映射函数为：其中，分别是图像特征矩阵和文本特征矩阵，
α1和
α2分别为图像和文本的加权系数，
W1和
W2分别表示图像子空间和文本子空间到汉明空间的映射矩阵，
P1和
P2分别表示图像核特征空间和文本核特征空间映射到它们对应的子空间的映射矩阵
。5.
根据权利要求4所述的自适应的半配对多模态哈希检索方法，其特征在于，所述判别性的哈希映射函数的获得方法为：所述投影学习和跨模态重建学习的过程转换为：
其中，
P
m
∈R
d
×
k
和
U
m
∈R
k
×
d
分别表示第
m
个模态的映射矩阵和跨模态重构基矩阵，
E
m
∈R
d
×
n
表示第
m
个模态通过投影获得的子空间特征矩阵，
λ
是平衡参数，表示矩阵的
Frobenius
范数；多模态联合哈希特征学习融合成对的图像模态和文本模态的独特属性信息，并保留多模态语义结构信息，则：其中，
W
m
∈R
c
×
d
表示将第
m
个模态从子空间转换为汉明空间的映射矩阵，
M
指的是模态数量，
B
表示联合的哈希特征矩阵，
c
为哈希编码的长度，
β
是平衡参数，
α
m
是第
m
个模态对应的融合权重的加权系数，
S∈R
n
×
n
是训练样本间的语义相似度矩阵，
t
是平滑参数；将投影学习和跨模态交叉重构学习与多模态联合哈希特征学习表述成为一个整体的优化问题为：优化问题为：其中，
...

【专利技术属性】
技术研发人员：庾骏，牛志永，韩闯，李坤霖，李祖贺，陶红伟，马江涛，黄伟，殷君茹，
申请(专利权)人：郑州轻工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人