当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于锚点的无监督跨模态哈希检索方法技术

技术编号:38131641 阅读:9 留言:0更新日期:2023-07-08 09:39
本发明专利技术公开了一种基于锚点的无监督跨模态哈希检索方法,属于跨模态检索技术领域,该方法包括获取图文对训练集;初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;根据图文对训练集中得到锚点集和批次图文对;根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态检索任务。本发明专利技术解决了跨模态哈希检索方法时间复杂度和空间复杂度偏高且二值编码不可微的问题。二值编码不可微的问题。二值编码不可微的问题。

【技术实现步骤摘要】
一种基于锚点的无监督跨模态哈希检索方法


[0001]本专利技术属于跨模态检索
,尤其涉及一种基于锚点的无监督跨模态哈希检索方法。

技术介绍

[0002]随着互联网和多媒体技术的飞速发展,网络上迅速产生了大量的多媒体数据。跨模态检索可以从这些海量的多媒体数据中检索到人们感兴趣的知识,具有广泛的应用前景,但同时也是一个巨大挑战。不同模态的数据类型和结构上存在巨大的差异,也称为“异构鸿沟”,导致无法直接度量不同模态间的相似性,现有的跨模态检索方法大多是连续值方法,其在大规模跨模态检索中面临着计算和存储成本高的问题。
[0003]近年来,跨模态哈希学习被成功用于压缩特征尺寸和降低检索复杂度。一方面,为降低特征的存储空间,跨模态哈希学习将不同的模态映射到一个公共汉明空间中,在该空间中不同模态的数据可由二进制的编码进行表示。另一方面,为提高检索效率,样本间的相似度可以直接由汉明距离计算得到,而汉明距离可以用位运算,即异或运算,代替浮点运算进行计算。按照是否需要语义监督信息,现有的跨模态哈希学习主要可以分为有监督的跨模态哈希学习方法和无监督的跨模态哈希学习方法。有监督的跨模态哈希学习方法在良好标注的语义信息的指导下将不同的模态映射到一个公共的汉明空间中,由于具有语义信息的指导,这些方法往往可取得良好的检索效果。然而,对大规模的数据进行标注是费时且昂贵的,并且同时标注多个模态将成倍地增加标注成本。因此,无监督的跨模态哈希学习方法近年来受到国内外研究者的密切关注,此类方法可从大量易于获取的未标记数据中学习到跨模态判别信息,其灵活的低成本学习方式具有很高的应用价值。
[0004]无监督跨模态哈希学习主要利用图文对中成对的相关信息弥合跨模态差异,进而将不同的模态映射到一个公共的汉明空间。尽管无监督的方法取得了显著进展,然而大多方法主要利用图文对的相关性,往往忽略了多模态数据中潜在的流形结构信息。为了挖掘多模态数据中潜藏的结构信息,近年来一些基于图的跨模态哈希检索算法被提出并取得了较好的性能。但是,这些基于图的跨模态哈希检索方法需要在整个训练集上构建图矩阵,具有很高的时间复杂度和空间复杂度,其中为训练集的图文对个数、为任意点的最近邻个数。因此,现有的基于图的跨模态哈希检索算法难以高效应对大规模多模态数据。此外,由于直接优化二值编码是一个NP难题(NP

hard problem),为解决该问题,现有方法主要采用:

连续值松弛,将二值编码由连续值代替进行优化,该松弛会导致训练的目标与优化方式不一致,使得检索性能下降;

逼近二值编码,虽然该类方法的优化方式与哈希目标一致,但是在优化过程中依然存在松弛问题,即在训练过程中算法的输出依然为连续值参与优化,也同样会使检索性能退化。

技术实现思路

[0005]针对现有技术中的上述不足,本专利技术提供的一种基于锚点的无监督跨模态哈希检
索方法解决了跨模态哈希检索方法学习时间复杂度和空间复杂度偏高且二值编码不可微的问题。
[0006]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于锚点的无监督跨模态哈希检索方法,包括以下步骤:
[0007]S1、获取图文对训练集;
[0008]S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;
[0009]S3、从图文对训练集中选择第一图文对集,并根据第一图文对集,得到锚点集;
[0010]S4、从图文对训练集中选择第二图文对集,并根据第二图文对集,得到批次图文对;
[0011]S5、根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;
[0012]S6、根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态哈希检索。
[0013]本专利技术的有益效果为:本专利技术提出一种可微分哈希层,解决了跨模态哈希检索过程中学习的离散值不足的问题,该可微分哈希层能使得神经网络前向传播时采用离散方式进行计算,且可使用反向传播进行神经网络权值更新,可取得更好的检索性能;另外,本专利技术利用少量的锚点构造子图,从而指导跨模态哈希检索的学习过程,相较传统的基于图的方法,本专利技术可极大地降低时间与空间开销;本专利技术还提出一种新的三元排序损失使得在整个跨模态哈希检索过程中考虑跨模态排序,从而使得跨模态哈希检索的学习结果与跨模态哈希检索任务保持一致。
[0014]进一步地,所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络;所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层;所述可微分哈希层与最后一层全连接层连接;除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数;所述可微分哈希层包括依次连接的Tanh激活函数和符号函数;所述Tanh激活函数与最后一层全连接层连接。
[0015]上述进一步方案的有益效果为:可微分哈希层能使得神经网络前向传播时采用离散方式进行计算,且可使用反向传播进行神经网络权值更新,解决了跨模态哈希检索过程中学习的离散值不足的问题。
[0016]进一步地,所述步骤S5具体为:
[0017]S501、根据锚点集和批次图文对,采用K近邻算法计算得到图像相似度图和文本相似度图;
[0018]S502、对图像相似度图和文本相似度图进行归一化,得到公共图矩阵:
[0019][0020]G
i
=(D
i
)
‑1W
i
[0021]G
t
=(D
t
)
‑1W
t
[0022]其中,P为公共图矩阵;G
i
为归一化后的图像相似度图;G
t
为归一化后的文本相似度图;i为图像模态标识;t为文本模态标识;D
i
为图像模态对角矩阵;D
t
为文本模态对角矩阵;(
·
)
‑1为逆阵运算;W
i
为图像模态下所有图像相似度子图;W
t
为文本模态下所有文本相似度
子图;
[0023]S503、计算批次图文对中跨图像和文本的相关概率:
[0024][0025]其中,为跨图像和文本的相关概率,表示图像查询文本情况下第jl个图文对的相关概率;jl为图文对编号;it为图像查询文本标识;exp(
·
)为以自然常数e为底的指数函数;cos(
·
)为余弦函数;为图像模态下第j个图像输入图像模态神经网络得到的二值表征;i为图像模态标识;j为图像编号;为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征;t为文本模态标识;l为文本编号;n为批次图文对大小,表示该批次图文对的数量;p为同批次样本编号;为文本模态下第p个样本输入文本模态神经网络得到的二值表征;...

【技术保护点】

【技术特征摘要】
1.一种基于锚点的无监督跨模态哈希检索方法,其特征在于,包括以下步骤:S1、获取图文对训练集;S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;S3、从图文对训练集中选择第一图文对集,并根据第一图文对集,得到锚点集;S4、从图文对训练集中选择第二图文对集,并根据第二图文对集,得到批次图文对;S5、根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;S6、根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态哈希检索。2.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络;所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层;所述可微分哈希层与最后一层全连接层连接;除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数;所述可微分哈希层包括依次连接的Tanh激活函数和符号函数;所述Tanh激活函数与最后一层全连接层连接。3.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S5具体为:S501、根据锚点集和批次图文对,采用K近邻算法计算得到图像相似度图和文本相似度图;S502、对图像相似度图和文本相似度图进行归一化,得到公共图矩阵:G
i
=(D
i
)
‑1W
i
G
t
=(D
t
)
‑1W
t
其中,P为公共图矩阵;G
i
为归一化后的图像相似度图;G
t
为归一化后的文本相似度图;i为图像模态标识;t为文本模态标识;D
i
为图像模态对角矩阵;D
t
为文本模态对角矩阵;(
·
)
‑1为逆阵运算;W
i
为图像模态下所有图像相似度子图;W
t
为文本模态下所有文本相似度子图;S503、计算批次图文对中跨图像和文本的相关概率:其中,为跨图像和文本的相关概率,表示图像查询文本情况下第jl个图文对的相关概率;jl为图文对编号;it为图像查询文本标识;exp(
·
)为以自然常数e为底的指数函数;cos(
·
)为余弦函数;为图像模态下第j个图像输入图像模态神经网络得到的二值表征;i为图像模态标识;j为图像编号;为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征;t为文本模态标识;l为文本编号;n为批次图文对大小,表示该批次图文对的数量;p为同批次样本编号;为文本模态下第p个样本输入文本模态神经网络得到的二值表征;
S504、根据跨图像和文本的相关概率,利用KL散度得到基于锚点图的跨模态损失:其中,为基于锚点图的跨模态损失;为文本查询图像情况下第jl个图文对的相关概率;P
jl
为公共图矩阵P中第jl个图文对所对应的元素;ti为文本查询图像标识;log为对数运算;S505、定义图三元排序损失集和文三元排序损失集,并根据图三元排序损失集和文三元排序损失集得到跨模态三元排序损失;S506、根据基于锚点图的跨模态损失和跨模态三元排序损失,得到跨模态网络损失函数:其中,为跨模态网络损失函数;为跨模态三元排序损失;θ为平衡因子;S507、以最小化跨模态网络损失函数为目标函数,采用随机梯度下降法,利用直通估计器分别对图像模态神经网络的网络参数和...

【专利技术属性】
技术研发人员:胡鹏陆铮孙元彭玺彭德中
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1