一种基于锚点的无监督跨模态哈希检索方法技术

技术编号：38131641 阅读：9 留言：0更新日期：2023-07-08 09:39

本发明专利技术公开了一种基于锚点的无监督跨模态哈希检索方法，属于跨模态检索技术领域，该方法包括获取图文对训练集；初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数；根据图文对训练集中得到锚点集和批次图文对；根据锚点集和批次图文对，利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化，得到最优图像模态神经网络和最优文本模态神经网络；根据最优图像模态神经网络和最优文本模态神经网络，完成跨模态检索任务。本发明专利技术解决了跨模态哈希检索方法时间复杂度和空间复杂度偏高且二值编码不可微的问题。二值编码不可微的问题。二值编码不可微的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于锚点的无监督跨模态哈希检索方法

[0001]本专利技术属于跨模态检索
，尤其涉及一种基于锚点的无监督跨模态哈希检索方法。

技术介绍

[0002]随着互联网和多媒体技术的飞速发展，网络上迅速产生了大量的多媒体数据。跨模态检索可以从这些海量的多媒体数据中检索到人们感兴趣的知识，具有广泛的应用前景，但同时也是一个巨大挑战。不同模态的数据类型和结构上存在巨大的差异，也称为“异构鸿沟”，导致无法直接度量不同模态间的相似性，现有的跨模态检索方法大多是连续值方法，其在大规模跨模态检索中面临着计算和存储成本高的问题。
[0003]近年来，跨模态哈希学习被成功用于压缩特征尺寸和降低检索复杂度。一方面，为降低特征的存储空间，跨模态哈希学习将不同的模态映射到一个公共汉明空间中，在该空间中不同模态的数据可由二进制的编码进行表示。另一方面，为提高检索效率，样本间的相似度可以直接由汉明距离计算得到，而汉明距离可以用位运算，即异或运算，代替浮点运算进行计算。按照是否需要语义监督信息，现有的跨模态哈希学习主要可以分为有监督的跨模态哈希学习方法和无监督的跨模态哈希学习方法。有监督的跨模态哈希学习方法在良好标注的语义信息的指导下将不同的模态映射到一个公共的汉明空间中，由于具有语义信息的指导，这些方法往往可取得良好的检索效果。然而，对大规模的数据进行标注是费时且昂贵的，并且同时标注多个模态将成倍地增加标注成本。因此，无监督的跨模态哈希学习方法近年来受到国内外研究者的密切关注，此类方法可从大量易于获取的未标记数据中学习到跨模态判别信息

【技术保护点】

【技术特征摘要】
1.一种基于锚点的无监督跨模态哈希检索方法，其特征在于，包括以下步骤：S1、获取图文对训练集；S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数；S3、从图文对训练集中选择第一图文对集，并根据第一图文对集，得到锚点集；S4、从图文对训练集中选择第二图文对集，并根据第二图文对集，得到批次图文对；S5、根据锚点集和批次图文对，利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化，得到最优图像模态神经网络和最优文本模态神经网络；S6、根据最优图像模态神经网络和最优文本模态神经网络，完成跨模态哈希检索。2.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法，其特征在于，所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络；所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层；所述可微分哈希层与最后一层全连接层连接；除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数；所述可微分哈希层包括依次连接的Tanh激活函数和符号函数；所述Tanh激活函数与最后一层全连接层连接。3.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法，其特征在于，所述步骤S5具体为：S501、根据锚点集和批次图文对，采用K近邻算法计算得到图像相似度图和文本相似度图；S502、对图像相似度图和文本相似度图进行归一化，得到公共图矩阵：G
i
＝(D
i
)
‑1W
i
G
t
＝(D
t
)
‑1W
t
其中，P为公共图矩阵；G
i
为归一化后的图像相似度图；G
t
为归一化后的文本相似度图；i为图像模态标识；t为文本模态标识；D
i
为图像模态对角矩阵；D
t
为文本模态对角矩阵；(
·
)
‑1为逆阵运算；W
i
为图像模态下所有图像相似度子图；W
t
为文本模态下所有文本相似度子图；S503、计算批次图文对中跨图像和文本的相关概率：其中，为跨图像和文本的相关概率，表示图像查询文本情况下第jl个图文对的相关概率；jl为图文对编号；it为图像查询文本标识；exp(
·
)为以自然常数e为底的指数函数；cos(
·
)为余弦函数；为图像模态下第j个图像输入图像模态神经网络得到的二值表征；i为图像模态标识；j为图像编号；为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征；t为文本模态标识；l为文本编号；n为批次图文对大小，表示该批次图文对的数量；p为同批次样本编号；为文本模态下第p个样本输入文本模态神经网络得到的二值表征；
S504、根据跨图像和文本的相关概率，利用KL散度得到基于锚点图的跨模态损失：其中，为基于锚点图的跨模态损失；为文本查询图像情况下第jl个图文对的相关概率；P
jl
为公共图矩阵P中第jl个图文对所对应的元素；ti为文本查询图像标识；log为对数运算；S505、定义图三元排序损失集和文三元排序损失集，并根据图三元排序损失集和文三元排序损失集得到跨模态三元排序损失；S506、根据基于锚点图的跨模态损失和跨模态三元排序损失，得到跨模态网络损失函数：其中，为跨模态网络损失函数；为跨模态三元排序损失；θ为平衡因子；S507、以最小化跨模态网络损失函数为目标函数，采用随机梯度下降法，利用直通估计器分别对图像模态神经网络的网络参数和...

【专利技术属性】
技术研发人员：胡鹏，陆铮，孙元，彭玺，彭德中，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人