System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于长短映射的跨模态哈希检索方法技术_技高网

一种基于长短映射的跨模态哈希检索方法技术

技术编号:41391628 阅读:4 留言:0更新日期:2024-05-20 19:14
本发明专利技术涉及跨模态检索技术领域,公开了一种基于长短映射的跨模态哈希检索方法,包括以下步骤:建立多模态数据集,多模态数据集中包括多个由图像以及对应的文本描述组成的图像文本描述对;构建长短映射方法;构建检索模型;哈希检索;本发明专利技术通过深度学习提取多维度特征,依据多维度特征之间的相关性差异实现不同维度特征之间的映射以增强低维特征的表现能力并提升检索准确率。

【技术实现步骤摘要】

本专利技术涉及跨模态检索,具体涉及一种基于长短映射的跨模态哈希检索方法


技术介绍

1、随着互联网的普及应用,多模态数据以爆炸级的速度在互联网上增长,如何利用这些多媒体数据成为了一个热门的话题。例如,在进行文本搜索图像的任务中,传统方案对图像进行文本标注后,依据文本关键词检索出相关图片。这种做法不仅耗时耗力,而且效果并不良好、无法准确运用知识进行匹配。传统的跨模态检索算法首先将多模态数据投影到公共的子空间,然后依据数据间的临近度量来判断多模态数据是否相似,最后返回查询到的相似模态数据。

2、这些方法依据特征提取方法的不同可以将算法分为:(1)子空间方法;(2)深度学习方法。子空间方法利用投影矩阵将高维数据投影到公共空间;深度学习方法利用深度学习优秀的特征抽取能力构建公共空间。

3、另外,若依据度量空间划分,则这些方法可以划分为:(1)欧式空间度量方法;(2)汉明空间度量方法。欧式空间度量方法是将多模态数据投影到公共的欧式空间,最后用欧式空间的距离度量公式计算相关性;汉明空间度量方法目的是将数据投影到离散的汉明空间,最后利用简单的与或非二进制算法计算汉明距离,从而简化相关性的计算成本。

4、汉明空间度量的方式相比欧式空间度量方式有两大好处:(1)存储成本低;(2)计算复杂度小。计算机最容易存储的数据为二进制数据,而汉明空间正好就是由二进制数组成,因此相比十进制的欧式空间来看,汉明空间度量方式的存储成本更为经济。其次,由于汉明空间的度量方式采用与或非运算,因此其计算成本比较欧式空间的四则运算更为高效。跨模态哈希检索因为这两个优势在近些年来得到了广泛的关注。


技术实现思路

1、为解决上述技术问题,本专利技术提供一种基于长短映射的跨模态哈希检索方法,通过深度学习提取多维度特征,依据多维度特征之间的相关性差异实现不同维度特征之间的映射以增强低维特征的表现能力并提升检索准确率。

2、为解决上述技术问题,本专利技术采用如下技术方案:

3、一种基于长短映射的跨模态哈希检索方法,所采用的检索模型的构建和训练过程包括以下步骤:

4、步骤一,建立多模态数据集:多模态数据集包括n个由图像xi以及对应的文本描述yi组成的图像文本描述对(xi,yi),以及图像文本描述对(xi,yi)对应的类别信息li,1≤i≤n;

5、步骤二,构建长短映射方法:对于一个图像文本描述对,将图像和文本描述分别输入到深度学习模型,得到图像高维哈希中心和文本高维哈希中心;通过投影模型分别将图像高维哈希中心和文本高维哈希中心映射为图像低维哈希中心和文本低维哈希中心;图像高维哈希中心和文本高维哈希中心统称为高维哈希中心cl;图像低维哈希中心和文本低维哈希中心统称为低维哈希中心cs;对投影模型进行训练,学习到一个能够将高维哈希中心映射到低维哈希中心的投影矩阵t;

6、步骤三,构建检索模型:检索模型包括图像模型、图像哈希学习模块、文本模型、文本哈希学习模块以及投影模块;

7、对于多模态数据集中的各图像文本描述对(xi,yi),1≤i≤n,将图像xi通过图像模型中的卷积层、位置编码和transformer模型的编码器,生成连续的图像特征zx,将文本描述yi通过文本模型的字节编码器、位置编码和transformer模型的编码器,生成连续的文本特征zy;将zx和zy分别输入到图像哈希学习模块和文本哈希学习模块,得到高维图像哈希表示px和高维文本哈希表示py;投影模块通过学习到的投影矩阵t将px和py分别映射为低维图像哈希表示qx和低维文本哈希表示qy;将px和py分别离散为高维图像离散哈希码hx和高维文本离散哈希码hy;将qx和qy分别离散为低维图像离散哈希码和低维文本离散哈希码

8、基于hx和hy构建约束检索性能的相关性损失ls以及约束离散化性能的量化损失lq,得到总损失函数l=ls+αlq;α表示用于平衡ls和lq参数;通过多模态数据集和总损失函数l对检索模型进行训练;

9、哈希检索的过程包括:将查询数据输入到完成训练的检索模型,得到查询数据对应的低维离散哈希码,通过计算查询数据的低维离散哈希码与数据库中被查询数据的低维离散哈希码的相关性,取相关性最高的一个或者几个被查询数据作为查询结果;查询数据包括用于查询的图像或者文本描述,查询数据对应的低维离散哈希码为低维图像离散哈希码或者低维文本离散哈希码

10、进一步地,所述图像哈希学习模块和文本哈希学习模块均采用多层感知机。

11、进一步地,步骤三中,将zx输入到图像哈希学习模块得到高维图像哈希表示px时,具体包括:

12、将2l维度的连续图像特征zx改变形状,得到l个图像二维向量(zx)′,将每个图像二维向量(zx)′输入到softmax函数获取哈希表示,得到l个图像二元码概率(zx)″,将l个图像二元码概率(zx)″拼接起来,得到维度为2l的高维图像哈希表示px;

13、将px离散为高维图像离散哈希码hx时,具体包括:

14、将拼接高维图像哈希表示px所用到的l个图像二元码概率(zx)″输入到argmax函数中,得到l个图像一元离散码(zx)″′,最后将l个图像一元离散码(zx)″′拼接起来,得到维度为l的高维图像离散哈希码hx。

15、进一步地,步骤三中,将zy输入到文本哈希学习模块得到高维文本哈希表示py时,具体包括:

16、将2l维度的连续文本特征zy改变形状,得到l个文本二维向量(zy)′,将每个文本二维向量(zy)′输入到softmax函数获取哈希表示,得到l个文本二元码概率(zy)″,将l个文本二元码概率(zy)″拼接起来,得到维度为2l的高维文本哈希表示py;

17、将py离散为高维文本离散哈希码hy时,具体包括:

18、将拼接高维文本哈希表示py所用到的l个文本二元码概率(zy)″输入到argmax函数中,得到l个文本一元离散码(zy)″′,最后将l个文本一元离散码(zy)″′拼接起来,得到维度为l的高维文本离散哈希码hy。

19、进一步地,所述相关性损失ls为:

20、

21、其中,k表示高维图像哈希表示px或者高维文本哈希表示py的码长,表示第i个训练样本的高维哈希中心cl的第j比特值,表示第i个训练样本的高维文本哈希表示py的第j比特为0的概率,表示第i个训练样本的高维图像哈希表示px的第j比特为0的概率,表示高维图像离散哈希码hx的第j比特值,表示高维文本离散哈希码hy的第j比特值。

22、进一步地,所述量化损失lq为:

23、

24、其中,表示第i个训练样本的高维图像离散哈希码hx的第j比特值,表示第i个训练样本的高维文本离散哈希码hy的第j比特值。

25、进一步地,步骤二中,对投影模型进行训练时,具体包括:采用两组尺寸不同的哈达玛矩阵d2中的所有列向量或者所有行向量作为高维哈希中心cl和本文档来自技高网...

【技术保护点】

1.一种基于长短映射的跨模态哈希检索方法,所采用的检索模型的构建和训练过程包括以下步骤:

2.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,所述图像哈希学习模块和文本哈希学习模块均采用多层感知机。

3.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,步骤三中,将zx输入到图像哈希学习模块得到高维图像哈希表示px时,具体包括:

4.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,步骤三中,将zy输入到文本哈希学习模块得到高维文本哈希表示py时,具体包括:

5.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,所述相关性损失Ls为:

6.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,所述量化损失Lq为:

7.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,步骤二中,对投影模型进行训练时,具体包括:采用两组尺寸不同的哈达玛矩阵中的所有列向量或者所有行向量作为高维哈希中心Cl和低维哈希中心Cs,其中l,s分别表示高维哈希中心的码长和低维哈希中心的码长;然后设计一个单层的投影模型,并利用Cl、Cs作为投影模型的监督标签进行约束学习,通过学习到的投影矩阵T完成从高维哈希码到低维哈希码的映射:T*Cs=Cl;投影模型的目标函数M为:其中,表示第i个图像文本描述对相应的高维哈希中心监督标签;表示第i个图像文本描述对相应的低维哈希中心监督标签;λ表示一个用于平衡多项损失大小的常量;||·||F表示F范数。

...

【技术特征摘要】

1.一种基于长短映射的跨模态哈希检索方法,所采用的检索模型的构建和训练过程包括以下步骤:

2.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,所述图像哈希学习模块和文本哈希学习模块均采用多层感知机。

3.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,步骤三中,将zx输入到图像哈希学习模块得到高维图像哈希表示px时,具体包括:

4.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,步骤三中,将zy输入到文本哈希学习模块得到高维文本哈希表示py时,具体包括:

5.根据权利要求1所述的基于长短映射的跨模态哈希检索方法,其特征在于,所述相关性损失ls为:

6.根据权利要求1所述的基...

【专利技术属性】
技术研发人员:刘学亮涂俊锋闫坤祺郝世杰洪日昌汪萌蒋贻顺
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1