一种基于自适应类相关离散哈希的零样本跨模态检索方法技术

技术编号:37668669 阅读:9 留言:0更新日期:2023-05-26 04:29
本发明专利技术公开了一种基于自适应类相关离散哈希的零样本跨模态检索方法。提出了一种新的跨模态零样本哈希方法来有效地转移类属性知识,该方法通过将标签信息与类属性信息相融合来构建语义增强嵌入,通过该嵌入可以解决多标签实例的类属性对应问题。通过学习语义增强嵌入为特征表示嵌入更多的语义信息,以此来平衡图像和文本之间的检索结果。该方法充分考虑类属性间的相关性,自适应地为哈希码中嵌入更多的类属性语义信息。同时,在哈希码中可以很好地捕捉可见类和不可见类之间的关系,从而可以将属性知识从可见类转移到不可见类中。最后,在哈希码学习中嵌入成对相似性来加强哈希码中的语义信息。本发明专利技术提高了在零样本跨模态检索情景中的检索精度。索情景中的检索精度。索情景中的检索精度。

【技术实现步骤摘要】
一种基于自适应类相关离散哈希的零样本跨模态检索方法


[0001]本专利技术涉及一种基于自适应类相关离散哈希的零样本跨模态检索方法,属于零样本跨模态哈希检索领域。

技术介绍

[0002]近年来,随着网络和科技的不断发展,在各大社交媒体上涌现出了很多包括图像、文本、音频、视频等多媒体数据。这些多媒体数据虽然属于不同的模态,但在他们之中存在着表达相同含义的数据。如何从这样的多模态数据中搜寻到表达同一含义的数据是目前信息挖掘的需求。此外,随着新概念的不断涌现,我们并不能实现对所有的类都进行训练。因此,在不需要用新概念样本对模型进行重新训练的情况下,实现新概念(不可见类)的高精度检索是我们想要实现的目标。然而,现有的跨模态哈希检索方法大多是解决标准跨模态检索问题的,也就是只适用于训练集与查询集的类别数完全重合的检索情景。对于现在不断出现新概念的跨模态数据集来说,原有的标准跨模态检索方法是不能很好地适应这样的检索场景的。
[0003]为了解决新概念(不可见类)的检索问题,零样本哈希检索方法引起了广泛的关注。然而,现有的零样本哈希检索方法大多是针对单模态检索任务提出的,这些方法并不能直接应用于跨模态零样本检索任务中。针对于跨模态零样本检索任务提出的方法也在不断地出现。一些研究者同时用特征以及类属性来学习哈希码,并在哈希码中嵌入模态的局部结构信息。另一些研究者为图像、文本和类属性分别学习三个不同的哈希码,并用类属性对应的哈希码来连接图像和文本两个模态。该方法不仅可以缩小模态间的差距,还可以实现将可见类的属性信息转移到不可见类。尽管现有的跨模态零样本哈希方法已经应用于零样本检索任务,但是仍然有一些挑战需要进一步解决:(1)在跨模态检索任务中,文本查询图像和图像查询文本之间存在一些不平衡的检索结果。(2)大多数算法仅适用于单标签数据集,因此无法解决多标签数据集上的不可见类检索问题。(3)现有方法不能有效地传递类别间的属性知识,导致检索性能不理想。

技术实现思路

[0004]鉴于以上存在的挑战,本专利技术提供了一种基于自适应类相关离散哈希的零样本跨模态检索方法。本专利技术通过融合标签信息、类属性信息构建语义增强嵌入;然后,将语义增强嵌入、类属性间相关性、成对相似性以及特征矩阵融入到同一个框架中,建立基于自适应类相关离散哈希的零样本跨模态检索模型,以用于解决含有不可见类数据的跨模态检索问题。
[0005]为了实现本专利技术的目的,本专利技术所述的一种基于自适应类相关离散哈希的零样本跨模态检索方法的技术方案是:本专利技术提出了一种新的零样本哈希框架来实现更有效的类间属性知识转移,该方法将标签信息和类别属性信息相结合,构建语义增强嵌入,解决了多标签实例的类别属性对应问题。此外,通过学习语义增强嵌入以合并更多的语义信息用于
特征表示,其目标是平衡图像和文本之间的检索结果。同时,该方法自适应地学习类别属性之间的相关性,然后在哈希码中嵌入更多的类别属性信息。最后,利用两两相似度来约束哈希码的学习,从而生成更具鉴别性的哈希码。本专利技术包括如下步骤:
[0006]Step1、跨模态数据集特征提取:对原始跨模态数据集中的图像和文本进行特征提取以及对数据集中包含的类进行属性向量提取;
[0007]Step2、数据集划分:根据零样本跨模态检索情景的要求,将现有的跨模态数据集划分为符合零样本跨模态检索情景的数据集;
[0008]Step3、建立基于自适应类相关离散哈希的零样本跨模态检索模型:首先,通过标签信息、类属性信息构建语义增强嵌入;然后,将语义增强嵌入、类属性间相关性、成对相似性以及特征矩阵融入到同一个框架中,建立基于自适应类相关离散哈希的零样本跨模态检索模型;
[0009]Step4、模型的更新优化:设计迭代离散优化算法来求解Step3得到的模型,直到模型收敛或达到最大迭代次数,得到训练集的哈希码以及哈希函数;
[0010]Step5:零样本跨模态检索:首先,通过Step4训练的哈希函数得到检索集和查询集的哈希码。然后,将查询集放入检索集进行查询,通过计算查询集的哈希码与检索集中各样本的哈希码之间的汉明距离来获取查询结果,汉明距离最小者即为最终的查询结果。
[0011]进一步的,在所述Step1,中所述跨模态检索数据集是成对存储的,每个样本对中包括:文本、图像和相应的语义标签。
[0012]进一步的,在所述Step1中的特征提取方法如下:通过VGG

16模型提取图像特征;通过词袋模型提取文本特征;通过Glove方法为每个类别名提取一个对应的词向量,组成类属性矩阵。
[0013]进一步的,在所述Step2中所述的数据集划分方法如下:第一步,在原始数据集中选取10%的样本作为查询集,其余的样本作为训练集;第二步,从整个数据集的所有类中随机选取20%的类作为不可见类,其余的类为可见类;第三步,为了符合零样本跨模态检索情景,重新来划分数据集中的训练集、查询集和检索集。其划分的方法为将第一步中得到的查询集中的不可见类对应的样本对作为新的查询集;将第一步中得到的训练集中可见类对应的样本对作为新的训练集;检索集由第一步中得到的训练集组成。
[0014]进一步的,在所述Step2中,为了保证模型的泛化能力,每次训练模型时,都重新随机划分可见类和不可见类来获得新的训练集和查询集。通过取多次训练的平均值作为最终的结果。
[0015]进一步的,所述Step3中建立模型时,由于在图像和文本特征中既存在线性关系,也存在非线性关系。而线性模型只能捕获特征中的线性关系。为了能捕获特征中的非线性关系,在特征矩阵加上核函数以拓展为非线性模型。
[0016]进一步的,所述Step3中的构建语义增强嵌入是通过融合标签信息与类属性信息来实现的;构建的语义增强嵌入将一个多标签实例对应的多个属性向量融合为一个属性向量,因此适用于多标签数据集;同时,该语义增强嵌入能为特征表示嵌入更多的语义信息来平衡图像和文本之间的检索结果。
[0017]进一步的,所述Step3中,在模型中充分考虑类属性间的相关性,自适应地为哈希码中嵌入更多的类属性语义信息;此外,在哈希码学习中嵌入成对相似性,以此生成更具判
别性的哈希码。
[0018]进一步的,所述Step3中所建立的模型包括哈希码学习和哈希函数学习两个部分。首先,通过标签信息、类属性信息构建语义增强嵌入;然后,将语义增强嵌入、类属性间相关性、成对相似性以及特征表示融入到同一个框架中来学习哈希码;其次,通过最小化最小二乘回归问题来学习哈希函数;最后,将哈希码学习和哈希函数学习放到同一个模型中进行训练,其该模型对应的目标函数为:
[0019][0020][0021]其中,表示模型的正则化项,用于防止过拟合;γ是控制正则化项的参数,φ(X)和φ(Y)分别为图像和文本两个模态的特征经过核函数得到的矩阵;E为语义增强嵌入;t1和t2分别为两个模态对应的漂移;e
n
是一个元素全为1的n
s
维列向量;S为成对相似性矩阵,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述方法的具体步骤如下:Step1、跨模态数据集特征提取:对原始跨模态数据集中的图像和文本进行特征提取以及对数据集中包含的类进行属性向量提取;Step2、数据集划分:将现有的跨模态数据集划分为符合零样本跨模态检索情景的数据集;Step3、建立基于自适应类相关离散哈希的零样本跨模态检索模型:首先,通过标签信息、类属性信息构建语义增强嵌入;然后,将语义增强嵌入、类属性间相关性、成对相似性以及特征矩阵融入到同一个框架中,建立基于自适应类相关离散哈希的零样本跨模态检索模型;Step4、模型的更新优化:设计迭代离散优化算法来求解Step3得到的模型,直到模型收敛或达到最大迭代次数,得到训练集的哈希码以及哈希函数;Step5:零样本跨模态检索:首先,通过Step4训练的哈希函数得到检索集和查询集的哈希码;然后,将查询集放入检索集进行查询,通过计算查询集的哈希码与检索集中各样本的哈希码之间的汉明距离来获取查询结果,汉明距离最小者即为最终的查询结果。2.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step1中,采用Glove方法为每个类名提取一个对应的词向量来形成类属性矩阵。3.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step2的具体方法为:第一步,在原始数据集中选取10%的样本作为查询集,其余的样本作为训练集;第二步,从整个数据集的所有类中随机选取20%的类作为不可见类,其余的类为可见类;第三步,为了符合零样本跨模态检索情景,重新来划分数据集中的训练集、查询集和检索集;其划分的方法为将第一步中得到的查询集中的不可见类对应的样本对作为新的查询集;将第一步中得到的训练集中可见类对应的样本对作为新的训练集;检索集由第一步中得到的训练集组成。4.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step3中的构建语义增强嵌入是通过融合标签信息与类属性信息来实现的;构建的语义增强嵌入将一个多标签实例对应的多个属性向量融合为一个属性向量,因此适用于多标签数据集;同时,该语义增强嵌入能为特征表示嵌入更多的语义信息来平衡图像和文本之间的检索结果。5.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step3中,在模型中充分考虑类属性间的相关性,自适应地为哈希码中嵌入更多的类属性语义信息;此外,在哈希码学习中嵌入成对相似性,以此生成更具判别性的哈希码。6.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step3中所构建的模型包括哈希码学习和哈希函数两个部分,首先,通过标签信息、类属性信息构建语义增强嵌入;然后,将语义增强嵌入、类属性间相关性、成对相似性以及特征表示融入到同一个框架中来学习哈希码;其次,通过最小化最小二乘回归问题来学习哈希函数;最后,将哈希码学习和哈希函数学习放到同一个模型中进行训练;其该模型
对应的目标函数为:其中,表示模型的正则化项,用于防止过拟合;γ是控制正则化项的参数,φ(X)和φ(Y)分别为图像和文本两个模态的特征经过核函数得到的矩阵;E为语义增强嵌入;t1和t2分别为两个模态对应的漂移;e
n
是一个元素全为1的n
s
维列向量;S为成对相似性矩阵,Z为类属性间的相关性矩阵;W1、W2、P为投影矩阵;V为哈希码库,B为哈希码;μ、α、β和θ为非负参数,n
s
为可见类样本总数,k为哈希码长度...

【专利技术属性】
技术研发人员:舒振球永凯玲余正涛高盛祥毛存礼李莉白益冰
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1