【技术实现步骤摘要】
一种基于自适应类相关离散哈希的零样本跨模态检索方法
[0001]本专利技术涉及一种基于自适应类相关离散哈希的零样本跨模态检索方法,属于零样本跨模态哈希检索领域。
技术介绍
[0002]近年来,随着网络和科技的不断发展,在各大社交媒体上涌现出了很多包括图像、文本、音频、视频等多媒体数据。这些多媒体数据虽然属于不同的模态,但在他们之中存在着表达相同含义的数据。如何从这样的多模态数据中搜寻到表达同一含义的数据是目前信息挖掘的需求。此外,随着新概念的不断涌现,我们并不能实现对所有的类都进行训练。因此,在不需要用新概念样本对模型进行重新训练的情况下,实现新概念(不可见类)的高精度检索是我们想要实现的目标。然而,现有的跨模态哈希检索方法大多是解决标准跨模态检索问题的,也就是只适用于训练集与查询集的类别数完全重合的检索情景。对于现在不断出现新概念的跨模态数据集来说,原有的标准跨模态检索方法是不能很好地适应这样的检索场景的。
[0003]为了解决新概念(不可见类)的检索问题,零样本哈希检索方法引起了广泛的关注。然而,现有的零样本哈希检索方法大多是针对单模态检索任务提出的,这些方法并不能直接应用于跨模态零样本检索任务中。针对于跨模态零样本检索任务提出的方法也在不断地出现。一些研究者同时用特征以及类属性来学习哈希码,并在哈希码中嵌入模态的局部结构信息。另一些研究者为图像、文本和类属性分别学习三个不同的哈希码,并用类属性对应的哈希码来连接图像和文本两个模态。该方法不仅可以缩小模态间的差距,还可以实现将可见类的属性信息转移到不可见类 ...
【技术保护点】
【技术特征摘要】
1.一种基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述方法的具体步骤如下:Step1、跨模态数据集特征提取:对原始跨模态数据集中的图像和文本进行特征提取以及对数据集中包含的类进行属性向量提取;Step2、数据集划分:将现有的跨模态数据集划分为符合零样本跨模态检索情景的数据集;Step3、建立基于自适应类相关离散哈希的零样本跨模态检索模型:首先,通过标签信息、类属性信息构建语义增强嵌入;然后,将语义增强嵌入、类属性间相关性、成对相似性以及特征矩阵融入到同一个框架中,建立基于自适应类相关离散哈希的零样本跨模态检索模型;Step4、模型的更新优化:设计迭代离散优化算法来求解Step3得到的模型,直到模型收敛或达到最大迭代次数,得到训练集的哈希码以及哈希函数;Step5:零样本跨模态检索:首先,通过Step4训练的哈希函数得到检索集和查询集的哈希码;然后,将查询集放入检索集进行查询,通过计算查询集的哈希码与检索集中各样本的哈希码之间的汉明距离来获取查询结果,汉明距离最小者即为最终的查询结果。2.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step1中,采用Glove方法为每个类名提取一个对应的词向量来形成类属性矩阵。3.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step2的具体方法为:第一步,在原始数据集中选取10%的样本作为查询集,其余的样本作为训练集;第二步,从整个数据集的所有类中随机选取20%的类作为不可见类,其余的类为可见类;第三步,为了符合零样本跨模态检索情景,重新来划分数据集中的训练集、查询集和检索集;其划分的方法为将第一步中得到的查询集中的不可见类对应的样本对作为新的查询集;将第一步中得到的训练集中可见类对应的样本对作为新的训练集;检索集由第一步中得到的训练集组成。4.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step3中的构建语义增强嵌入是通过融合标签信息与类属性信息来实现的;构建的语义增强嵌入将一个多标签实例对应的多个属性向量融合为一个属性向量,因此适用于多标签数据集;同时,该语义增强嵌入能为特征表示嵌入更多的语义信息来平衡图像和文本之间的检索结果。5.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step3中,在模型中充分考虑类属性间的相关性,自适应地为哈希码中嵌入更多的类属性语义信息;此外,在哈希码学习中嵌入成对相似性,以此生成更具判别性的哈希码。6.根据权利要求1所述的基于自适应类相关离散哈希的零样本跨模态检索方法,其特征在于:所述Step3中所构建的模型包括哈希码学习和哈希函数两个部分,首先,通过标签信息、类属性信息构建语义增强嵌入;然后,将语义增强嵌入、类属性间相关性、成对相似性以及特征表示融入到同一个框架中来学习哈希码;其次,通过最小化最小二乘回归问题来学习哈希函数;最后,将哈希码学习和哈希函数学习放到同一个模型中进行训练;其该模型
对应的目标函数为:其中,表示模型的正则化项,用于防止过拟合;γ是控制正则化项的参数,φ(X)和φ(Y)分别为图像和文本两个模态的特征经过核函数得到的矩阵;E为语义增强嵌入;t1和t2分别为两个模态对应的漂移;e
n
是一个元素全为1的n
s
维列向量;S为成对相似性矩阵,Z为类属性间的相关性矩阵;W1、W2、P为投影矩阵;V为哈希码库,B为哈希码;μ、α、β和θ为非负参数,n
s
为可见类样本总数,k为哈希码长度...
【专利技术属性】
技术研发人员:舒振球,永凯玲,余正涛,高盛祥,毛存礼,李莉,白益冰,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。