一种基于语义条件关联学习的跨模态检索方法及系统技术方案

技术编号:26762810 阅读:36 留言:0更新日期:2020-12-18 23:16
本发明专利技术提出一种基于语义条件关联学习的跨模态检索方法及系统,本发明专利技术将多标签信息作为一种新的观测模态,并基于深度神经网络将多标签语义关系有效整合到跨模态隐含表示学习框架中。一方面,通过标签语义信息指导各模态的特征学习过程,获得保持语义关系且具有判别力的深度特征表示,提高了跨模态检索的性能。另一方面,利用深度网络挖掘多标签数据中的高层语义,利用条件关联学习方法最大化不同模态特征关于高层语义的典型相关性,可以从各模态数据中消除共享语义信息,建立不同模态间的直接关联关系,从而有效降低噪声标签对跨模态隐含表示的影响。

【技术实现步骤摘要】
一种基于语义条件关联学习的跨模态检索方法及系统
本专利技术涉及多媒体领域的跨模态检索技术,特别涉及针对跨模态数据的高层语义条件关联学习技术。
技术介绍
跨模态检索技术是多媒体领域的重要研究课题之一,为了方便用户获取需要的多种模态信息。跨模态检索可以从海量多媒体信息中为给定模态数据匹配到另一种模态的语义相关数据。因此,跨模态检索技术需解决如何建立异构模态内容间的关联关系问题。目前,大多数跨模态检索算法通过学习不同模态样本的共同隐含空间,实现异构模态间的关系度量。为了保持跨模态隐含空间的语义一致性,现有方法通常将样本带有的标签作为监督信息,用于指导隐含空间的学习。Gong等人将语义类别信息作为一种模态,基于典型相关性分析方法(CCA,canonicalcorrelationanalysis)使属于同一语义类别的图像和文本在隐含空间距离相近。Ranjan等人利用多标签信息学习不同模态的共同语义空间,使跨模态语义关联不再局限于一一对应的共生关系或简单的类别关系。这些方法通过利用标签语义改善跨模态检索的结果,但是对标签的使用方式较为简单直接。事实本文档来自技高网...

【技术保护点】
1.一种基于语义条件关联学习的跨模态检索方法,其特征在于,包括:/n步骤1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;/n步骤2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;/n步骤3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分...

【技术特征摘要】
1.一种基于语义条件关联学习的跨模态检索方法,其特征在于,包括:
步骤1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
步骤2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
步骤3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
步骤4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
步骤5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
步骤6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。


2.如权利要求1所述的基于语义条件关联学习的跨模态检索方法,其特征在于,图像模态和文本模态的成对约束损失函数分别为:






其中分别表示图像嵌入特征间和文本嵌入特征间的相似度,和分别为图像嵌入特征的第i列和第j列,和分别为文本嵌入特征的第i列和第j列,N为图像-文本对总数量,式中Lpair1为图像模态的成对约束损失,式中Lpair2为文本模态的成对约束损失。


3.如权利要求1或2所述的基于语义条件关联学习的跨模态检索方法,其特征在于,图像模态和文本模态的判别约束损失函数分别为:






式中Ldis1为图像模态的判别约束损失,式中Ldis2为文本模态的判别约束损失,为第i个样本关于语义类别的概率分布,xi为图像文本对具有标签,样本集中第i个图像样本表示为第i个文本表示为


4.如权利要求3所述的基于语义条件关联学习的跨模态检索方法,其特征在于,该条件关联约束损失函数为:






Lpcca为条件关联约束损失。为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,为F1(Y1|G)的自协方差矩阵,为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。


5.如权利要求4所述的基于语义条件关联学习的跨模态检索方法,其特征在于,该步骤5包括:
综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数,可得本发明的优化目标为:






其中α和β为权衡参数。

【专利技术属性】
技术研发人员:王树徽宋国利黄庆明
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1