一种基于字典学习的对抗跨模态检索方法和系统技术方案

技术编号:20272850 阅读:36 留言:0更新日期:2019-02-02 03:46
本发明专利技术公开了一种基于字典学习的对抗跨模态检索方法和系统,该方法包括:获取图像数据和文本数据的底层特征,并基于底层特征分别构造图像和文本的训练集以及测试集;构建字典学习模型,基于图像和文本的训练集进行训练,根据得到的图像字典、文本字典,构造新的训练集和测试集;将所述新的图像和文本的训练集投影至共同表示空间;根据共同表示空间中的图像和文本特征数据,学习特征保持器,即进行特征判别和三重排序,以及学习模态分类器;对特征保持器和模态分类器进行对抗学习,优化共同表示空间,采用测试集进行跨模态检索。用字典学习来进行特征提取,用对抗学习更好的学习图像模态和文本模态的公共空间,能极大提高跨模态检索的准确率。

【技术实现步骤摘要】
一种基于字典学习的对抗跨模态检索方法和系统
本专利技术涉及跨模态检索领域和深度学习领域,更具体地说,涉及一种基于字典学习的对抗跨模态检索方法和系统。
技术介绍
随着互联网技术的飞速发展,多模态数据(如文本、图像、音频和视频)层出不穷,传统的单模态检索已经无法满足用户的需求。跨模态检索因其可以实现多种模态信息的融合和补充,正逐步成为信息检索的主流。因为多模态数据底层特征不同,具有复杂的组织结构,并且大多数是非结构化或半结构化的,因此多模态数据很难结构化的存储或检索。为了解决多模态数据之间的异构鸿沟,国内外的学者从浅层学习和深度学习两个方面进行了大量研究。联合特征选择和子空间学习方法(JFSSL)通过学习投影矩阵把不同模态的数据映射到共同空间,实现了异构数据的相似性度量。通过对投影矩阵施加l2范数的约束,同时从不同特征空间中选择出相关的且具有判别性的特征。并通过图正则化的方法保持了数据模态间和模态内的相关性。通用的半监督结构化子空间学习(GSS-SL)将标签损失函数和标签的图约束融合到最终的目标函数中,前者可以在一定程度上保证相同类别数据之间的距离最小,不同类别数据之间的距离最大,后者可以预测未标记数据的标签。此外,浅层学习的方法还包括模态独立的跨媒体检索(MDCR)、三视图典型相关分析(CCA-3V)、联合潜在子空间学习和回归(JLSLR)等。因其对数据具有强大的非线性相关建模能力,深度学习方法近几年在跨模态检索领域发展迅猛。生成对抗网络(GANs)因为不需要马尔科夫链并能生成高质量的样本,尤其受到研究者的喜爱。GANs可以胜任真实数据生成任务,如图像生成和自然语句生成。无监督生成对抗跨模态哈希(UGACH)通过构造相关性图来合成流形对,当做判别器中的相关数据,通过概率模型合成生成对,当做判别器中的不相关数据。两者相互对抗,相互学习,更好的学习哈希表示。深度对抗跨模态检索(DAML)也是一种新颖的基于对抗学习的跨模态检索方法。然而,上述方法有一些缺点:一方面,它们大多数是为不同模态数据学习一个共同表示空间,忽略了多模态数据复杂的统计特性。另一方面,投影到公共空间的特征不能保持每个模态原始特征的固有统计特性,投影之后的特征不具有最大相关性。
技术实现思路
为克服上述现有技术的不足,本专利技术提供了一种基于字典学习的对抗跨模态检索方法和系统,该方法考虑了多模态数据复杂的统计特性,并且通过对抗学习跨越了图像模态和文本模态底层特征和高层语义之间的语义鸿沟,得到一个有效的同构空间。用字典学习来进行特征提取,用对抗学习更好的学习图像模态和文本模态的公共空间,能极大提高跨模态检索的准确率。并通过多种跨模态检索任务验证了本专利技术的有效性。为实现上述目的,本专利技术采用如下技术方案:一种基于字典学习的对抗跨模态检索方法,包括以下步骤:获取图像数据和文本数据的底层特征,并基于所述底层特征分别构造图像和文本的训练集以及测试集;构建字典学习模型,基于图像和文本的训练集进行训练,根据得到的图像字典、文本字典,构造新的训练集和测试集;将所述新的图像和文本的训练集投影至共同表示空间;根据共同表示空间中的图像和文本特征数据,学习特征保持器,即进行特征判别和三重排序,以及学习模态分类器;对特征保持器和模态分类器进行对抗学习,优化共同表示空间,采用测试集进行跨模态检索。进一步地,所述构造新的训练集和测试集包括:训练字典学习模型得到图像字典、文本字典、图像重构系数和文本重构系数;根据所述图像字典和文本字典,计算测试集的图像重构系数和文本重构系数;将训练集的图像重构系数和文本重构系数,以及测试集的图像重构系数和文本重构系数的转置形式作为新的图像和文本的训练集以及测试集。进一步地,所述训练字典学习模型包括:利用训练集中的样本构建如下的目标函数:其中,和分别表示图像模态和文本模态的字典,k1和k2分别代表图像字典和文本字典的大小,取值分别为4096、5000;和分别表示图像和文本的重构系数;c表示常量,和分别表示图像字典和文本字典第i行第j列的原子;其中,P1和P2是投影矩阵,λ1,λ2,λ3是权重参数。进一步地,所述计算测试集的图像重构系数和文本重构系数的方法为:和分别为测试集的图像和文本重构系数。进一步地,所述投影至共同表示空间包括:图像的训练集采用四层前馈全连接网络投影到共同表示空间;文本的训练集采用三层前馈全连接网络投影到共同表示空间;其中,四层和三层前馈全连接网络,每一层均采用tanh激活函数。进一步地,所述特征判别包括:将共同表示空间中的图像和文本特征数据,经过一层的全连接层,得到概率函数;将真实标签和概率函数输入softmax交叉熵损失层,输出语义类别的概率分布;计算模内判别损失:表示概率函数,vi代表第i个图像样例,ti代表第i个文本样例,N代表样例数。进一步地,所述三重判别包括:构建两个三元组,分别是检索图像、文本正例、文本负例,检索文本、图像正例、图像负例;对于两个三元组,分别计算检索图像/文本和另一模态的正例、负例的距离,得到模间不变损失;通过对DNNs每一层的参数进行约束,得到正则化项;由模内判别损失、模间不变性损失和正则化项,得到如下特征保持损失:Lfr(θV,θT,θD)=α(LtriV(θV)+LtriT(θT))+βLdis(θD)+Lreg,α和β是平衡参数。进一步地,所述优化共同表示空间包括:根据特征保持损失和模间对抗损失得到最终的目标函数;利用随机梯度下降法对最终的目标函数进行优化,直到从共同空间中随机抽取一个样本,模态分类器不能预测出其原始模态,得到最终的共同空间。一个或多个实施例提供了一种基于字典学习的对抗跨模态检索系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法。一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行所述的方法。本专利技术的有益效果本专利技术提出了一种基于字典学习的对抗跨模态检索方法和系统,该方法用字典学习来进行特征提取,用重构系数代替原始特征,增大了重要特征的权重,缩小了次要特征的权重,也使得重构之后的图像和文本模态维度近似;用对抗学习更好的学习图像模态和文本模态的公共空间,考虑了多模态数据复杂的统计特性,通过对抗学习跨越了图像模态和文本模态底层特征和高层语义之间的语义鸿沟,得到一个有效的同构空间,能极大提高跨模态检索的准确率。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为实施例一中基于字典学习的对抗跨模态检索方法流程图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在不冲突的情况本文档来自技高网
...

【技术保护点】
1.一种基于字典学习的对抗跨模态检索方法,其特征在于,包括以下步骤:获取图像数据和文本数据的底层特征,并基于所述底层特征分别构造图像和文本的训练集以及测试集;构建字典学习模型,基于图像和文本的训练集进行训练,根据得到的图像字典、文本字典,构造新的训练集和测试集;将所述新的图像和文本的训练集投影至共同表示空间;根据共同表示空间中的图像和文本特征数据,学习特征保持器,即进行特征判别和三重排序,以及学习模态分类器;对特征保持器和模态分类器进行对抗学习,优化共同表示空间,采用测试集进行跨模态检索。

【技术特征摘要】
1.一种基于字典学习的对抗跨模态检索方法,其特征在于,包括以下步骤:获取图像数据和文本数据的底层特征,并基于所述底层特征分别构造图像和文本的训练集以及测试集;构建字典学习模型,基于图像和文本的训练集进行训练,根据得到的图像字典、文本字典,构造新的训练集和测试集;将所述新的图像和文本的训练集投影至共同表示空间;根据共同表示空间中的图像和文本特征数据,学习特征保持器,即进行特征判别和三重排序,以及学习模态分类器;对特征保持器和模态分类器进行对抗学习,优化共同表示空间,采用测试集进行跨模态检索。2.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述构造新的训练集和测试集包括:训练字典学习模型得到图像字典、文本字典、图像重构系数和文本重构系数;根据所述图像字典和文本字典,计算测试集的图像重构系数和文本重构系数;将训练集的图像重构系数和文本重构系数,以及测试集的图像重构系数和文本重构系数的转置形式作为新的图像和文本的训练集以及测试集。3.如权利要求2所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述训练字典学习模型包括:利用训练集中的样本构建如下的目标函数:其中,和分别表示图像模态和文本模态的字典,k1和k2分别代表图像字典和文本字典的大小,取值分别为4096、5000;和分别表示图像和文本的重构系数;c表示常量,和分别表示图像字典和文本字典第i行第j列的原子;其中,P1和P2是投影矩阵,λ1,λ2,λ3是权重参数。4.如权利要求3所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述计算测试集的图像重构系数和文本重构系数的方法为:和分别为测试集的图像和文本重构系数。5.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述投影至共同表示空间包括:图像的训练集采用四层前馈全连接...

【专利技术属性】
技术研发人员:张化祥尚菲李静刘丽孟丽丽谭艳艳王强
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1