【技术实现步骤摘要】
一种基于对抗学习和非对称哈希的跨模态检索方法
本专利技术涉及一种基于对抗学习和非对称哈希的跨模态检索方法,属于计算机软件
技术介绍
随着网络社交媒体和搜索引擎中多媒体数据的大量增加,在不同模态数据(如视频、图像、文本等)之间进行相互检索的需求日益增大。比如,用户输入文本查询时需要得到与查询文本相关的图片信息或者音视频信息。为解决在大规模跨模态数据中进行的检索问题,一种高效并且快速的方法就是哈希方法,跨模态哈希方法主要有两个阶段,一是各个模态数据特征的提取,二是各个模态数据之间相似性的挖掘。当前存在的跨模态哈希方法大致可分为两种:传统的跨模态哈希方法和基于深度学习的跨模态哈希方法。以图像和文本的跨模态检索为例,传统的跨模态哈希方法一般使用手工构建的特征(如SIFT特征)作为图片的输入特征,然后通过关联矩阵分解等手段进行图片和文本相似度的挖掘,然后生成图像和文本的哈希码。例如,中国专利(申请号:201410532057.6,公开号:CN104317837A)通过构建基于主题的跨模态检索图模型,建立不同模态数据所包含主题之间的相关关系,同时能利用跨模态数据所具 ...
【技术保护点】
1.一种基于对抗学习和非对称哈希的跨模态检索方法,其步骤包括:1)选取一跨模态数据集并将其划分为训练集和测试集;其中,跨模态数据集包括多个数据实例,每一数据实例包括一跨模态数据对及其对应的标签信息;2)设置一模型,该模型包括一损失模块、特征提取单元和哈希码学习单元;哈希码学习单元包括哈希码学习网络和一个共享的多标签二值矩阵,损失模块包含特征提取单元的对抗损失,哈希码学习单元的三元边距损失、余弦量化损失和非对称哈希损失;3)模型训练:首先对于训练集中的每个跨模态数据对,对该跨模态数据对中的模态数据进行特征提取,得到每一模态数据的特征;然后在对抗学习的作用下对各模态数据的特征进 ...
【技术特征摘要】
1.一种基于对抗学习和非对称哈希的跨模态检索方法,其步骤包括:1)选取一跨模态数据集并将其划分为训练集和测试集;其中,跨模态数据集包括多个数据实例,每一数据实例包括一跨模态数据对及其对应的标签信息;2)设置一模型,该模型包括一损失模块、特征提取单元和哈希码学习单元;哈希码学习单元包括哈希码学习网络和一个共享的多标签二值矩阵,损失模块包含特征提取单元的对抗损失,哈希码学习单元的三元边距损失、余弦量化损失和非对称哈希损失;3)模型训练:首先对于训练集中的每个跨模态数据对,对该跨模态数据对中的模态数据进行特征提取,得到每一模态数据的特征;然后在对抗学习的作用下对各模态数据的特征进行强化,然后按照模态数据的多标签分类信息对强化后的特征进行平均,生成共享的多标签注意力矩阵;然后将强化后的特征分别与该多标签注意力矩阵进行相似度计算并经过Sigmoid函数的操作获得对应特征的权重向量,再将多标签注意力矩阵基于权重向量进行带权求和,得到注意力特征,将注意力特征和每一模态数据的特征按照设定比例融合,得到每个模态数据经过注意力后的特征;然后根据模态数据的特征生成对应模态数据的实值哈希码,然后计算三元边距损失、余弦量化损失和非对称哈希损失,并将计算的损失更新模型的参数和多标签二值矩阵;当模型参数收敛并且测试通过后,保存此时的最优模型;4)利用得到的最优模型,提取跨模态数据集中每一模态数据的实值哈希码,然后对生成的实值哈希码进行取符号操作,得到各模态数据的二值哈希码;5)对于一给定的查询数据,首先生成该查询数据的二值哈希码,然后计算该查询数据的二值哈希码与该跨模态数据集中与该查询数据模态不同的模态数据的二值哈希码之间计算汉明距离,得到满足条件的跨模态数据实例。2.如权利要求1所述的方法,其特征在于,所述多标签注意力矩阵为其中,跨模态数据对包括x模态数据和y模态数据,Fx表示强化后的x模态数据的特征,Fy表示强化后的y模态数据的特征,表示模态数据的多标签矩阵,li∈{0,1}C表示第i个跨模态数据对对应的标签向量,C为标签数目,表示属于标签S的所有模态数据的数目组成的向量。3.如权利要求1所述的方法,其特征在于,所述三元边距损失为其中,表示x模态数据的三元边距损失,表示y模态数据的三元边距损失,三元组中,ui是x模态数据的实值哈希码,是与ui相似的y模态数据的实值哈希码,vj-是与ui不相似的实值哈希码;三元组中,vi是x模态数据的实值...
【专利技术属性】
技术研发人员:古文,李波,古晓艳,熊智,谷井子,王伟平,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。