一种融合监督信息的跨模态哈希检索方法和系统技术方案

技术编号:20272625 阅读:38 留言:0更新日期:2019-02-02 03:42
本发明专利技术公开了一种融合监督信息的跨模态哈希检索方法和系统,所述方法包括:构建图像网络,文本网络和融合网络;获取图像和文本特征训练样本对,分别输入图像网络和文本网络;将图像网络和文本网络的输出特征作为所述融合网络的输入,并定义所述融合网络的输出;根据所述融合网络的输出和对间相似性构建学习统一哈希码的目标函数;求解所述目标函数,得到统一哈希码;将所述统一哈希码作为监督信息,结合语义信息,训练特定模态的哈希网络。本发明专利技术基于端到端的深度学习框架同时地学习特征表示和哈希编码,能够更有效地捕获不同模态数据之间的相关性,有助于跨模态检索精度的提高。

【技术实现步骤摘要】
一种融合监督信息的跨模态哈希检索方法和系统
本公开涉及跨模态检索方法,更具体地说,涉及一种融合监督信息的跨模态哈希检索方法和系统。
技术介绍
近些年,随着网络上不同类型数据的急剧增长,近似最近邻(ANN)搜索在相关应用中起着越来越重要的作用。例如,信息检索、数据挖掘、计算机视觉等。哈希技术由于其计算成本低和存储效率高,已经成为ANN搜索中最受欢迎的技术之一。哈希的基本思想是通过学习哈希函数将高维的数据映射到紧凑二进制编码的汉明空间,同时尽可能保留原始空间的相似性结构。目前很多应用于单模态场景中的哈希方法已经被提出,然而在现实世界中具有相同语义的数据往往存在多种模态,例如,图像、文本、视频等。为了充分利用异构数据之间的关系,在ANN搜索中发展跨模态哈希(CMH)方法是很有必要的。具体地,在跨模态相似性搜索中,查询数据的模态与被检索数据的模态不同。本公开以图像检文本(I2T)和文本检图像(T2I)任务为例进行分析和实验,同时此方法可以扩展到其他任意模态之间的检索。现有的跨模态哈希(CMH)方法大多数是基于手动处理的特征,其特征提取和哈希码学习过程是独立进行的。这就可能会限制样本的判别表示,进而损坏学习的哈希码的准确性。最近,基于深度学习的哈希方法提出了一种端到端的学习框架同时学习特征表示和哈希编码,其能够比浅层学习方法更有效地捕获不同模态之间的非线性相关性。作为经典的方法,深度跨模态哈希(DCMH)将传统的深度模型扩展到跨模态检索中,并对每一种模态执行具有深度神经网络的端到端的学习框架。对间关系引导的深度哈希(PRDH)进一步整合多种对间约束,从模态间和模态内增强哈希码的相似性。在上述提及的深度跨模态哈希框架中,对于来自两个不同模态的成对样本,它们的哈希码通常被强制设置成一样的。并且,这些方法通过每种模态的深度神经网络分别学习单一样本的特征表示,然后最小化不同模态特征之间的损失来建立异构的关系。这样就存在以下弊端:仅通过简单地对不同模态的神经网络的最后一层施加约束,不能够充分挖掘多模态数据间的复杂关系。
技术实现思路
为克服上述现有技术的不足,本公开提供了一种融合监督信息的跨模态哈希检索方法和系统,所述方法基于端到端的深度学习框架同时地学习特征表示和哈希编码,能够比传统学习方法更有效地捕获不同模态数据之间的相关性,有助于跨模态检索精度的提高。为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:一种融合监督信息的跨模态哈希检索方法,包括以下步骤:构建图像网络,文本网络和融合网络;获取图像和文本特征训练样本对,分别输入图像网络和文本网络;将图像网络和文本网络的输出特征作为所述融合网络的输入,并定义所述融合网络的输出;根据所述融合网络的输出和对间相似性构建学习统一哈希码的目标函数;求解所述目标函数,得到统一哈希码;将所述统一哈希码作为监督信息,结合语义信息,训练特定模态的哈希网络。进一步地,所述图像网络包括5个卷积层和3个全连接层;文本网络包括两个全连接层;融合网络包括两个全连接层;其中,所述图像网络和文本网络最后一层的隐藏单元个数相等,融合网络的第二层为哈希层,并且其激活函数为判别函数。进一步地,将所述图像网络和文本网络的输出特征通过非线性激活函数,得到所述融合网络的输入。进一步地,所述学习统一哈希码的目标函数为:其中,第一项是对间嵌入约束项,并且其中H*i、H*j分别表示不同训练样本对的融合网络输出,S={sij}表示对间相似性矩阵,B∈{-1,1}k×n表示统一的哈希码矩阵,p(sij|B)表示给定哈希码B时,sij的条件概率分布,λ表示超参;第二项最小化融合网络的输出和二进制码之间的损失,H=h(Z;θz)∈Rk×n为融合网络的输出;第三项是平衡约束项,用来最大化每一位哈希码的信息,η表示超参,表示F范数。进一步地,求解所述目标函数包括:初始化图像、文本和融合网络参数θ={θv,θt,θz},和批量大小;固定网络参数θ={θv,θt,θz},更新统一的哈希码B;然后固定B,利用小批量随机梯度下降法更新参数θ={θv,θt,θz};不断交替更新,直至收敛。进一步地,所述特定模态的哈希网络中,图像网络包括5个卷积层、2个全连接层和1个哈希层,文本网络包括1个全连接层和1个哈希层;其中,所述图像网络和文本网络中的哈希层的激活函数为判别函数。进一步地,所述训练特定模态的哈希网络包括:求解总体目标函数,得到图像网络和文本网络的参数;所述目标函数为:其中,α、β、γ分别表示超参;J1是模态间成对嵌入约束,其中F*i=f(vi;θv)表示从图像网络输出的第i个样本的特征表示,G*j=g(tj;θj)表示从文本网络输出的第j个样本的特征表示;J2使用第一阶段得到的统一哈希码作为监督信息,训练特定模态的哈希网络,B∈{-1,1}k×n表示统一的哈希码矩阵,F表示图片特征输出,G表示文本特征输出;J3将标签信息线性地映射到特定模态的网络,和分别表示图像和文本模态的映射矩阵,Y表示语义矩阵;J4是平衡约束,用来最大化每一位的信息。进一步地,求解所述总体目标函数包括:初始化图像网络参数θv、文本网络参数θt和批量大小;固定参数θv和θt,求解目标函数更新W1和W2;然后固定W1和W2,利用小批量随机梯度下降法分别更新图像参数θv和文本参数θt;不断交替更新,直至收敛。一个或多个实施例提供了一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的融合监督信息的跨模态哈希检索方法。一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的融合监督信息的跨模态哈希检索方法。上述技术方案中的一个或多个具有以下有益效果:1、传统的跨模态哈希方法,其特征提取和哈希编码的学习过程是相互独立的,本公开基于端到端的深度学习框架,同时学习特征表示和哈希编码,能够更有效地捕获不同模态数据之间的相关性。2、本公开将不同模态的特征成对地输入到融合网络,通过非线性的转换来探索多模态数据之间的相关性,并获得高质量的哈希码来监督特定模态的哈希网络的训练;利用迭代更新的策略求解优化问题,并在优化过程中保持哈希码的离散特性而没有对其进行松弛,这样就减少了量化误差;对间相似性信息和分类信息在同一流形框架下被嵌入到哈希网络,很好地保持了模态间的相似性和语义一致性。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为实施例一中融合监督信息的跨模态哈希检索方法的流程框图;图2为实施例一中融合监督信息的跨模态哈希检索方法的流程示意图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤本文档来自技高网
...

【技术保护点】
1.一种融合监督信息的跨模态哈希检索方法,其特征在于,包括以下步骤:构建图像网络,文本网络和融合网络;获取图像和文本特征训练样本对,分别输入图像网络和文本网络;将图像网络和文本网络的输出特征作为所述融合网络的输入,并定义所述融合网络的输出;根据所述融合网络的输出和对间相似性构建学习统一哈希码的目标函数;求解所述目标函数,得到统一哈希码;将所述统一哈希码作为监督信息,结合语义信息,训练特定模态的哈希网络。

【技术特征摘要】
1.一种融合监督信息的跨模态哈希检索方法,其特征在于,包括以下步骤:构建图像网络,文本网络和融合网络;获取图像和文本特征训练样本对,分别输入图像网络和文本网络;将图像网络和文本网络的输出特征作为所述融合网络的输入,并定义所述融合网络的输出;根据所述融合网络的输出和对间相似性构建学习统一哈希码的目标函数;求解所述目标函数,得到统一哈希码;将所述统一哈希码作为监督信息,结合语义信息,训练特定模态的哈希网络。2.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法,其特征在于,所述图像网络包括5个卷积层和3个全连接层;文本网络包括两个全连接层;融合网络包括两个全连接层;其中,所述图像网络和文本网络最后一层的隐藏单元个数相等,融合网络的第二层为哈希层,并且其激活函数为判别函数。3.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法,其特征在于,将所述图像网络和文本网络的输出特征通过非线性激活函数,得到所述融合网络的输入。4.如权利要求3所述的一种融合监督信息的跨模态哈希检索方法,其特征在于,所述学习统一哈希码的目标函数为:其中,第一项是对间嵌入约束项,并且其中H*i、H*j分别表示不同训练样本对的融合网络输出,S={sij}表示对间相似性矩阵,B∈{-1,1}k×n表示统一的哈希码矩阵,p(sij|B)表示给定哈希码B时,sij的条件概率分布,λ表示超参;第二项最小化融合网络的输出和二进制码之间的损失,H=h(Z;θz)∈Rk×n为融合网络的输出;第三项是平衡约束项,用来最大化每一位哈希码的信息,η表示超参,表示F范数。5.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法,其特征在于,求解所述目标函数包括:初始化图像、文本和融合网络参数θ={θv,θt,θz},和批量大小;固定网络参数θ={θv,θt,θz},更新统一的哈希码B;然后固定B,利用小批量随...

【专利技术属性】
技术研发人员:张化祥王粒冯珊珊任玉伟刘丽张庆科朱磊
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1