一种融合监督信息的跨模态哈希检索方法和系统技术方案

技术编号：20272625 阅读：38 留言：0更新日期：2019-02-02 03:42

本发明专利技术公开了一种融合监督信息的跨模态哈希检索方法和系统，所述方法包括：构建图像网络，文本网络和融合网络；获取图像和文本特征训练样本对，分别输入图像网络和文本网络；将图像网络和文本网络的输出特征作为所述融合网络的输入，并定义所述融合网络的输出；根据所述融合网络的输出和对间相似性构建学习统一哈希码的目标函数；求解所述目标函数，得到统一哈希码；将所述统一哈希码作为监督信息，结合语义信息，训练特定模态的哈希网络。本发明专利技术基于端到端的深度学习框架同时地学习特征表示和哈希编码，能够更有效地捕获不同模态数据之间的相关性，有助于跨模态检索精度的提高。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合监督信息的跨模态哈希检索方法和系统
本公开涉及跨模态检索方法，更具体地说，涉及一种融合监督信息的跨模态哈希检索方法和系统。
技术介绍
近些年，随着网络上不同类型数据的急剧增长，近似最近邻(ANN)搜索在相关应用中起着越来越重要的作用。例如，信息检索、数据挖掘、计算机视觉等。哈希技术由于其计算成本低和存储效率高，已经成为ANN搜索中最受欢迎的技术之一。哈希的基本思想是通过学习哈希函数将高维的数据映射到紧凑二进制编码的汉明空间，同时尽可能保留原始空间的相似性结构。目前很多应用于单模态场景中的哈希方法已经被提出，然而在现实世界中具有相同语义的数据往往存在多种模态，例如，图像、文本、视频等。为了充分利用异构数据之间的关系，在ANN搜索中发展跨模态哈希(CMH)方法是很有必要的。具体地，在跨模态相似性搜索中，查询数据的模态与被检索数据的模态不同。本公开以图像检文本(I2T)和文本检图像(T2I)任务为例进行分析和实验，同时此方法可以扩展到其他任意模态之间的检索。现有的跨模态哈希(CMH)方法大多数是基于手动处理的特征，其特征提取和哈希码学习过程是独立进行的。这就可能会限制样本的判别表示，进而损坏学习的哈希码的准确性。最近，基于深度学习的哈希方法提出了一种端到端的学习框架同时学习特征表示和哈希编码，其能够比浅层学习方法更有效地捕获不同模态之间的非线性相关性。作为经典的方法，深度跨模态哈希(DCMH)将传统的深度模型扩展到跨模态检索中，并对每一种模态执行具有深度神经网络的端到端的学习框架。对间关系引导的深度哈希(PRDH)进一步整合多种对间约束，从模态间和模态内...

【技术保护点】
1.一种融合监督信息的跨模态哈希检索方法，其特征在于，包括以下步骤：构建图像网络，文本网络和融合网络；获取图像和文本特征训练样本对，分别输入图像网络和文本网络；将图像网络和文本网络的输出特征作为所述融合网络的输入，并定义所述融合网络的输出；根据所述融合网络的输出和对间相似性构建学习统一哈希码的目标函数；求解所述目标函数，得到统一哈希码；将所述统一哈希码作为监督信息，结合语义信息，训练特定模态的哈希网络。

【技术特征摘要】
1.一种融合监督信息的跨模态哈希检索方法，其特征在于，包括以下步骤：构建图像网络，文本网络和融合网络；获取图像和文本特征训练样本对，分别输入图像网络和文本网络；将图像网络和文本网络的输出特征作为所述融合网络的输入，并定义所述融合网络的输出；根据所述融合网络的输出和对间相似性构建学习统一哈希码的目标函数；求解所述目标函数，得到统一哈希码；将所述统一哈希码作为监督信息，结合语义信息，训练特定模态的哈希网络。2.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，所述图像网络包括5个卷积层和3个全连接层；文本网络包括两个全连接层；融合网络包括两个全连接层；其中，所述图像网络和文本网络最后一层的隐藏单元个数相等，融合网络的第二层为哈希层，并且其激活函数为判别函数。3.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，将所述图像网络和文本网络的输出特征通过非线性激活函数，得到所述融合网络的输入。4.如权利要求3所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，所述学习统一哈希码的目标函数为：其中，第一项是对间嵌入约束项，并且其中H*i、H*j分别表示不同训练样本对的融合网络输出，S＝{sij}表示对间相似性矩阵，B∈{-1,1}k×n表示统一的哈希码矩阵，p(sij|B)表示给定哈希码B时，sij的条件概率分布，λ表示超参；第二项最小化融合网络的输出和二进制码之间的损失，H＝h(Z；θz)∈Rk×n为融合网络的输出；第三项是平衡约束项，用来最大化每一位哈希码的信息，η表示超参，表示F范数。5.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，求解所述目标函数包括：初始化图像、文本和融合网络参数θ＝{θv,θt,θz}，和批量大小；固定网络参数θ＝{θv,θt,θz}，更新统一的哈希码B；然后固定B，利用小批量随...

【专利技术属性】
技术研发人员：张化祥，王粒，冯珊珊，任玉伟，刘丽，张庆科，朱磊，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人