基于三元组深度网络的跨模态哈希检索方法技术

技术编号:18237792 阅读:114 留言:0更新日期:2018-06-17 01:02
本发明专利技术提出了一种基于三元组深度网络的跨模态哈希检索方法,用于解决现有跨模态哈希检索方法中存在的检索精率低的技术问题。实现步骤为:对数据进行预处理,将数据分成训练数据和查询数据;获取图像训练数据和文本训练数据的哈希码;采用三元组监督信息建立目标损失函数;对目标损失函数进行顺序迭代优化;计算图像查询数据和文本查询数据的哈希码;获取查询数据的检索结果。本发明专利技术提供的方案采用三元组信息构建目标损失函数,增加语义信息,同时加入模态内的损失函数,增加方法的判别性,能够有效地提高跨模态检索的精度。本发明专利技术可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。 1

Cross modal hash retrieval method based on three tuple deep network

The invention proposes a cross modal hash retrieval method based on three tuple depth network, which is used to solve the technical problem of low retrieval precision in the existing cross modal hash retrieval method. The implementation steps are: preprocessing the data, dividing the data into training data and querying data, obtaining the hash code of the training data and the training data of the text; using the three tuple supervisory information to establish the target loss function, the sequence iteration optimization of the target loss function, and the calculation of the image query data and the text query data. Hash code; retrieve the result of query data. The proposed scheme uses three tuple information to build the target loss function, increase the semantic information, and add the loss function in the mode, and increase the discriminability of the method, and can effectively improve the accuracy of cross modal retrieval. The invention can be used for mutual search service of images and texts in Internet of things information retrieval, e-commerce and mobile devices. One

【技术实现步骤摘要】
基于三元组深度网络的跨模态哈希检索方法
本专利技术属于计算机视觉
,涉及大规模的图像数据和文本数据之间的互相检索,具体是一种基于三元组深度网络的跨模态哈希检索方法,可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。
技术介绍
随着互联网技术和社交网站的飞速发展,每天都会产生海量的多媒体数据,比如文本,图像,视频和音频等,实现跨模态数据之间的互相检索已经成为信息检索领域中的研究热点。哈希方法法是一种非常有效的信息检索方法,具有低耗内存和快速检索的优点。哈希方法可以分成单模态哈希方法,多模态哈希方法和跨模态哈希方法。单模态哈希方法的查询数据和检索结果属于同一模态,数据特征来自同构特征空间。多模态哈希方法的查询数据和检索结果属于同一模态,数据特征来自异质特征空间。跨模态哈希方法的查询数据和检索结果属于不同模态,数据特征来自异质特征空间。跨模态哈希检索方法的核心思想是将不同模态的数据投影到一个通用的汉明空间,在这个空间中得到不同模态数据的哈希码,其中哈希码之间的汉明距离与原始数据之间的语义相似性相对应,然后通过计算哈希码之间的汉明距离返回检索结果。跨模态哈希方法可以分为无监督方法和有监督方法,无监督跨模态哈希方法主要通过挖掘和保持多模态数据的潜在相关性来获得哈希编码,而有监督跨模态哈希方法旨在利用训练数据类标信息的语义相似性,来提高哈希检索的检索精度。浅层的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程分开,导致两个过程不能很好的兼容。而深度的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程结合在一个端对端的深度网络中,提取多层抽象特征并能有效地捕捉不同模态数据之间的异质关联,提高检索精度。跨模态哈希检索技术的关键在于对不同模态数据的关系进行建模,难点就是跨越语义鸿沟,所以如何设计高精度的跨模态哈希检索方法是现阶段亟待解决的问题。当前,研究人员已经提出一些深度的有监督跨模态哈希检索方法。例如Qing-YuanJiang和Wu-JunLi在2017年的ComputerVisionandPatternRecognition会议中发表了名为“DeepCross-ModalHashing”的文章,公开了一种基于深度学习的跨模态哈希检索方法,文中提出将特征提取过程和哈希码学习过程结合在一个端对端的深度网络中,实现两个过程的兼容,提高检索精度。由于该方法使用成对监督信息建立目标损失函数,仅描述两个数据之间的成对关系缺乏丰富的语义信息,而且该方法只考虑模态间的相似性而忽略了模态内的相似性,检索精度还有待提高。
技术实现思路
本专利技术的目的在于针对上述已有技术的不足,提出基于三元组深度网络的跨模态哈希检索方法,用于解决现有跨模态哈希检索方法中存在的检索精度低的技术问题。为实现上述目的,本专利技术采取的技术方案包括如下步骤:(1)对数据进行预处理:确定两种模态的数据:图像数据和文本数据,提取文本数据的Bag-of-words特征,保留图像数据的原始像素特征,并将图像数据分成图像训练数据和图像查询数据,将文本数据分成文本训练数据和文本查询数据;(2)获取图像训练数据和文本训练数据的哈希码:将文本训练数据的Bag-of-words特征输入文本深度网络,得到文本训练数据哈希码,同时将图像训练数据的原始像素特征输入图像深度网络,得到图像训练数据哈希码;(3)采用三元组监督信息建立目标损失函数J:(3a)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立图像文本模态间的三元组损失函数J1;(3b)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立文本图像模态间的三元组损失函数J2;(3c)将图像文本模态间的三元组损失函数J1与文本图像模态间的三元组损失函数J2相加,得到模态间的三元组损失函数Jinter;(3d)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立图像模态内的三元组损失函数J3;(3f)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立文本模态内的三元组损失函数J4;(3g)将图像模态内的三元组损失函数J3与文本模态内的三元组损失函数J4相加,得到模态内的三元组损失函数Jintra;(3h)利用步骤(2)得到的图像训练数据哈希码和文本训练数据哈希码计算图正则化损失函数Jre,并将图正则化损失函数Jre与模态间的三元组损失函数Jinter和模态内的三元组损失函数Jintra相加,得到目标损失函数J;(4)对目标损失函数J进行顺序迭代优化:对目标损失函数J进行顺序迭代优化,得到文本深度网络参数wx、图像深度网络参数wy和图正则化损失函数Jre中训练数据的统一哈希码B;(5)计算图像查询数据和文本查询数据的哈希码;(5a)将文本查询数据的Bag-of-words特征输入文本深度网络,得到文本查询数据哈希码其中,xq表示一个文本查询数据,wx表示文本深度网络参数;(5b)将图像查询数据的原始像素特征输入图像深度网络,得到图像查询数据哈希码其中,yq表示一个图像查询数据,wy表示图像深度网络参数;(6)获取查询数据检索结果:计算图像查询数据哈希码和文本训练数据哈希码之间的汉明距离θyx,同时计算文本查询数据哈希码和图像训练数据哈希码之间的汉明距离θxy,并按照由小到大的顺序对θyx和θxy分别进行排序,得到多个与查询数据距离较小的训练数据作为检索结果。本专利技术与现有技术相比,具有以下优点:本专利技术使用一个端对端的深度网络将特征提取过程和哈希码学习过程结合在同一个框架中,实现两个过程的兼容,提出使用三元组监督信息构建目标损失函数,描述三个数据之间的相互关系以保留更丰富的语义信息,同时加入模态内的损失函数,增加目标损失函数的判别性,明显提高了跨模态哈希检索的精度。附图说明图1为本专利技术的实现流程图;图2为本专利技术与现有跨模态哈希检索方法在MIRFlicker25k数据库下的准确率-召回率实验结果曲线对比图,其本文档来自技高网
...
基于三元组深度网络的跨模态哈希检索方法

【技术保护点】
1.一种基于三元组深度网络的跨模态哈希检索方法,其特征在于,包括如下步骤:

【技术特征摘要】
1.一种基于三元组深度网络的跨模态哈希检索方法,其特征在于,包括如下步骤:(1)对数据进行预处理:确定两种模态的数据:图像数据和文本数据,提取文本数据的Bag-of-words特征,保留图像数据的原始像素特征,并将图像数据分成图像训练数据和图像查询数据,将文本数据分成文本训练数据和文本查询数据;(2)获取图像训练数据和文本训练数据的哈希码:将文本训练数据的Bag-of-words特征输入文本深度网络,得到文本训练数据哈希码,同时将图像训练数据的原始像素特征输入图像深度网络,得到图像训练数据哈希码;(3)采用三元组监督信息建立目标损失函数J:(3a)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立图像文本模态间的三元组损失函数J1;(3b)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立文本图像模态间的三元组损失函数J2;(3c)将图像文本模态间的三元组损失函数J1与文本图像模态间的三元组损失函数J2相加,得到模态间的三元组损失函数Jinter;(3d)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立图像模态内的三元组损失函数J3;(3f)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立文本模态内的三元组损失函数J4;(3g)将图像模态内的三元组损失函数J3与文本模态内的三元组损失函数J4相加,得到模态内的三元组损失函数Jintra;(3h)利用步骤(2)得到的图像训练数据哈希码和文本训练数据哈希码计算图正则化损失函数Jre,并将图正则化损失函数Jre与模态间的三元组损失函数Jinter和模态内的三元组损失函数Jintra相加,得到目标损失函数J;(4)对目标损失函数J进行顺序迭代优化:对目标损失函数J进行顺序迭代优化,得到文本深度网络参数wx、图像深度网络参数wy和图正则化损失函数Jre中训练数据的统一哈希码B;(5)计算图像查询数据和文本查询数据的哈希码;(5a)将文本查询数据的Bag-of-words特征输入文本深度网络,得到文本查询数据哈希码其中,xq表示一个文本查询数据;(5b)将图像查询数据的原始像素特征输入图像深度网络,得到图像查询数据哈希码其中,yq表示一个图像查询数据;(6)获取查询数据检索结果:计算图像查询数据哈希码和文本训练数据哈希码之间的汉明距离θyx,同时计算文本查询数据哈希码和图像训练数据哈希码之间的汉明距离θxy,并按照由小到大的顺序对θyx和θxy分别进行排序,得到多个与查询数据距离较小的训练数据作为检索结果。2.根据权利要求1所述的基于三元组深度网络的跨模态哈希检索方法,其特征在于,步骤(3a)所述图像文本模态间的三元组损失函数J1,其表达式为:其中,x表示文本模态;y表示图像模态;表示三元组;qm,pm,nm分别表示锚点数据,正例数据和负例数据;表示图像深度网络输出的图像训练数据哈希码;表示文本深度网络输出的文本训练数据哈希码;k表示哈希码长度;N表示数据个数;M表示三元组个数;表示图像锚点训练数据和文本正例训练数据之间的汉明距离;表示图像锚点训练数据和文本负例训练数据之间的汉明距离;σ(x)表示sigmoid函数超参数α表示一个阈值参...

【专利技术属性】
技术研发人员:邓成陈兆佳李超杨二昆杨延华
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1