基于三元组深度网络的跨模态哈希检索方法技术

技术编号：18237792 阅读：114 留言：0更新日期：2018-06-17 01:02

本发明专利技术提出了一种基于三元组深度网络的跨模态哈希检索方法，用于解决现有跨模态哈希检索方法中存在的检索精率低的技术问题。实现步骤为：对数据进行预处理，将数据分成训练数据和查询数据；获取图像训练数据和文本训练数据的哈希码；采用三元组监督信息建立目标损失函数；对目标损失函数进行顺序迭代优化；计算图像查询数据和文本查询数据的哈希码；获取查询数据的检索结果。本发明专利技术提供的方案采用三元组信息构建目标损失函数，增加语义信息，同时加入模态内的损失函数，增加方法的判别性，能够有效地提高跨模态检索的精度。本发明专利技术可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。 1

Cross modal hash retrieval method based on three tuple deep network

The invention proposes a cross modal hash retrieval method based on three tuple depth network, which is used to solve the technical problem of low retrieval precision in the existing cross modal hash retrieval method. The implementation steps are: preprocessing the data, dividing the data into training data and querying data, obtaining the hash code of the training data and the training data of the text; using the three tuple supervisory information to establish the target loss function, the sequence iteration optimization of the target loss function, and the calculation of the image query data and the text query data. Hash code; retrieve the result of query data. The proposed scheme uses three tuple information to build the target loss function, increase the semantic information, and add the loss function in the mode, and increase the discriminability of the method, and can effectively improve the accuracy of cross modal retrieval. The invention can be used for mutual search service of images and texts in Internet of things information retrieval, e-commerce and mobile devices. One

全部详细技术资料下载

【技术实现步骤摘要】
基于三元组深度网络的跨模态哈希检索方法
本专利技术属于计算机视觉
，涉及大规模的图像数据和文本数据之间的互相检索，具体是一种基于三元组深度网络的跨模态哈希检索方法，可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。
技术介绍
随着互联网技术和社交网站的飞速发展，每天都会产生海量的多媒体数据，比如文本，图像，视频和音频等，实现跨模态数据之间的互相检索已经成为信息检索领域中的研究热点。哈希方法法是一种非常有效的信息检索方法，具有低耗内存和快速检索的优点。哈希方法可以分成单模态哈希方法，多模态哈希方法和跨模态哈希方法。单模态哈希方法的查询数据和检索结果属于同一模态，数据特征来自同构特征空间。多模态哈希方法的查询数据和检索结果属于同一模态，数据特征来自异质特征空间。跨模态哈希方法的查询数据和检索结果属于不同模态，数据特征来自异质特征空间。跨模态哈希检索方法的核心思想是将不同模态的数据投影到一个通用的汉明空间，在这个空间中得到不同模态数据的哈希码，其中哈希码之间的汉明距离与原始数据之间的语义相似性相对应，然后通过计算哈希码之间的汉明距离返回检索结果。跨模态哈希方法可以分为无监督方法和有监督方法，无监督跨模态哈希方法主要通过挖掘和保持多模态数据的潜在相关性来获得哈希编码，而有监督跨模态哈希方法旨在利用训练数据类标信息的语义相似性，来提高哈希检索的检索精度。浅层的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程分开，导致两个过程不能很好的兼容。而深度的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程结合在一个端对端的深度网络中，提取多...
基于三元组深度网络的跨模态哈希检索方法

【技术保护点】
1.一种基于三元组深度网络的跨模态哈希检索方法，其特征在于，包括如下步骤：

【技术特征摘要】
1.一种基于三元组深度网络的跨模态哈希检索方法，其特征在于，包括如下步骤：(1)对数据进行预处理：确定两种模态的数据：图像数据和文本数据，提取文本数据的Bag-of-words特征，保留图像数据的原始像素特征，并将图像数据分成图像训练数据和图像查询数据，将文本数据分成文本训练数据和文本查询数据；(2)获取图像训练数据和文本训练数据的哈希码：将文本训练数据的Bag-of-words特征输入文本深度网络，得到文本训练数据哈希码，同时将图像训练数据的原始像素特征输入图像深度网络，得到图像训练数据哈希码；(3)采用三元组监督信息建立目标损失函数J：(3a)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码，不相似的文本训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立图像文本模态间的三元组损失函数J1；(3b)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码，不相似的图像训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立文本图像模态间的三元组损失函数J2；(3c)将图像文本模态间的三元组损失函数J1与文本图像模态间的三元组损失函数J2相加，得到模态间的三元组损失函数Jinter；(3d)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码，不相似的图像训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立图像模态内的三元组损失函数J3；(3f)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码，不相似的文本训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离和锚点数据和负例数据之间的汉明距离并利用和建立文本模态内的三元组损失函数J4；(3g)将图像模态内的三元组损失函数J3与文本模态内的三元组损失函数J4相加，得到模态内的三元组损失函数Jintra；(3h)利用步骤(2)得到的图像训练数据哈希码和文本训练数据哈希码计算图正则化损失函数Jre，并将图正则化损失函数Jre与模态间的三元组损失函数Jinter和模态内的三元组损失函数Jintra相加，得到目标损失函数J；(4)对目标损失函数J进行顺序迭代优化：对目标损失函数J进行顺序迭代优化，得到文本深度网络参数wx、图像深度网络参数wy和图正则化损失函数Jre中训练数据的统一哈希码B；(5)计算图像查询数据和文本查询数据的哈希码；(5a)将文本查询数据的Bag-of-words特征输入文本深度网络，得到文本查询数据哈希码其中，xq表示一个文本查询数据；(5b)将图像查询数据的原始像素特征输入图像深度网络，得到图像查询数据哈希码其中，yq表示一个图像查询数据；(6)获取查询数据检索结果：计算图像查询数据哈希码和文本训练数据哈希码之间的汉明距离θyx，同时计算文本查询数据哈希码和图像训练数据哈希码之间的汉明距离θxy，并按照由小到大的顺序对θyx和θxy分别进行排序，得到多个与查询数据距离较小的训练数据作为检索结果。2.根据权利要求1所述的基于三元组深度网络的跨模态哈希检索方法，其特征在于，步骤(3a)所述图像文本模态间的三元组损失函数J1，其表达式为：其中，x表示文本模态；y表示图像模态；表示三元组；qm，pm，nm分别表示锚点数据，正例数据和负例数据；表示图像深度网络输出的图像训练数据哈希码；表示文本深度网络输出的文本训练数据哈希码；k表示哈希码长度；N表示数据个数；M表示三元组个数；表示图像锚点训练数据和文本正例训练数据之间的汉明距离；表示图像锚点训练数据和文本负例训练数据之间的汉明距离；σ(x)表示sigmoid函数超参数α表示一个阈值参...

【专利技术属性】
技术研发人员：邓成，陈兆佳，李超，杨二昆，杨延华，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人