当前位置: 首页 > 专利查询>复旦大学专利>正文

面向图像检索的深度强化去冗余哈希算法制造技术

技术编号:22000233 阅读:22 留言:0更新日期:2019-08-31 05:24
本发明专利技术属于图像检索技术领域,具体为面向图像检索的深度强化去冗余哈希算法。本发明专利技术算法包括:分块哈希码推理,利用图像的标签信息构筑相似性矩阵,然后依照该相似性矩阵推理每幅图像的最优哈希码,其中相似性矩阵较为巨大,采用分块方式进行求解;图像‑哈希码映射,将图像的原始像素信息映射到已推理出的最优哈希码上,这一映射过程利用多分类来实现;哈希码冗余位去除,去除已产生的哈希码中对检索精度没有帮助甚至有害的哈希位,这一过程通过深度强化学习训练一个代理,由该代理来寻找一个最优掩码,从而利用此掩码便可去除冗余的哈希位。本发明专利技术训练速度更快,计算开销和存储开销省,检索精度高。

Deep Enhanced Redundant Hashing for Image Retrieval

【技术实现步骤摘要】
面向图像检索的深度强化去冗余哈希算法
本专利技术属于图像检索
,具体涉及面向图像检索的深度强化去冗余哈希算法。
技术介绍
随着社交媒体的迅速发展,每天都有大量的多媒体数据产生,包括文本、图像、视频等。为了能够高效地对这些非结构化的数据进行检索,有许多方法曾被提出。最近,近似最近邻检索由于其较高的检索精度、以及较低的计算开销得到越来越多的关注。在各种近似最近邻检索方法中,哈希算法是目前最具潜力的一种方法,其可为高维数据生成紧凑的二进制哈希码,并利用这些哈希码在海明空间中进行检索。本专利技术所关注的是基于学习的哈希算法,其是一种数据相关的算法。与数据无关的算法相比,其能利用监督信息生成更高质量的哈希码,从而在加速检索速度的同时得到更高的检索精度。十几年来,有许多哈希算法被提出过。最近,由于深度学习的巨大成功,深度哈希算法正得到越来越多研究者的关注。深度神经网络极强的拟合能力使得其能拟合任何非线性的哈希函数,另外深度哈希算法也能够以一种端到端的方式来同时完成特征学习和哈希码学习两项任务。在许多公开大规模数据集上,深度哈希算法都能以更简短的哈希码达到更好的检索水平。比如,RobustDiscreteCodeModelingforSupervisedHashing一文提出一种新颖的哈希算法,其能利用离散优化来学习到一组最优的哈希码,从而回避量化误差问题,同时还能处理带有噪声的哈希码和语义标签。虽然许多哈希算法都能提供较好的检索精度和较高的检索性能。然而目前主流的哈希算法都存在两个主要缺陷。首先,由于计算资源的限制,大多数哈希算法只能以小批量(mini-batch)方式进行训练,这使得它们在数据采样方面非常低效。假设训练数据集中一共有n幅图像,则对于逐对式(pair-wise)哈希算法而言,一共有个图像对,其数量级是同理,对于三元组式(triplet-wise)哈希算法而言,一共有个三元组,其数量级是对于这两类哈希算法而言,采样到足够的样本需要花费大量时间。而若没有足够的样本,则哈希算法只能保持局部相似性而无法保持全局相似性,从而会降低检索精度。其次,对于绝大多数的哈希算法而言,其所生成的哈希码往往包含某种程度的冗余。在所生成的哈希码中,一些位(bit)可被完全丢弃而不会影响到检索精度;甚至这些位的存在有可能会降低检索精度。造成这种冗余的原因有两个,其一是训练数据集中的噪声,其二便是上述常用的基于小批量的训练方法。
技术实现思路
本专利技术为解决现有哈希算法的低采样效率、无法保持全局相似性、哈希码包含冗余这三个问题,而提出一种提供面向图像检索的深度强化去冗余哈希算法。本专利技术提供的面向图像检索的深度强化去冗余哈希算法,包含分块哈希码推理、图像-哈希码映射、哈希码冗余位去除三个步骤;其中:步骤1、分块哈希码推理,先利用图像的标签信息构筑相似性矩阵S,然后依照该相似性矩阵来推理每幅图像的最优哈希码;其中相似性矩阵可能较为巨大,因而采用分块方式进行求解;步骤2、图像-哈希码映射,用于将图像的原始像素信息映射至已推理出的最优哈希码上,这一映射过程利用多分类来实现;步骤3、哈希码冗余位去除,用于去除已产生的哈希码中对检索精度没有帮助甚至有害的哈希位;这一过程是通过深度强化学习训练一个代理,由该代理来寻找一个最优掩码,利用此掩码便可去除冗余哈希位。进一步,步骤1所述分块哈希码推理的具体流程为,直接利用图像的标签信息而不涉及图像的原始像素信息,因而有着较高的训练速度。其先利用标签构建相似性矩阵:S=min(YYT,1)×2-1(1)其中,是每一幅图像的标签,每个标签包含m个语义类别。然后,尝试用哈希码来重建这一相似性矩阵,并尽可能使重建的相似性矩阵靠近原始的相似性矩阵:其中,是每一幅图像的哈希码,k是哈希码的长度(共计k位),S是上述相似性矩阵。这里,相似性矩阵S可能非常巨大,需要分块进行计算。假设每次选择计算一个高为h、宽为w的一个分块,则整体的损失函数为:其中,r与c是分块左上角元素的坐标,是连续化之后的哈希码,是矩阵中的第r行至第r+h-1行,其他同理。进一步,步骤2所述图像-哈希码映射的流程为:利用深度卷积神经网络(ConvolutionalNeuralNetwork,CNN)对图像提取特征,并将图像映射至前一阶段推理所得的哈希码上。这里,使用两种不同的CNN来进行映射,一种是8层的AlexNet,另一种是18层的ResNet。图像经过神经网络后,输出一个k维向量F(xi;θ),其中k是哈希码的长度(k位),xi是第i幅图像,θ是神经网络的参数。该向量经过一个sigmoid层将每一个维度转化为一个0~1之间的概率,此概率表示哈希码中该位为1的概率。然后,将这一概率值与前述推理所得的哈希码进行对比,逐位计算交叉熵(CrossEntropy)损失并反向传播(back-propagation),从而对神经网络的参数进行更新;交叉熵的损失函数为:其中,xi为第i幅图像的特征,θ为神经网络的参数,F(xi;θ)为神经网络最后一层全连接层的输出,σ(·)为sigmoid函数,zi为前一阶段推理所得的哈希码。进一步,步骤3所述哈希码冗余位去除的流程为:利用深度神经网络来训练一个代理(Agent),通过该代理学习到一个掩码(Mask),利用此掩码可遮掩掉哈希码中多余的位。这里,使用深度Q网络(DeepQNetwork)来训练该代理。深度Q网络包含三个要素:状态、动作和奖励。具体地,把当前掩码作为状态(State),把交换两个不同数值的位作为动作(Action),把用当前掩码遮掩之后的哈希码检索所得的平均检索精度(mAP)作为奖励(Reward)。然后,Q网络对当前状态s下采取某个动作a所获得的价值Q进行估计,根据这个估计与真实Q值的差异构造损失函数并反向传播,从而对深度Q网络进行训练:其中,s是当前状态,a是当前状态下采取的动作,Qpred是对Q值的估计,Qgt是真实的Q值,βpred是用于估计Q值的网络的参数,βgt是充当真实Q值的网络的参数。最后,代理依据深度Q网络对当前状态s和某个动作a的价值估计,每次都选择价值最高的那个动作最终达到一个较优状态(掩码),用那个掩码遮掩掉哈希码中的冗余位即可。本专利技术提供面向图像检索的深度强化去冗余哈希算法,包括:步骤一、所述分块哈希码推理,利用图像标签构建相似性矩阵,并利用分块计算的方式来逐块计算相似性损失,并将各块相似性损失累加起来然后进行反向传播,从而推理到一组能较好保持语义相似性的哈希码;步骤二、所述图像-哈希码映射,将图像映射至分块哈希码推理所得到的哈希码上;步骤三、所述哈希码冗余位去除,利用深度Q网络训练一个代理,并利用该代理学习到到的一个最优掩码,从而遮掩掉步骤二中映射所获得的哈希码中冗余位。本专利技术的优点包括:首先,本专利技术采用分块计算的方式进行哈希码推理,从而可处理任意大小的相似性矩阵,并能保持全局相似性信息,同时由于推理过程不涉及图像信息,因此训练速度更快。其次,本专利技术利用深度强化学习来对哈希码去冗余,在保持检索精度的情况下,去除哈希码中的冗余位,从而节省计算开销和存储开销。最后,本专利技术基于公开数据集CIFAR-10、NUS-WIDE、MS-COCO以及OpenImageV4取得本文档来自技高网
...

【技术保护点】
1.一种面向图像检索的深度强化去冗余哈希算法,其特征在于,具体步骤为:步骤1、分块哈希码推理,先利用图像的标签信息构筑相似性矩阵S,然后依照该相似性矩阵来推理每幅图像的最优哈希码;其中相似性矩阵较为巨大,采用分块方式进行求解;步骤2、图像‑哈希码映射,将图像的原始像素信息映射至已推理出的最优哈希码上,这一映射过程利用多分类来实现;步骤3、哈希码冗余位去除,去除已产生的哈希码中对检索精度没有帮助甚至有害的哈希位;这一过程是通过深度强化学习训练一个代理,由该代理来寻找一个最优掩码,利用此掩码去除冗余哈希位。

【技术特征摘要】
1.一种面向图像检索的深度强化去冗余哈希算法,其特征在于,具体步骤为:步骤1、分块哈希码推理,先利用图像的标签信息构筑相似性矩阵S,然后依照该相似性矩阵来推理每幅图像的最优哈希码;其中相似性矩阵较为巨大,采用分块方式进行求解;步骤2、图像-哈希码映射,将图像的原始像素信息映射至已推理出的最优哈希码上,这一映射过程利用多分类来实现;步骤3、哈希码冗余位去除,去除已产生的哈希码中对检索精度没有帮助甚至有害的哈希位;这一过程是通过深度强化学习训练一个代理,由该代理来寻找一个最优掩码,利用此掩码去除冗余哈希位。2.根据权利要求1所述的面向图像检索的深度强化去冗余哈希算法,其特征在于,步骤1所述分块哈希码推理,具体过程为:首先,利用图像标签信息构建相似性矩阵:S=min(YYT,1)×2-1(1)其中,是每一幅图像的标签,每个标签包含m个语义类别;然后,试用哈希码来重建这一相似性矩阵,并尽可能使重建的相似性矩阵靠近原始的相似性矩阵:其中,是每一幅图像的哈希码,k是哈希码的长度,共计k位,S是上述相似性矩阵;相似性矩阵S非常巨大,需要分块进行计算:假设每次选择计算一个高为h、宽为w的一个分块,则整体的损失函数为:其中,r与c是分块左上角元素的坐标,是连续化之后的哈希码,是矩阵中的第r行至第r+h-1行,其他同理进行。3.根据权利要求2所述的面向图像检索的深度强化去冗余哈希算法,其特征在于,步骤2所述图像-哈希码映射的具体流程为:利用深度卷积神经网络对图像提取特征,并将图像映射至前一阶段推理所得的哈希码上;这里,使用两种不同的CNN来进行映射,一种是8层的AlexNet,另一种是...

【专利技术属性】
技术研发人员:张玥杰杨觉旭张涛
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1