一种基于分层深度哈希的大规模图像检索方法技术

技术编号:24206692 阅读:69 留言:0更新日期:2020-05-20 14:58
本发明专利技术公开的一种基于分层深度哈希的大规模图像检索方法,包括:构建分层哈希网络模型,利用高级语义信息标注的标签,逐级优化生成的分层哈希层输出值,利用反向传播算法训练分层哈希网络模型,得到训练好的分层哈希网络模型;将图像输入至训练好的分层哈希网络模型,将各个哈希层输出的数值二值化得到分层哈希值;对提取的分层哈希值建立树状索引;对待检索的图像使用神经网络提取查询图像的哈希值,利用距离度量法在树状索引中逐级搜索在给定阈值距离范围内的索引分枝和相关图像,按照给定比例过滤超出给定阈值距离范围的哈希值。本发明专利技术可以快速地在图像库中搜索出相似图像,提高了图像检索系统的响应速度。

A large scale image retrieval method based on hierarchical depth hash

【技术实现步骤摘要】
一种基于分层深度哈希的大规模图像检索方法
本专利技术属于数字图像检索
,涉及一种基于分层深度哈希的大规模图像检索方法。
技术介绍
视频图像是人们获取客观世界信息的重要途径,基于内容的图像检索,可以通过图像的内容来检索与之相似的图像。然而大型图像视频库中,由于图像规模的巨大,导致获取到相似内容的图像视频的速度缓慢,给图像检索技术的应用带来了极大困难。基于内容的图像检索是信息检索和计算机视觉领域的重要课题之一,基于内容的图像检索技术可以从图像视频库中检索出内容相似的图像和视频。图像可以用特征向量来衡量相似度,利用特征提取器,将图像转换为特征向量。对于特征提取器,需要满足,对于相似内容图像的特征,拥有距离较近的特征向量,距离度量方法可以用欧式距离、汉明距离、余弦距离等。相似向量的搜索,对图像提取的特征通常是维度很高的信息,由于采用距离度量的方法,对其直接度量相似度会导致速度较慢,因此大多采用启发式搜索算法,或称近似最近邻(ApproximateNearestNeighbor)搜索算法寻找相似向量,具体类别有哈希、量化、图搜索等方法。特征向量的提取方法主要有以下三种:1.基于局部描述子的方法,例如SIFT描述子由于对单张图像生成的SIFT描述子数量不定,较少用于做检索;2.基于全局描述子的方法,通过局部描述子的融合或者直接提取的全局描述子,比如有Fisher、Gist等方法在基于神经网络算法在今年取得突破之前是常用的方法;3.基于卷积神经网络的方法。基于卷积神经网络可以提取高级的描述子,与较低级特征相比含有更多语义信息,而且具有对尺度、光照、旋转等不变性,拥有更强的鲁棒性。在实际使用中效果更好。由于特征向量具有高维度、稀疏的特点,直接搜索其最近邻的向量效率不高。所以通常是通过近似最近邻搜索的方法得到其较为相似的特征向量,近似最近邻的方法主要可以分为三种:1.以局部敏感哈希(LocalitySensitiveHashing)为代表的与数据无关算法。2.以乘积量化算法(ProductiveQuantization)为代表的无监督的与数据相关的算法3.以卷积神经网络深度哈希(DeepHashing)为代表的与数据相关的有监督算法。对于目前检索准确度效果出众的深度哈希算法,使用卷积神经网络,从图像提取特征向量的同时生成了图像的索引。卷积神经网络提取的特征向量比其他低级描述子提供了更富含高级语义的信息,利用卷积神经网络可以较其他方法更多的在语义层次上做相似索引。通过在CNN网络中添加隐含层,通过Fine-tune网络训练,对图像提取特征向量并直接生成二值化哈希码,用于图像检索。将向量提取和检索两个子问题合二为一。为了有效利用众多人工提取的标注信息,深度哈希算法可以利用监督学习,通过图像标签信息,对输入网络的相似图像和不相似图像分别计算哈希并分别哈希值距离,并加入到损失函数中,通过反向传播网络权重。从而通过监督,学习到对图像相似或不相似的信息。但是目前深度哈希的结构采用单层结构,采用线性的索引与搜索方法,对于大规模图像数据集的检索效率不够高。深度哈希算法使用了深度卷积神经网络提取图像特征,然后对提取的特征向量做压缩、降维和二值化生成一个二值向量。对这个二值向量比较相似度可以衡量图像之间的相似度。而每次查询相似图像的时候,需要对每个特征向量做比对,如果图像数据库的规模为N,则查询一张图像的算法复杂度为O(N),因此其性能随着数据集的扩大不断变差。对于规模较大的数据库,例如100万量级的图像数据库,目前对图像检索的时间比对图像处理生成哈希值的时间相比慢上千倍。因此,现有深度哈希的检索算法在搜索速度上难以取得令人满意的效果。因此,提供一种有效提高图像搜索准确性和效率的基于分层深度哈希的大规模图像检索方法是本领域技术人员亟待解决的技术问题。
技术实现思路
本专利技术针对现有去哈希算法中速度慢、准确度低的问题,本专利技术提出一种基于深度哈希的分层检索算法。提出了分层哈希网络,通过对特征向量分段,将检索过程分为几个依次进行的子过程,逐级查询缩小检索范围。通过对标签的监督信息,学习相似哈希,同时通过多级损失函数的设计,拟合多级索引。从而减少运算量,加快检索速度。为实现上述目的其具体方案如下:一种基于分层深度哈希的大规模图像检索方法,包括如下步骤:S1、构建分层哈希网络模型,利用高级语义信息标注的标签,逐级优化生成的分层哈希层输出值,利用反向传播算法训练分层哈希网络模型并不断优化,得到训练好的分层哈希网络模型;S2、将图像库的图像输入至训练好的分层哈希网络模型,将各个哈希层输出的数值二值化得到分层哈希值;S3、对提取的分层哈希值建立树状索引;S4、对待检索的图像输入至训练好的分层哈希网络模型提取查询图像的哈希值,利用距离度量法在所述树状索引中逐级搜索在给定阈值距离范围内的索引分枝和相关图像,在搜索过程中,按照给定比例过滤超出给定阈值距离范围的哈希值。优选的,所述S1中构建的分层哈希网络模型包括两部分,第一部分是使用预训练的深度卷积神经网络对输入的图像提取图像特征,其中,预训练的深度卷积神经网络作为预图像分类网络,拆除预图像分类网络最后的分类全连接层,剩下的前段网络用作特征提取器进行图像特征提取;第二部分是在特征提取器后添加的分层训练的哈希层。优选的,所述训练好的分层哈希网络模型中不同哈希层具有不同长度的分层哈希值。分层哈希网络由不同长度的哈希值组合对于同一组图像数据,可以用不同网络生成多个不同长度的哈希值,也可以由同一网络同时训练生成不同长度的哈希值。对于以上方法生成的哈希值,由于多个不同哈希值之间相互独立,较长长度的哈希里已经包含了较短长度的哈希信息,所以通过去除冗余信息可以减少哈希向量的长度,可以通过设计损失函数实现这一功能。具体流程如下:1)在图像、标签数据库随机选取相似样本对和不相似样本对。2)输入预训练的CNN模型中,前向传播,得到原始的特征向量3)对特征向量后,经过全连接层计算各级哈希值,并通过是否相似的标签信息得到损失函数。4)对损失函数前向传播,更新网络权重。优选的,所述S3中,按照层次化的分层哈希值建立树状索引,包括高级索引和低级索引,先按照高级索引对哈希值进行分类,高级哈希值下还具有若干低级索引,若干低级索引中重复按照高级索引对哈希值分类,直到最后只剩下一级索引,最后存储为一个列表,列表中的每一项是一个同时记录了图像文件路径或ID与低级索引的二元组。树状索引的高度为分层哈希层的数量,每层下的分叉数量取决于哈希值长度,对于每层的节点,若其哈希值长度为N,那么其树节点的分叉数量最大2N。优选的,所述S4中对树状索引的分层过滤搜索过程,通过对高级索引的比对,过滤掉超出给定阈值距离范围的分支结果,从而减少搜索需遍历的索引结构数量,从而加快搜索过程。本专利技术相较现有技术具有以下有益效果:本专利技术考虑到深度哈希算法搜索需要对整个索本文档来自技高网
...

【技术保护点】
1.一种基于分层深度哈希的大规模图像检索方法,其特征在于,包括如下步骤:/nS1、构建分层哈希网络模型,利用高级语义信息标注的标签,逐级优化生成的分层哈希层输出值,利用反向传播算法训练分层哈希网络模型并不断优化,得到训练好的分层哈希网络模型;/nS2、将图像库的图像输入至训练好的分层哈希网络模型,将各个哈希层输出的数值二值化得到分层哈希值;/nS3、对提取的分层哈希值建立树状索引;/nS4、对待检索的图像输入至训练好的分层哈希网络模型提取查询图像的哈希值,利用距离度量法在所述树状索引中逐级搜索在给定阈值距离范围内的索引分枝和相关图像,在搜索过程中,按照给定比例过滤超出给定阈值距离范围的哈希值。/n

【技术特征摘要】
1.一种基于分层深度哈希的大规模图像检索方法,其特征在于,包括如下步骤:
S1、构建分层哈希网络模型,利用高级语义信息标注的标签,逐级优化生成的分层哈希层输出值,利用反向传播算法训练分层哈希网络模型并不断优化,得到训练好的分层哈希网络模型;
S2、将图像库的图像输入至训练好的分层哈希网络模型,将各个哈希层输出的数值二值化得到分层哈希值;
S3、对提取的分层哈希值建立树状索引;
S4、对待检索的图像输入至训练好的分层哈希网络模型提取查询图像的哈希值,利用距离度量法在所述树状索引中逐级搜索在给定阈值距离范围内的索引分枝和相关图像,在搜索过程中,按照给定比例过滤超出给定阈值距离范围的哈希值。


2.根据权利要求1所述的一种基于分层深度哈希的大规模图像检索方法,其特征在于,所述S1中构建的分层哈希网络模型包括两部分,第一部分是使用预训练的深度卷积神经网络对输入的图像提取图像特征,其中,预训练的深度卷积神经网络作为预图像分类网络,拆除预图像分类网络最后的分类全连接层,剩下的前段网络用作特征提取器进行图像特征...

【专利技术属性】
技术研发人员:张永飞彭程张景涛李波
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1