一种基于潜在语义最小哈希的图像检索方法技术

技术编号:13863953 阅读:153 留言:0更新日期:2016-10-19 16:17
本发明专利技术属于图像处理技术领域,具体涉及一种基于潜在语义最小哈希的图像检索方法,包括以下步骤:(1)划分数据集;(2)构建基于潜在语义最小哈希模型;(3)求解变换矩阵T;(4)对测试数据集Xtest进行哈希编码;(5)图像查询。本发明专利技术利用了卷积网络具有较好的表达特性以及利用矩阵分解能够提取原始特征的潜在语义特性,在编码量化阶段通过对量化误差做最小化约束,使得原始特征经过编码后,在语义上具有相似性的图像在汉明空间其对应的汉明距离较小,而语义上不相似的图像,其对应的汉明距离较大,从而提高了图像检索的精度以及索引的效率。

【技术实现步骤摘要】

本专利技术属于图像处理
,具体涉及一种图像检索技术,可以用于大规模商品图像的检索管理和图像搜索引擎等以图搜图领域。
技术介绍
在Web2.0时代,尤其是随着Flickr、Facebook等社交网站的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如,图像共享网站Flick截止到2014年12月份,总共上传的图片总量已经达到42.5亿,Facebook注册用户超过10亿,每月上传超过10亿的图片。如何更好地建立有效的检索机制,在浩瀚的图像库中实现方便、快速、准确地查询并检索到用户所需的图像信息,成为多媒体信息检索领域亟待解决的问题。从图像检索的发展方向看,可以分为基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR):基于文本的图像检索(TBIR)需要人工对图像中的语义内容进行手动标注,然后采用传统数据库技术或文本信息检索技术对图像的语义关键词进行存储、索引和检索。这种方法虽然成熟的数据库检索技术做支持,检索速度比较快,但随着图像数据规模的迅速增大,人工标注方法逐渐暴露出效率低下以及人工标注的主观性和不一致性等缺陷。基于内容的图像检索(CBIR)利用图像自身包含的丰富视觉信息,并且充分利用了计算机处理能力强以及长于处理重复任务的优点,克服了基于文本的图像检索在大数据时代的局限性。基于内容的图像检索过程大致分为三个步骤:①对图像库中图像提取颜色、轮廓、纹理、关键点等底层特征,生成高维特征描述子;②采用倒排文档、基于树结构或哈希等将生成的描述子建立有效的索引结构;③对用户输入的图像提取特征生成查询向量,在前面建立的索引结构中查找与查询向量相似的向量,返回与之对应的图像。通常,对图像特征表达的好坏直接决定了检索的精度。为了有效的对图像进行描述,研究者们提出了诸如BoW(Bag-of-Word)、VLAD(Vector of Locally
Aggregated Descriptors)、Fisher Vector、GIST、SPM(Spatial Pyramid Matching)等人工设计特征。这类人工设计的特征大部分将图像局部特征经过聚类后表示为空间向量模型。基于该类人工设计的特征,其检索精度很大程度上依赖于从图像提取的底层特征性质,并且该类特征在针对不同的任务时,需要人为干预选择出最适合该任务下的特征,并且从数据本身学习到的特征来讲,它们的普适性更差。相比于这类人工设计的特征,近几年,针对不同任务以神经网络为基础的深度学习(Deep Learning)在计算机视觉领域得到了空前的发展,卷积网络(CNN)的兴起极大地提高了物体识别、图像分类的精度,并开始将其应用于图像检索中。在“Babenko,A.,Slesarev,A.,Chigorin,A.,&Lempitsky,V.(2014).Neural codes for image retrieval.In Computer Vision–ECCV 2014(pp.584-599).”中作者分别利用重新训练的模型提取出的神经编码获得比Fisher Vector、VLAD以及稀疏编码特征更好的效果,并且在Holidays数据集上得到了目前为止最好的效果。由于卷积网络提取的特征通常高达几千维,并且图像数量庞大,使得基于线性扫描方式响应时间过长。为了降低特征存储空间,缩短搜索响应时间,研究人员提出了基于树结构的索引技术,诸如K-D树、R树以及改进的索引树结构,虽然已经取得了一些进展,但基于树的方法随着特征维数的增加其效果所下降,特别是对高维数据的搜索复杂度几乎逼近线性搜索。为此,P.Indyk and R.Motwani在“Approximate Nearest Neighbors:Towards Removing the Curse of Dimensionality,In STOC,1998”提出了经典的局部敏感哈希(Locality Sensitive Hashing),利用随机生成的哈希函数将原始特征编码成二值哈希序列。该方法的优点是,在一定范围内,随着哈希比特数的增加,相似图像的碰撞概率增加,其检索精度也会相应地增大。但为了保留原始数据之间的距离趋势,所需的哈希编码位数往往也比较长。随后,针对局部敏感哈希存在的不足,研究者提出了很多改进的方法以及不同的哈希函数构造方法。这些方法按学习策略可分为有监督方法、无监督方法和半监督方法。无监督方法在学习中没有使用样本的标记信息,所以在实际应用中更易于操作。比较典型的代表有在编码时使用PCA对原始数据进行降维的谱哈希“Y.Weiss,A.Torralba,and R.Fergus,“Spectral Hashing,”Proc.Advance in Neural
Information Processing Systems,pp.1753-1760,2008.”以及寻找最优旋转矩阵的迭代量化方法”Y.Gong,and S.Lazebnik,“Iterative Quantization:A Procrustean Approach to Learning Binary Codes,”in Proc.IEEE Conf.Computer Vision and Pattern Recognition,2011.“。相比于有监督和半监督哈希方法,由于没有加入标记信息,所以检索的准确率没有它们高。为了克服无监督方法检索精度不够的缺陷,研究者们提出了利用标记的样本进行训练构造哈希函数的有监督方法和半监督方法,有监督哈希方法典型的有BoostSSC方法“G.Shakhnarovich,P.Viola,and T.Darrell,Fast Pose Estimation with Parameter Sensitive Hashing,Proc.IEEE int’l Conf.Computer Vision,pp.750-757,2003.”,受限玻尔兹曼机(RBMs)方法“R.Salakhutdinov,and G.Hinton,Semantic Hashing,SIGIR workshop on Information Retrieval and Applications ofGraphical Models,2007.”,核哈希方法(KSH)方法“W.Liu,J.Wang,R.Ji,Y.Jiang,and S.Chang,Supervised Hashing with Kernels,in Proc.IEEE Conf.Computer Vision and Pattern Recognition,pp.2074-2081,2012.”;半监督哈希方法代表有半监督的紧凑哈希(S3PLH)方法“J.Wang,S.Kumar and S.Chang,Sequential Projection Learning for Hashing with Compact Codes,in Proc.IEEE Conf.Int’l Conf.on Machine Learning,pp.3344-3351,2010.”,和半监督哈希SSH方法“J.Wang,S本文档来自技高网
...

【技术保护点】
一种基于潜在语义最小哈希的图像检索方法,其特征在于:包括以下步骤:1】划分数据集:在数据集中随机抽取部分图像作为测试集,其余图像作为训练集;2】构建基于潜在语义最小哈希模型:2.1】使用卷积网络模型对测试集和训练集中的每一幅图像提取卷积网络特征,并对提取的卷积网络特征做L2规范化;训练集对应生成训练特征向量集Xtrain,测试集对应生成测试特征向量集Xtest;对Xtrain和Xtest进行统一的中心化处理;2.2】对中心化处理后的训练特征向量集Xtrain进行矩阵分解得到其潜在语义表示,同时在量化编码时对其作量化误差最小化限制;构造的潜在语义最小哈希模型为:argminT=||X-VU||F2+λ||Y-VT||F2+γ1||V||F2+γ2||U||F2]]>TTT=I其中,X为特征向量集,λ、γ1和γ2为权重参数,U为X经过矩阵分解后的基,V为X分解后得到的X的潜在语义表示变量,Y为X经过哈希编码后的哈希序列;3】求解变换矩阵T:将Xtrain代入X后,使用交替迭代方法求解所述潜在语义最小哈希模型,生成变换矩阵T;计算Y=sgn(VT),得到训练数据集的哈希序列Ytrain;4】对测试数据集Xtest进行哈希编码:4.1】随机初始化潜在语义表示变量V;4.2】计算编码后的哈希序列Y=sgn(VT);4.3】计算Xtest的潜在语义表示变量V=(XtestUT+λI)(UTU+λI+γ2I)‑1;4.4】重复步骤4.2】‑步骤4.3】,直至V收敛;4.5】计算Y=sgn(VT),得到测试数据集的哈希序列Ytest;5】图像查询:5.1】从Xtest中抽取某个查询样本xq,其在Ytest中对应的哈希序列为yq;分别计算yq与Ytrain的汉明距离后排序,生成查询样本xq对应的候选图像集Xcandidate;5.2】将得到的候选图像集Xcandidate与xq计算欧式距离后再重新排序,得到对应查询样本xq的查询结果Xresult,并显示出对应的图像。...

【技术特征摘要】
1.一种基于潜在语义最小哈希的图像检索方法,其特征在于:包括以下步骤:1】划分数据集:在数据集中随机抽取部分图像作为测试集,其余图像作为训练集;2】构建基于潜在语义最小哈希模型:2.1】使用卷积网络模型对测试集和训练集中的每一幅图像提取卷积网络特征,并对提取的卷积网络特征做L2规范化;训练集对应生成训练特征向量集Xtrain,测试集对应生成测试特征向量集Xtest;对Xtrain和Xtest进行统一的中心化处理;2.2】对中心化处理后的训练特征向量集Xtrain进行矩阵分解得到其潜在语义表示,同时在量化编码时对其作量化误差最小化限制;构造的潜在语义最小哈希模型为: arg min T = | | X - VU | | F 2 + λ | | Y - VT | | F 2 + γ 1 | | V | | F 2 + γ 2 | | U | | F 2 ]]>TTT=I其中,X为特征向量集,λ、...

【专利技术属性】
技术研发人员:李学龙卢孝强袁勇
申请(专利权)人:中国科学院西安光学精密机械研究所
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1