一种面向图像检索的对象级深度特征聚合方法技术

技术编号:15294513 阅读:54 留言:0更新日期:2017-05-11 11:21
本发明专利技术涉及数字媒体领域,提供一种面向图像检索的对象级深度特征聚合方法。首先采用无监督的方法生成可能包含对象的候选区域,然后提取其对应的卷积神经网络特征,最终聚合这些区域特征得到对图像变换具有高鲁棒性的图像特征表示用于图像检索应用。本发明专利技术针对现有模型对于几何变换和空间布局不变性的缺乏,以基于对象的方式,解决了现有技术的不足,该方法生成的图像特征具有对图像几何变换和空间布局变换的高鲁棒性,提高了图像检索的准确度,其次得到的图像特征十分紧凑简洁,减少了图像间相似度计算的复杂度,提高了检索效率。

Object level depth feature aggregation method for image retrieval

The invention relates to the field of digital media, and provides an object level depth feature aggregation method for image retrieval. The method of unsupervised generation may contain candidate regions of the object, then the corresponding convolution neural network feature extraction, the final polymerization of these regional characteristic image features with high robustness to image transform representation for image retrieval applications. The present invention model for the lack of geometric transformation invariance and spatial layout, based on the way to the object, solves the defects of the existing technology, the image features generated by this method has high robustness to the image geometry transform and spatial layout transformation, improves the image retrieval accuracy, image feature and obtain very compact simple, reduce the complexity of image similarity calculation, improves the efficiency of retrieval.

【技术实现步骤摘要】

本专利技术属于数字媒体领域,涉及一种面向图像检索的对象级深度特征聚合方法
技术介绍
基于内容的图像检索作为计算机视觉领域的一个重要研究问题,在过去的十年里受到国内外学者的广泛关注。基于内容的图像检索是指从图像数据库中查找出与查询图像相似的图像。因为拍摄时角度、距离、环境等因素的不同,会造成相似或相同的拍摄对象在不同图像有着很大的变化,如尺度、视角、布局等变化。因此生成一个对各种图像变化具有高鲁棒性的图像特征,是解决图像检索问题的关键。相对于传统的基于人工设计的图像特征,基于学习的方法尤其是卷积神经网络已经在图像特征提取上显示出的强大的能力,在图像分类和目标检测等计算机视觉任务上取得了巨大的成功。在图像检索问题中,目前有基于全局和基于局部两种卷积神经网络特征表示方法。基于全局的方法,直接使用卷积神经网络提取整幅图像的特征,作为最终的图像特征。但是因为卷积神经网络主要对全局空间信息进行编码,导致所得特征缺乏对图像的尺度、旋转、平移等几何变换和空间布局变化的不变性,限制了其对于高度易变图像检索的鲁棒性。对于基于局部的方法,使用卷积神经网络提取图像局部区域的特征,然后聚合这些区域特征生成最终的图像特征。虽然这些方法考虑到了图像的局部信息,使得特征相对于全局方法对各类变化具有更高的鲁棒性,但是这些方法中仍有一些缺陷。例如使用滑动窗口的方法来得到图像区域(参考YunchaoGong,LiweiWang,RuiqiGuo,SvetlanaLazebnik在EuropeanConferenceonComputerVision2014年第392-407页发表的文章“Multi-scaleorderlesspoolingofdeepconvolutionalactivationfeatures”),因没有考虑到图像的颜色、纹理、边缘等视觉内容,产生大量无语义意义的区域,为之后的聚合过程带来冗余和噪声信息。另外,区域特征融合通常所使用的最大池化算法(参考KondaReddyMopuri,R.VenkateshBabu在ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognitionWorkshops2015年第62-70页发表的文章“Objectleveldeepfeaturepoolingforcompactimagerepresentation”),因只保留了特征的最大响应而没有考虑特征间的关联,丢失大量信息,降低了所得的最终图像特征的区分性。本专利技术通过基于对象的方法来解决以上问题。在生成图像区域时,使用基于内容的无监督对象生成方法,即通过图像颜色、纹理、边缘等视觉信息以聚类的方式来生成图像区域。因为图像中同一个语义对象会有一定的视觉相似性,这样得到的图像区域在很大概率上会包含一个对象或者对象的一部分。同时,一幅场景图像通常是由一些对象构成,对这些对象的解析是理解场景的关键。因此基于内容生成的图像区域相对于简单的滑动窗口包含更多有语义意义的视觉信息,其特征描述也具有更高的区分性,同时基于对象特征进行融合,所得最终特征对场景中对象的空间布局变化也具有很好的鲁棒性。在聚合特征的过程时,采用VLAD(VectorofLocallyAggregatedDescriptors)算法,先将图像区域特征进行聚类,然后统计一幅图像中所有区域特征与其相近聚类中心的累积残差来表示最终的图像特征。相对于最大池化算法,该方法考虑了区域特征间关联的同时对图像的局部信息有更细致的刻画,使得得到的最终图像特征对各类图像变换具有更高鲁棒性。
技术实现思路
针对现有技术的不足,本专利技术提供一种面向图像检索的对象级深度特征聚合方法,生成对图像几何变换和对象空间布局变化具有高鲁棒性的图像特征用于图像检索应用。本专利技术的技术方案为:一种面向图像检索的对象级深度特征聚合方法,包括以下步骤:步骤1,对数据库中的每一张图像采用SelectiveSearch算法提取候选区域,生成很可能包含物体的图像候选区域。所述的SelectiveSearch(SelectiveSearchforObjectRecognition)算法为一种利用视觉信息基于分层区域合并的图像分割方法,能够生成类独立且高质量的多尺度候选区域。相对于滑动窗口,包含物体的候选区域的特征描述具有更高的区分性,同时基于对象的方式也能提高融合特征对空间布局变换的鲁棒性。步骤2,选择被广泛采用的卷积神经网络结构模型,并在公共数据库上对卷积神经网络进行预训练。步骤3,采用训练完成的卷积神经网络提取所有图像候选区域的特征3.1)将图像候选区域进行缩放填充到固定大小后,作为卷积神经网络的输入;3.2)将卷积神经网络的全连接层FC7的输出作为该图像候选区域的描述特征。步骤4,对步骤3得到的候选区域的描述特征采用主成分分析算法进行降维,将其维度降为N维,得到低维候选区域特征;降维能够减少之后计算的复杂度,提高效率。步骤5,对步骤4得到的低维候选区域特征采用K均值聚类算法进行无监督聚类,聚成K个聚类中心。步骤6,对步骤4得到的属于同一张图像的低维候选区域特征和步骤5得到的K个聚类中心,采用VLAD算法进行聚合,每张图像得到一个维度为N*K维的VLAD特征。所述的VLAD(VectorofLocallyAggregatedDescriptors)算法为基于统计的融合方法,其统计了区域特征与其相近聚类中心的累积残差来表示最终的图像特征;相对于简单的池化算法,该算法对图像内容具有更加细致的描述,生成的特征对图像变换具有更高鲁棒性。步骤7,对步骤6得到的VLAD特征采用主成分分析算法进行降维,将其维度降为D维,生成简洁的图像特征。降维能够减少相似度计算复杂度和噪声,其中图像间的相似度由图像特征间的欧式距离来度量。本专利技术的有益效果为生成的图像特征具有对图像几何变换和空间布局变换的高鲁棒性,极大地提高了图像检索的准确率,其次得到的图像特征十分紧凑简洁,减少了图像间相似度计算的复杂度。附图说明图1为本专利技术深度特征聚合的流程图。图2为图像检索结果的示意图,最左图为查询图像,其余图像为检索到的相似图像,从左到右依次按照相似度由高到低排序。具体实施方式以下结合技术方案和附图详细叙述本专利技术的具体实施例。实施例1:相似图像的检索1.图1为本专利技术的流程图,首先对库图像的所有图像使用SelectiveSearch算法的快速模式进行候选区域的提取,平均每张图像能够得到约2000个尺寸不一的候选区域。2.本专利技术采用Krizhevsky等人的卷积神经网络结构Alex网络,输入为224*224的RGB图像,包括五层卷积层、三层最大池化层和三层全连接层。使用Caffe框架训练该网络,训练数据为ILSVRC12比赛中的1000类分类数据集。3.网络训练完成后,将步骤1得到的候选区域通过填充和缩放到固定大小224*224后作为网络的输入,提取全连接层fc7的输出作为对应候选区域的特征,其大小为4096维。4.使用主成分分析算法对所有候选区域的特征进行降维,得到低维候选区域特征,其中相应的字典维度大小为512*4096,即将所有候选区域的特征维度从4096维降到512维。5.使用K均值聚类算本文档来自技高网
...
一种面向图像检索的对象级深度特征聚合方法

【技术保护点】
一种面向图像检索的对象级深度特征聚合方法,其特征在于以下步骤:步骤1,对数据库中的每一张图像采用Selective Search算法提取候选区域,生成图像候选区域;步骤2,选择卷积神经网络结构模型,并在公共数据库上对卷积神经网络进行预训练;步骤3,采用训练完成的卷积神经网络提取所有图像候选区域的特征3.1)将图像候选区域缩放填充到固定大小后,作为卷积神经网络的输入;3.2)将卷积神经网络的全连接层FC7的输出作为该图像候选区域的描述特征;步骤4,对步骤3得到的候选区域的描述特征采用主成分分析算法进行降维,将其维度降为N维,得到低维候选区域特征;步骤5,对步骤4得到的低维候选区域特征采用K均值聚类算法进行无监督聚类,聚成K个聚类中心;步骤6,对步骤4得到的属于同一张图像的低维候选区域特征和步骤5得到的K个聚类中心,采用VLAD算法进行聚合,每张图像得到一个维度为N*K维的VLAD特征;步骤7,对步骤6得到的VLAD特征采用主成分分析算法进行降维,将其维度降为D维,生成简洁的图像特征。

【技术特征摘要】
1.一种面向图像检索的对象级深度特征聚合方法,其特征在于以下步骤:步骤1,对数据库中的每一张图像采用SelectiveSearch算法提取候选区域,生成图像候选区域;步骤2,选择卷积神经网络结构模型,并在公共数据库上对卷积神经网络进行预训练;步骤3,采用训练完成的卷积神经网络提取所有图像候选区域的特征3.1)将图像候选区域缩放填充到固定大小后,作为卷积神经网络的输入;3.2)将卷积神经网络的全连接层FC7的输出作为该图像候选区域的描述特征;步骤...

【专利技术属性】
技术研发人员:李豪杰暴雨樊鑫罗钟铉
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1