一种基于聚类紧凑特征的海量图像检索系统技术方案

技术编号:9718821 阅读:269 留言:0更新日期:2014-02-27 05:35
本发明专利技术属于模式识别与信息处理技术领域,提供了基于聚类紧凑特征的海量图像检索系统,包括如下步骤:一、计算样本图像库和测试图像库中图像的局部特征;二、计算每幅图像的聚类紧凑特征:对局部特征采用聚类方法获取每类的聚类中心,再统计在每个聚类中的局部特征分布直方图和空间统计信息,生成聚类紧凑特征;三、随机采样样本图像库中的聚类紧凑特征,对采样所得聚类紧凑特征中聚类中心的分量应用聚类方法生成词汇树,将测试图像库中图像的聚类紧凑特征都量化到词汇树上,生成相应的倒排文件;四、采用改进的基于词汇树的检索算法进行检索:通过查询词汇树的倒排文件,计算查询图像与图像库图像聚类紧凑特征间的相似度权重进行检索。

【技术实现步骤摘要】
一种基于聚类紧凑特征的海量图像检索系统
本专利技术属于模式识别与信息处理
,涉及计算机视觉方面的海量图像处理,尤其涉及一种基于聚类紧凑特征的海量图像检索的研究和实现方案。本方案通过对视觉特征进行基于聚类的紧凑描述并通过改进的基于词汇树的检索算法快速高效的在海量图像中检索出相似图片。
技术介绍
目前,随着互联网图像数据的爆炸性增长,如何从图像大数据中检索出最相似的图片变为一项非常有挑战的主题并吸引了大量的研究工作。图像检索具有广泛的应用场景,在电子商务,社交网络,商品或风景推荐等方面应用价值越来越高。考虑一个最广泛也最通用的场景,用户在大规模的图像库中发现一张感兴趣的图片,可以是商品图片也可以风景,艺术等类型图片,想要快速准确的检索到这个图像库中与之最相似的图片。传统的图像检索通过提取图像的视觉特征包括像颜色、轮廓、纹理这样的底层特征和高维特征,在根据视觉特征计算相似度距离进行检索。海量图像检索的关键是在保持检索性能的情况下快速高效根据特征检索相似图像。但由于包含相同的物品或场景的图片存在极大的差异,特别是由于光照,旋转,聚焦的影响,更别说相同类别不同物品之间的多样性,使海量图像检索存在特定的挑战。传统的基于内容的图像检索在检索精度和检索效率上都不能满足海量图像检索的需求。与此同时,图像多样性和海量数据增加了紧凑并具有高辨识度的视觉特征,更加鲁棒的索引结构和检索算法的需求。为了获取高辨识度的视觉特征,研究者提出了多种有效的算法,包括绑定多种特征生成词汇包[1]-[6],探索局部特征间的几何结构[7]-[10]和空间分布信息[4],[11]-[13]。然而当图像库中图像的数量增加到百万级别,这些算法会产生巨大的计算和存储开销,不利于系统实现。为了改善海量图像检索存在的计算和存储开销大的问题,[7,14,15]采用词汇树的索引结构成功地提高检索速度。词汇树索引结构是通过对样本图像的特征进行分层聚类。每个聚类中心都是词汇树的一个节点,第一次聚类产生的结果就是词汇树的第一层节点,以此类推。基于词汇树的检索通过查找树的相同节点的倒排文件进行检索,避免了需要和图像库中所有特征进行相似度计算,大大加快了检索速度。然而基于词汇树的方法需要把图像中数以千计的特征根据视觉词汇编码生成词汇包,这仍然导致大量的计算开销和存储开销。参考文献:[1]X.Wang,X.Bai,W.Liu,L.J.Latecki.FeatureContextforImageClassificationandObjectDetection.InCVPR,June20-25,2011.[2]Z.Wu,Q.Ke,M.Isard,J.Sun.BundlingFeaturesforLargeScalePartial-DuplicateWebImageSearch.InCVPR,June20-25,2009.[3]Z.LinandJ.Brandt.ALocalBag-of-FeaturesModelforLarge-scaleObjectRetrieval.InECCV,Vol.6316,Sept.5-11,2010.[4]Y.Cao,C.Wang,Z.Li,etal.Spatial-Bag-of-Features[C],InCVPR,Sept.5-11,2010.[5]H.J’egou,M.Douze,andC.Schmid.ImprovingBag-of-FeatureforLargeScaleImageSearch.InInternationalJournalofComputerVision,2010.[6]G.Csurka,C.Dance,L.Fan,J.Willamowski,andC.Bray.VisualCategorizationwithBagsofKeypoints.InWorkshoponStatisticalLearninginComputerVision,ECCV,May11-14,2004.[7]S.Zhang,Q.Huang,G.Hua,S.Jiang,W.Gao,andQ.Tian.BuildingContextualVisualVocabularyforLarge-scaleImageApplications.InACMMultimedia,Oct.25-29,2010.[8]H.Jegou,M.Douze,andC.Schmid.HammingEmbeddingandWeakGeometricConsistencyforLargeScaleImageSearch.InECCV,October12-18,2008.[9]Y.Jiang,J.Meng,J.Yuan.RandomizedVisualPhrasesforObjectSearch,InCVPR,June16-21,2012.[10]Y.Zhang,Z.Jia,T.Chen.ImageRetrievalwithGeometry-PreservingVisualPhrases.InCVPR,June20-25,2011.[11]J.Philbin,O.Chum,M.Isard,J.Sivic,andA.Zisserman.ObjectRetrievalwithLargeVocabulariesandFastSpatialMatching.InCVPR,June17-22,2007.[12]W.Zhou,Y.Lu,H.Li,Y.Song,andQ.Tian.SpatialCodingforLarge-scalePartial-DuplicateWebImageSearch.InACMMultimedia,Oct.25-29,2010.[13]G.Tolias,Y.Avrithis.Speeded-up,RelaxedSpatialMatching[C],InICCV,Nov.6-13,2011.[14]D.NisterandH.Stewenius.ScalableRecognitionwithaVocabularyTree.InCVPR,vol.2,June17-22,2006.[15]X.Wang,M.Yang,T.Cour,S.Zhu,K.Yu,andT.X.Han.ContextualWeightingforVocabularyTreeBasedImageRetrieval.InICCV,Nov.6-13,2011。
技术实现思路
本专利技术的目的在于为了克服海量图像检索中计算和存储开销大的不足等问题,提供了一种能够在保持视觉特征高辨识度的情况下紧凑地描述局部特征以及通过更多的信息例如空间信息来更有效的检索的一种基于聚类紧凑特征的快速高效的海量图像检索方法,该方法能够解决图像的快速检索问题,特别是包含百万或百万以上图像的图像库,由此用户可以在面临海量图像,快速检索与所感兴趣的图像最相似的图像。其是一种在不影响检索效率的情况下,快速有效的大规模图像检索方法。为了实现上述目的本专利技术采用以下技术方案:基于聚类紧凑特征的快速高效的海量图像检索方法,其特征在于包括如下步骤:步骤一:计算样本图像库和测试图像库中图像的局部特征;步骤二:计算每幅图像的聚类紧凑特征:对局部特征采用本文档来自技高网
...
一种基于聚类紧凑特征的海量图像检索系统

【技术保护点】
基于聚类紧凑特征的快速高效的海量图像检索方法,其特征在于包括如下步骤:步骤一:计算样本图像库和测试图像库中图像的局部特征;步骤二:计算每幅图像的聚类紧凑特征:对局部特征采用聚类方法获取每类的聚类中心,再统计在每个聚类中的局部特征分布直方图和空间统计信息,生成聚类紧凑特征;步骤三:随机采样样本图像库中的聚类紧凑特征,对采样所得聚类紧凑特征中聚类中心的分量应用聚类方法生成词汇树,将测试图像库中图像的聚类紧凑特征都量化到词汇树上,生成相应的倒排文件;步骤四:采用改进的基于词汇树的检索算法进行检索:通过查询词汇树的倒排文件,计算查询图像与图像库图像聚类紧凑特征间的相似度权重进行检索。

【技术特征摘要】
1.基于聚类紧凑特征的快速高效的海量图像检索方法,其特征在于包括如下步骤:步骤一:计算样本图像库和测试图像库中图像的局部特征,局部特征为SIFT特征;步骤二:计算每幅图像的聚类紧凑特征:对局部特征采用聚类方法获取每类的聚类中心,再统计在每个聚类中的局部特征分布直方图和空间统计信息,生成聚类紧凑特征;步骤三:随机采样样本图像库中的聚类紧凑特征,对采样所得聚类紧凑特征中聚类中心的分量应用聚类方法生成词汇树,将测试图像库中图像的聚类紧凑特征都量化到词汇树上,生成相应的倒排文件;步骤四:采用改进的基于词汇树的检索算法进行检索:通过查询词汇树的倒排文件,计算查询图像与图像库图像聚类紧凑特征间的相似度权重进行检索;图像库中查询图像和目标图像间的相似度定义为:其中|Iq|表示查询图像的聚类紧凑特征数目,|Id|表示目标图像的聚类紧凑特征数目,为聚类紧凑特征间的相似度度量函数fv(vi,vj)=wi,j(vi)I(vi=vj)①表示每个聚类紧凑特征从词汇树的根节点量化到叶子节点的视觉词汇路径集合,I(·)是一个判断函数,wi,j(v)表示量化到词汇树上同一个节点的两个聚类紧凑特征,即查询图像第i个聚类紧凑特征和目标图像第j个聚类紧凑特征的相似度权重,由三部分组成,包括聚类中心相似度权重函数特征分布直方图相似度权重函数和空间统计信息相似度权重函数为聚类中心相似度权重函数,为查询图像第i个聚类紧凑特征量化到词汇树节点v的权重,为目标图像第j个聚类紧凑特征量化到词汇树节点v的权重、idf(v)为词汇树节点v的IDF权重、nq(v)表示查询图像量化到节点v的聚类紧凑特征数目,ω(v)是一个权重相关系数,可根据经验设置值;②为局部特征分布直方图相似度权重函数,通过计算特征分布直方图相应分量的最小值和最大值的比率之和表示,公式如下:公式中表示查询图像第i个聚类紧凑特征的局部特征直方图的第r个分量,表示目标图像第j个聚类紧凑特征的局部特...

【专利技术属性】
技术研发人员:董乐梁燕封宁谢山山
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1