一种网络环境下的近似重复图像搜索方法技术

技术编号:11229350 阅读:100 留言:0更新日期:2015-03-29 02:55
本发明专利技术公开了一种网络环境下的近似重复图像搜索的方法,该方法包括:设计了网络图像的有效局部特征的提取和表示;利用视觉词包模型建立词典,并通过局部约束线性编码的方法对局部特征进行量化;为了将特征的空间信息嵌入图像表示,利用图像金字塔对图像进行空间弱分割,并对图像进行分块量化;将局部的量化的结果最后聚合成图像的全局描述,并计算图像之间的相似度或距离度量对待匹配图像进行相关排序,将图像序列中排在前面的图像返回。

【技术实现步骤摘要】
一种网络环境下的近似重复图像搜索方法
本专利技术涉及网络多媒体信息处理领域,特别涉及一种网络图像搜索技术。背景随着互联网的普及和信息处理技术的不断发展,网络多媒体信息处理成为日益关注的焦点。多媒体包括文本,图形,声音,图像动画等各种信息院。由于当前图像处理的技术日新月异,网络图像数据量也呈现爆炸式的增长,然而这里面包含了很多经过编辑、修饰、拼接之后的重复图像。这就带来了图像盗版和侵权的问题。近年来对于近似重复图像搜索问题,众多学者展开了广泛的研究。不失一般性,近似重复图像搜索指的是找到所有的给定图像的变换拷贝图像,本专利技术关注的是“图像”类的近似重复图像搜索,即所有的拷贝图像和原始图像共有同源图像。为了有效解决近似重复图像搜索的问题,视觉词包模型成为一种被广泛应用的解决方案,它提供了一种局部图像描述的有效统计信息,并同时生成一种紧致的基于直方图统计的图像表示。词包模型最早应用于目标检测和图像分类领域。由于传统的词包模型没有考虑特征的空间分部信息,而近似重复图像存在局部差异性和整体相似性的特点,所以在进行特征量化的阶段,需要将特征的空间分布统计和特征量化相结合,对图像进行基于空间感知的区域量化。图1为网络近似重复图像的示例图,从图中可以看出,网络环境下的近似重复图像包括了更多更显著的图像变换,如:文字嵌入、图像剪裁拼接等等,这些变换明显改善了图像表观,都为网络近似重复图像搜索带来了极大的挑战。
技术实现思路
本专利技术的目的在于提出一种对图像进行基于空间感知的量化方法,以解决网络环境下近似重复图像搜索的问题。为实现上述目的,本专利技术提出一种基于空间感知的网络近似重复图像搜索方法,其方法包括离线阶段和在线阶段,步骤如下:离线阶段:步骤A1:提取和描述输入网络图像的低层局部特征;步骤A2:利用上述局部特征构建视觉词典,并将上述局部特征量化后,生成图相的全局特征描述;步骤A3:构建倒排序索引;在线阶段:步骤B1:提取和描述给定查询图像的低层局部特征;步骤B2:将B1种所获得的局部特征量化;步骤B3:计算查询图像与离线阶段所输入网络图像的相关性,并对带匹配图像进行排序。优选的,步骤B1与步骤A1中的所述的局部特征提取方法相同,步骤B2与步骤A2中所述的局部特征量化方法相同。优选的,所述步骤A1包括:步骤A11:对于输入的网络图像进行局部关键点的提取,并去除离群噪声点;步骤A12:对所有保留的关键点,在其周围领域统计相关梯度方向信息,并生成基于梯度方向直方图的特征描述子。优选的,所述步骤A2包括:步骤A21:选取图像训练集,并提取图像训练集中所有图像的局部特征,通过无监督K-均值聚类法,对训练特征集进行聚类进而生成视觉词典;步骤A22:在线更新视觉词典,使得词典适应于输入的网络图像并保持一致性;步骤A23:在得到更新后的词典之后,利用局部约束线性编码的方法,将输入的网络图像中的所有特征进行量化,并映射到视觉词典上;步骤A24:利用图像金字塔对图像进行弱分割,将量化后的局部特征按照分块原则进行特征的聚集,并生成图像的分块表示。步骤A25:将不同层次上的所有图像分块表示串联起来,生成一幅图像的整体表示。优选的,所述步骤A3包括:离线阶段对于输入网络图像中的所有图像表示按照视觉单词目录建立倒排索引,并计算词频和倒排文档频率。优选的,所述步骤B3包括:步骤B31:通过计算词频以及倒排文档频率加权求和的方法计算给定查询图像与输入网络图像之间的相关性;步骤B32:按照图像的相关性对待匹配图像进行排序,返回图像序列中排在前面的图像,作为给定查询图像的近似重复图像。优选的,步骤A24所述图像金字塔为两层图像金字塔,第一层为图像本身,第二层被分为2*2图像单元。本专利技术所提出的基于空间感知的网络近似重复图像搜索方法,可以将特征的空间分布统计信息嵌入图像特征表示,能够充分利用近似重复图像的局部差异性和全局相似性的特点,所以本专利技术在近似重复图像搜索准确度方面比传统的视觉词包模型的准确度更高。附图说明图1为网络近似重复图像示例图。图2为本专利技术所采用的空间金字塔分割图像示意图。图3为本专利技术相关算法的Matlab风格的伪代码。图4为本专利技术提出的近似重复图像搜索方法的流程图。图5为网络近似重复图像搜索的效果示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。本专利技术的方法并不受具体硬件和编程语言的限制,用任何语言编写都可以实现本专利技术的方法。本实施例采用一台具有2.83G赫兹中央处理器和4G字节内存的计算机,并用Matlab语言实现了本专利技术的方法。为了更好地结合具体实施例进行描述,本实施例采用测试图像集代替实际应用中的输入网络图像。如图4所示,本实施例的步骤如下:离线阶段:步骤A1:提取和描述测试图像集的低层局部特征;步骤A2:利用上述局部特征构建视觉词典,并将上述局部特征量化后,生成图相的全局特征描述;步骤A3:构建倒排序索引;在线阶段:步骤B1:提取和描述给定查询图像的低层局部特征;步骤B2:将B1种所获得的局部特征量化;步骤B3:计算查询图像与离线阶段所输入网络图像的相关性,并对带匹配图像进行排序。对于步骤A1,包括如下步骤:步骤A11:对于输入的测试图像集进行局部关键点的提取,并去除离群噪声点。本实施例中提取图像的SIFT关键点,即在构建的尺度空间中通过高斯差分函数检测候选的关于尺度和旋转不变的兴趣点,然后对虚特征点进行过滤,并精确确定特征点的位置和尺度。步骤A12:对所有保留的关键点,在其周围领域统计相关梯度方向信息,并生成基于梯度方向直方图的特征描述子。具体来说,以关键点为中心取16*16的邻域作为采样窗口,将采样点与特征点的相对方向通过高斯加权后归入包含8个bin的方向直方图,最后获得4*4*8的128维特征描述子。由于考虑SIFT特征维数相对过高,且不同特征维度之间存在冗余性的问题,本专利技术利用PCA算法对SIFT特征进行降维,降维后的特征描述子为64维。步骤A2主要包括如下步骤:步骤A21:从测试图像集中选取图像训练集,并提取图像训练集中所有图像的局部特征作为训练特征集,通过无监督K-均值聚类法,对训练特征集进行聚类进而生成视觉词典。对于图像训练集中的所有图像提取SIFT特征描述子,然后利用K-均值聚类方法对所有的特征进行聚类,最后得到的聚类中心作为视觉单词,构成了视觉词典用于后续的特征量化。步骤A22:视觉词典的自适应更新。在训练特征集上学习得到的词典并不能够完全反应测试图像集上的特征分布,需要对训练特征集上学习得到的词典进行更新以满足和测试图像集特征分布的一致性。步骤A23:特征的量化。在得到更新后的词典之后,本实施例利用局部约束线性编码的方法,将测试图像集中的所有特征进行量化,并映射到视觉词典上。局部约束线性编码方法是将每一个特征映射到与之最近的k个单词,然后利用稀疏编码的方法,用k个单词的线性组合对该特征进行重构,以最小化重构误差。由于局部约束线性编码本质上结合了近邻搜索和稀疏编码的思想,和传统的硬投票和软投票方法相比,量化误差更小。步骤A24:图像金字塔的构建。如图2所示为本实施例所采用的两层图像金字塔结构示意图:第一层为图像本身,第二层被分为2*本文档来自技高网...
一种网络环境下的近似重复图像搜索方法

【技术保护点】
一种网络环境下的近似重复图像搜索方法,其特征在于,该方法包括离线阶段和在线阶段,步骤如下:离线阶段:步骤A1:提取和描述输入网络图像的低层局部特征;步骤A2:利用上述局部特征构建视觉词典,并将上述局部特征量化后,生成图相的全局特征描述;步骤A3:构建倒排序索引;在线阶段:步骤B1:提取和描述给定查询图像的低层局部特征;步骤B2:将B1种所获得的局部特征量化;步骤B3:计算查询图像与离线阶段所输入网络图像的相关性,并对带匹配图像进行排序。

【技术特征摘要】
1.一种网络环境下的近似重复图像搜索方法,其特征在于,该方法包括离线阶段和在线阶段,步骤如下:离线阶段:步骤A1:提取和描述输入网络图像的低层局部特征;步骤A2:利用上述局部特征构建视觉词典,并将上述局部特征量化后,生成图像的全局特征描述;步骤A3:构建倒排序索引;在线阶段:步骤B1:提取和描述给定查询图像的低层局部特征;步骤B2:将B1中所获得的局部特征量化;步骤B3:计算查询图像与离线阶段所输入网络图像的相关性,并对待匹配图像进行排序;其中,所述步骤A2包括:步骤A21:选取图像训练集,并提取图像训练集中所有图像的局部特征作为训练特征集,通过无监督K-均值聚类法,对训练特征集进行聚类进而生成视觉词典;步骤A22:对视觉词典进行更新,使得词典适应于输入的网络图像并保持一致性;步骤A23:在得到更新后的词典之后,利用局部约束线性编码的方法,将输入的网络图像中的所有特征进行量化,并映射到视觉词典上;步骤A24:利用图像金字塔对图像进行弱分割,将量化后的局部特征按照分块原则进行特征的聚集,并生成图像的分块表示;步骤A25:将不同层次上的所有图像分块表示串...

【专利技术属性】
技术研发人员:胡卫明李峻兴军亮
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1