一种基于稀疏表示的近似图像重复检测方法技术

技术编号：15225098 阅读：92 留言：0更新日期：2017-04-27 03:36

本发明专利技术公开了一种基于稀疏表示的近似重复图像检测方法，该方法基于hadoop分布式计算框架提出，该检测方法包括如下步骤，先获取图像集I,其中中所有图像的稀疏编码为g′；提取g′中非零元素，将图像Ii的稀疏编码gi′散列到非零元素的下标对应的组中，计算每个Reduce函数中每对图像<Iw,Iz>稀疏编码的相似度Y，若Y大于0.7，则输出相似图像对<Iw,Iz>；将具有图像Iw的相似图像对合并，生成相似图像子集。本发明专利技术通过并行化的计算方式大大提高了针对大规模数据集KMeans聚类算法的计算效率，并引入稀疏表示理论，具有更快的实现方法不需要过多的求解优化过程。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像近似重复检测领域，涉及一种基于稀疏表示的并行化的图像近重复检测方法，可以高效并准确的对海量图像集提取近重复图像集合。
技术介绍
随着移动互联网和数码相机的发展，人们越来越多的将拍摄的多媒体数据分享到互联网上，由于拍摄者的位置、拍摄的对象、角度的相同，从而导致了互联网上出现了大量的相似的图片。通过提取这些相似图像集不仅可以对图像检索结果进行去重过滤，同时在许多图像处理领域如图像聚类、图像识别、图像分类等也是重要一步。通常近似重复图像是由某幅原图像通过某些近似重复图像变换得到的，一般可以产生近似重复图像的变换包括平移、缩放、选择、图像色调的变化、添加文字、格式变化、分辨率变化等等。而近重复图像检测是指给定查询图像，在数据集中找到与此图像的近重复图像，或是提取出数据集中所有近重复图像子集。目前，大多数的近重复图像检测是采用Bag-of-words和LSH方法构建系统。Bag-of-words模型是将每幅图像的局部特征利用训练好的字典映射为一个视觉词频直方图向量。基于Bag-of-words的图像表示模型方法一般包括3部分：1)提取图像的局部特征；2)通过聚类图像集的局部特征，构建视觉字典；3)映射每幅图的局部向量为一个词频直方图。LSH(Locality-SensitiveHashing)是一种对高维数据建立索引的随机方法，以一定的查找准确率为代价，在高维数据空间中进行近似线性的查找，返回查询数据的近似最近邻数据。它的基本思想是通过一组哈希函数将输入数据点映射到各个桶中，并保证近邻的数据点以较大的概率映射到同一个桶中，相距较远的数据点以较小的...

【技术保护点】
一种基于稀疏表示的近似重复图像检测方法，该方法基于hadoop分布式计算框架提出，该检测方法包括如下步骤，获取图像集I中所有图像的IDF加权稀疏编码g′，其中I＝(I1,I2,...,Ii,...，Iw,…,Iz,…,IR)，Ii的IDF加权稀疏编码为gi′，gi′∈g′,i为大于等于1的自然数，w为大于i的自然数,z为大于w的自然数,R为大于z的自然数,其特征在于，方法还包括：(1)提取图像Ii的IDF加权稀疏编码gi′中的非零元素；gik′∈gi′，k为大于等于1的自然数，gi′内的非零元素为(giu′,...，giv′)，设非零元素为m个，m为大于等于1的自然数，m≤k,giu′≠0,giv′≠0,u为大于等于1的自然数，v大于等于1的自然数，k>v>u；(2)建立k个组，分别命名为:其中，为空矩阵；(3)利用(式1)的矩阵变换，将图像Ii的IDF加权稀疏编码gi′分别散列到非零元素的下标(u,...,v)对应的m个组里；(4)利用计算步骤(3)所得m组中的每个组中每对图像<Ii,Ij>IDF加权稀疏编码的相似度Y，若Y大于0.7，则图像<Ii,Ij...

【技术特征摘要】
1.一种基于稀疏表示的近似重复图像检测方法，该方法基于hadoop分布式计算框架提出，该检测方法包括如下步骤，获取图像集I中所有图像的IDF加权稀疏编码g′，其中I＝(I1,I2,...,Ii,...，Iw,…,Iz,…,IR)，Ii的IDF加权稀疏编码为gi′，gi′∈g′,i为大于等于1的自然数，w为大于i的自然数,z为大于w的自然数,R为大于z的自然数,其特征在于，方法还包括：(1)提取图像Ii的IDF加权稀疏编码gi′中的非零元素；gik′∈gi′，k为大于等于1的自然数，gi′内的非零元素为(giu′,...，giv′)，设非零元素为m个，m为大于等于1的自然数，m≤k,giu′≠0,giv′≠0,u为大于等于1的自然数，v大于等于1的自然数，k>v>u；(2)建立k个组，分别命名为:其中，为空矩阵；(3)利用(式1)的矩阵变换，将图像Ii的IDF加权稀疏编码gi′分别散列到非零元素的下标(u,...,v)对应的m个组里；(4)利用计算步骤(3)所得m组中的每个组中每对图像<Ii,Ij>IDF加权稀疏编码的相似度Y，若Y大于0.7，则图像<Ii,Ij>为相似图像对；其中，j为大于等于1的自然数，且i≠j；g'i和g'j分别表示图像Ii和Ij的IDF加权稀疏编码；(5)将步骤(4)所得结果中具有相同图像的相似图像对合并，生成相似图像子集。2.如权利要求1所述基于稀疏表示的近似重复图像检测方法，其特征在于，所述获取图像集I中所有图像的IDF加权稀疏编码g′，包括以下步骤：并行化提取每副图像的局部特征，得到图像集I中所有图像的局部特征S；提取图像聚类中心，得到特征字典E；计算E中每个聚类中心权重；根据E中每个聚类中心权重，提取图像的IDF加权稀疏编码g′。3.如权利要求2所述基于稀疏表示的近似重复图像检测方法，其特征在于，所述并行化提取图像局部特征为提取图像集I所有图像的SIFT特征。4.如权利要求3所述基于稀疏表示的近似重复图像检测方法，其特征在于，所述提取所有图像的SIFT特征，具体步骤为：将图像集I中每副图像Ii的大小标准化并灰度处理，得到标准大小的灰度图像集；其中，I＝(I1,I2,...,Ii,...,Iw,…,Iz,…,IR)；将标准大小的灰度图像集分割给各集群结点，并行化提取每个图像的SIFT特征，所有图像的SIF...

【专利技术属性】
技术研发人员：赵万青，罗迒哉，范建平，彭进业，
申请(专利权)人：西北大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人