【技术实现步骤摘要】
一种图像去重方法及装置
本专利技术涉及图像处理
,更具体地说,涉及一种图像去重方法及装置。
技术介绍
目前,超过半数的互联网图像数据是重复数据或近似重复数据,给深度学习引擎及人工审核带来巨大的重复工作量。因此近似图像的去重是十分必要的。传统的感知哈希算法是一种弱哈希算法,通过图像的尺寸缩小、简化色彩、DCT变换提取图像频域特征并最终选取低频特征进行量化编码来实现图像去重。传统的感知哈希算法能够处理一定程度上的图像变化,例如一定程度的分辨率缩放、全局的亮度变化等,但是其对于图像的局部变化无法准确的识别。
技术实现思路
有鉴于此,为解决上述问题,本专利技术提供一种图像去重方法及装置。技术方案如下:一种图像去重方法,所述方法包括:获取待去重的多个图像;针对所述多个图像中的每个图像,计算所述图像的目标哈希值,包括:将所述图像划分为多个局部图像;分别缩小所述图像和每个所述局部图像的尺寸,缩小后的所述图像的尺寸大于每个缩小后的所述局部图像的尺寸;分别对缩小后的所述图像和每个缩小后的所述局部图像进行DCT变换,得到所述图像对应的DCT系数矩阵和每个所述局部图像对应的DCT系数矩阵;根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,以及根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值;对所述图像的哈希值和每个所述局部图像的哈希值进行整合得到所述图像的目标哈希值;通过两两匹配所述多个图像的目标哈希值确定所述 ...
【技术保护点】
1.一种图像去重方法,其特征在于,所述方法包括:/n获取待去重的多个图像;/n针对所述多个图像中的每个图像,计算所述图像的目标哈希值,包括:/n将所述图像划分为多个局部图像;/n分别缩小所述图像和每个所述局部图像的尺寸,缩小后的所述图像的尺寸大于每个缩小后的所述局部图像的尺寸;/n分别对缩小后的所述图像和每个缩小后的所述局部图像进行DCT变换,得到所述图像对应的DCT系数矩阵和每个所述局部图像对应的DCT系数矩阵;/n根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,以及根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值;/n对所述图像的哈希值和每个所述局部图像的哈希值进行整合得到所述图像的目标哈希值;/n通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像,并去重。/n
【技术特征摘要】
1.一种图像去重方法,其特征在于,所述方法包括:
获取待去重的多个图像;
针对所述多个图像中的每个图像,计算所述图像的目标哈希值,包括:
将所述图像划分为多个局部图像;
分别缩小所述图像和每个所述局部图像的尺寸,缩小后的所述图像的尺寸大于每个缩小后的所述局部图像的尺寸;
分别对缩小后的所述图像和每个缩小后的所述局部图像进行DCT变换,得到所述图像对应的DCT系数矩阵和每个所述局部图像对应的DCT系数矩阵;
根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,以及根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值;
对所述图像的哈希值和每个所述局部图像的哈希值进行整合得到所述图像的目标哈希值;
通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像,并去重。
2.根据权利要求1所述的方法,其特征在于,所述将所述图像划分为多个局部图像,包括:
将所述图像划分为多个具有重叠区域的局部图像。
3.根据权利要求1所述的方法,其特征在于,所述根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,包括:
对所述图像对应的DCT系数矩阵进行均值计算得到所述图像的DCT系数均值;
根据所述图像的DCT系数均值对所述图像对应的DCT系数矩阵中各DCT系数进行量化;
根据所述图像对应的DCT系数矩阵中各DCT系数的量化结果确定所述图像的哈希值;
所述根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值,包括:
对每个所述局部图像对应的DCT系数矩阵进行均值计算得到每个所述局部图像的DCT系数均值;
根据每个所述局部图像的DCT系数均值对每个所述局部图像对应的DCT系数矩阵中各DCT系数进行量化;
根据每个所述局部图像对应的DCT系数矩阵中各DCT系数的量化结果确定每个所述局部图像的哈希值。
4.根据权利要求1所述的方法,其特征在于,所述通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像,包括:
对于所述多个图像中的任意一组图像,对该组图像中第一图像的目标哈希值和第二图像的目标哈希值进行异或操作;
在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果全为0的情况下,确定所述第一图像或者所述第二图像为重复图像;
在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果不全为0的情况下,获取所述第一图像的每个所述局部图像的哈希值与所述第二图像的每个所述局部图像的哈希值的第二异或结果中0的数量;
在所述第二异或结果中0的数量大于预设的数量阈值的情况下,确定所述第一图像或者所述第二图像为重复图像。
5.根据权利要求1所述的方法,其特征在于,所述针对所述多个图像中的每个图像,计算所述图像的目标哈希值之后,所述方法还包括:
将所述图像的目标哈希值设置为二进制位形式。
6....
【专利技术属性】
技术研发人员:郑继龙,丰强泽,齐红威,何鸿凌,
申请(专利权)人:数据堂北京科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。