一种基于图像边缘检测的图像分块去重方法和系统技术方案

技术编号:27007601 阅读:13 留言:0更新日期:2021-01-08 17:12
本发明专利技术公开了一种基于图像边缘检测的图像分块去重方法和系统,属于计算机存储领域。本发明专利技术在图片在二维像素矩阵的状态下进行分块,并利用均值哈希算法计算小块的标识,避免了编码对去重造成的影响。图片的均值哈希算法则用于计算小图片块的指纹,从而判断小图片块是否重复。算法简单计算速度快,对内容敏感。对于两张相似冗余度很高的图片,分块操作将它们完全相同的部分与存在差异的部分进行了分割,完全相同的部分作为冗余块被去掉,存在差异的部分则被保留下,从而实现了图片的去重。本发明专利技术利用图像边缘检测技术来确定分块方式,同样均匀分块的条件下,分块效果实现了画面中主要物体分离的分块方式最终实现的去重率最高。

【技术实现步骤摘要】
一种基于图像边缘检测的图像分块去重方法和系统
本专利技术属于计算机存储
,更具体地,涉及一种基于图像边缘检测的图像分块去重方法和系统。
技术介绍
随着互联网与其应用的飞速发展,后台服务提供者们的信息存储系统的中的数据量正在爆炸式的增长,其存储成本随之增加。数据去重技术是一种数据无损压缩技术,由于其具有可扩展性强和压缩吞吐率高等特点,目前已被广泛地应用在数据存储与备份系统中。数据去重技术是将存储的文件在数据流格式下进行划分为多个数据块,并采用特定的算法对数据块进行其指纹摘要的计算,计算得到的指纹摘要则是作为数据块的唯一标识,用以匹配确定重复数据块。数据去重技术能够显著降低存储空间开销,从而达到降低存储成本的目的。现有技术存在一种文件分块去重技术,其本质上是在一维的文件流上进行分块,通过特定的算法生成文件块的标识,从而确定重复的文件块,并将重复的文件块去掉。图片本身是二维的,它在被传递或者存储前会被编码压缩为一维的文件。同一张图片如果采用不同编码压缩方式,最后得到的文件流会是完全不同的,使用文件分块去重技术将达不到去重的目的。除此之外,对于连拍图片等图片数据,它们两张图片之间本身就存在大量的相同感知信息,但是由于内容上的细微差异它们在编码流上也是不同的,使用文件分块去重技术也达不到去重的目的。
技术实现思路
针对现有技术的缺陷和改进需求,本专利技术提供了一种基于图像边缘检测的图像分块去重方法和系统,其目的在于利用图像的检测算法提取图片的内容信息,根据图片的内容信息确定图片的分块方式,再利用图片均值哈希算法计算出图片块的唯一标识指纹,以此判断图片块是否为重复图片块,实现对感知高度相似而在编码数据流上并不相同的图片数据集(例如,连拍图片数据集)中的图片进行数据去重,从而达到减小图片集的总存储空间、节约存储成本的目的。为实现上述目的,按照本专利技术的第一方面,提供了一种基于图像边缘检测的图像分块去重方法,该方法包括以下步骤:S1.从相似图片集中随机选取一张图片作为代表图片,对代表图片进行边缘检测,得到不同物体的边缘位置信息,初始化指纹库为空;S2.对相似图片集中每一张图片进行以下处理,直至所有图片均处理完毕:(1)利用代表图片得到的物体的边缘位置信息,对相似图片集中的当前图片进行分块,使得分块后的每个图片块尽可能只包含一个物体;(2)计算每个图片块的指纹,每计算出一个图片块的指纹后遍历指纹库,判断当前图片块的指纹是否已经存在,若存在,则不保存该图片块;若不存在,则保存该图片块,并将图片块的指纹加入指纹库。优选地,对代表图片进行边缘检测,得到不同物体的边缘位置信息,具体如下:①对代表图片进行边缘检测,检测出具有完整边缘的物体,以及,检测出的边缘和图片边缘形成完整闭环的物体;②获取所有边缘像素点的色彩RGB值;③对每两个边缘像素点进行以下判断,直至所有边缘像素点处理完毕:如果两个边缘像素点的色彩RGB值之间的汉明距离大于第一阈值且这两个像素位置的汉明距离大于第二阈值,则认为这两个边缘像素分别属于两个物体,否则,认为属于同一个物体;④对于同一个物体的边缘像素,记录其四个方向上的极值,将其整合为物体的位置信息(x,y,w,h),其中,x,y为以左上角为原点,矩形左上角的坐标,w,h分别代表矩形的宽和高。优选地,边缘检测采用基于Canny算子的边缘检测算法。优选地,采用均值哈希算法,计算图片块的指纹。优选地,采用均值哈希算法,计算图片块的指纹,具体如下:I.将图片块进行缩放,缩放到8×8的尺寸;II.将缩放之后的图片转化为灰度图;III.计算所有64个像素的灰度平均值;IV.将每个像素的灰度值与平均值进行比较,大于或等于平均值的记为1,小于平均值的记为0;V.从左至右,从上至下,将步骤IV中的比较结果组合在一起,构成图片块64位的哈希指纹。优选地,该方法在步骤(2)之后还包括:步骤(3)根据当前图片的所有小图片块的存储信息,得到小图片块还原得到原图片关系的图片谱。为实现上述目的,按照本专利技术的第二方面,提供了一种基于图像边缘检测的图像分块去重系统,计算机可读存储介质和处理器;计算机可读存储介质用于存储可执行指令;处理器用于读取计算机可读存储介质中存储的可执行指令,执行第一方面的基于图像边缘检测的图像分块去重方法。总体而言,通过本专利技术所构思的以上技术方案,能够取得以下有益效果:(1)本专利技术在图片在二维像素矩阵的状态下进行分块,并利用均值哈希算法计算得到的小块的标识。不同于文件分块去重,本专利技术的分块是在图片在像素矩阵的状态下进行的,避免了编码对去重造成的影响。图片的均值哈希算法则用于计算小图片块的指纹,从而判断小图片块是否重复。算法简单计算速度快,对内容敏感。对于两张相似冗余度很高的图片,分块步骤将它们完全相同的部分与存在差异的部分进行了分割,完全相同的部分作为冗余块被去掉,存在差异的部分则被保留了下了,从而实现了图片的去重。(2)为了进一步提升分块去重的去重效果,本专利技术利用了图像边缘检测技术,来确定分块方式。在实验研究中发现,同样均匀分块的条件下,分块效果实现了画面中主要物体分离的分块方式最终实现的去重率最高。附图说明图1为本专利技术提供的一种基于图像边缘检测的图像分块去重方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。本专利技术提供的图像分块去重方法的输入为内容相似的图片,输出为内容基本不存在相似的小图片块与保存着小图片块还原得到原图片关系的图片谱文件,即对感知高度相似、编码数据流不同的相似图片数据集进行了重复数据删除步骤,提高了存储系统的空间利用率,从而降低了大型图片存储系统的存储成本开销。如图1所示,本专利技术公开了一种基于图像边缘检测的图像分块去重方法,该方法包括:步骤S1.对相似图片集中的图像进行边缘检测,确定画面中的物体位于图像中的位置。该步骤对于一个数据集只用进行一次。输入作为数据集代表的单张图片,输出是图片中物体的位置信息。对进入系统的图片进行边缘检测和色彩分析。边缘检测,确定画面中的物体位于图像中的位置。物体在图片中位置以(x,y,w,h)表示,其中,x、y为以左上角为原点,矩形左上角的坐标。w、h分别代表矩形的宽和高。本实施例中采用的基于Canny算子的边缘检测算法。这里的“物体”指的是边缘检测算法能够检测出的完整边缘的物体,或者是检测出的边缘和图片边缘形成完整闭环的物体。色彩分析,获取边缘检测中,确定的边缘像素点的色彩RGB值(r,b,g)。边缘检测结果为检测出的物体边缘的像素,对于不同物体的边缘是不加以区本文档来自技高网...

【技术保护点】
1.一种基于图像边缘检测的图像分块去重方法,其特征在于,该方法包括以下步骤:/nS1.从相似图片集中随机选取一张图片作为代表图片,对代表图片进行边缘检测,得到不同物体的边缘位置信息,初始化指纹库为空;/nS2.对相似图片集中每一张图片进行以下处理,直至所有图片均处理完毕:/n(1)利用代表图片得到的物体的边缘位置信息,对相似图片集中的当前图片进行分块,使得分块后的每个图片块尽可能只包含一个物体;/n(2)计算每个图片块的指纹,每计算出一个图片块的指纹后遍历指纹库,判断当前图片块的指纹是否已经存在,若存在,则不保存该图片块;若不存在,则保存该图片块,并将图片块的指纹加入指纹库。/n

【技术特征摘要】
1.一种基于图像边缘检测的图像分块去重方法,其特征在于,该方法包括以下步骤:
S1.从相似图片集中随机选取一张图片作为代表图片,对代表图片进行边缘检测,得到不同物体的边缘位置信息,初始化指纹库为空;
S2.对相似图片集中每一张图片进行以下处理,直至所有图片均处理完毕:
(1)利用代表图片得到的物体的边缘位置信息,对相似图片集中的当前图片进行分块,使得分块后的每个图片块尽可能只包含一个物体;
(2)计算每个图片块的指纹,每计算出一个图片块的指纹后遍历指纹库,判断当前图片块的指纹是否已经存在,若存在,则不保存该图片块;若不存在,则保存该图片块,并将图片块的指纹加入指纹库。


2.如权利要求1所述的方法,其特征在于,所述对代表图片进行边缘检测,得到不同物体的边缘位置信息,具体如下:
①对代表图片进行边缘检测,检测出完整物体边缘,以及,和图片边缘形成完整闭环的物体边缘;
②获取所有边缘像素点的色彩RGB值;
③对每两个边缘像素点进行以下判断,直至所有边缘像素点处理完毕:如果两个边缘像素点的色彩RGB值之间的汉明距离大于第一阈值且这两个像素位置的汉明距离大于第二阈值,则认为这两个边缘像素分别属于两个物体,否则,认为属于同一个物体;
④对于同一个物体的边缘像素,记录其四个方向上的极值,将其整合为物体的位置信息(x,y,w,h),其中,x,y为以左...

【专利技术属性】
技术研发人员:胡燏翀徐佳
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1