基于描述符匹配的去除重复图像的方法技术

技术编号:20045819 阅读:108 留言:0更新日期:2019-01-09 04:27
本发明专利技术涉及图像处理技术领域,一种基于描述符匹配的去除重复图像的方法,包括以下步骤:1)计算训练集中图片的描述符;2)计算测试集中一张测试图片的测试描述符;3)根据所述测试描述符结合DBOW算法获取所述训练集中与所述测试图片最相似的N张候选图片;4)选取一张候选图片,将所述候选图片的描述符与所述测试图片的测试描述符进行匹配,删除匹配结果相同的测试图片。本发明专利技术将测试集中的图片依次取出来和训练集中的所有图片对比,通过DBOW方法找出最相似图片,通过描述符进行图片匹配,通过缩放信息筛除误匹配,通过旋转信息筛除误匹配,通过匹配区域是否在水印处删除误匹配,图片匹配效果好,能够适用于变形和有水印的图片。

【技术实现步骤摘要】
基于描述符匹配的去除重复图像的方法
本专利技术涉及图像处理
,具体为一种基于描述符匹配的去除重复图像的方法。
技术介绍
图像识别的深度学习中,需要将图片分为训练集和测试集。一个经常出现的现象是识别效果在训练集上很好,但是在测试集上较差,此现象叫做过拟合,是衡量深度学习效果的重要指标之一。为了准确的评估过拟合的程度,我们必须严格保证训练集和测试集中没有相同的图片,但图片的主要来源之一是网络数据爬取,所以其中难免会出现一些相同的图片。这些图片可能经过剪切,缩放,平移,颜色调整或者加水印,所以不能通过简单的像素对比来去重。现有技术有通过MD5码对比图片,具体是计算每张图片的MD5码,然后所有图片两两比较MD5码,MD5码相同的代表这两张图片是相同图片,缺点是图片只要有任何改变,哪怕只是格式的改变也会导致MD5码不同。现有技术还有通过颜色直方图对比图片,具体是统计图片中颜色的频率分布,分布相近的说明是相同图片,缺点是不适用于过大变形的图片,且容易误判。专利号为CN107633023A的专利公开了一种图像去重方法和装置,可以获取对应同一视频数据的所有图像帧;获取所述图像帧的深度特征;所述深度特征包括基于所述图像帧获取的用以表征所述图像帧之间相似性的特征向量;基于所述图像帧的深度特征,判断所述图像帧是否为冗余帧;如果所述图像帧是冗余帧,则将所述图像帧删除。由此解决了现有的图片库中存在大量冗余图片,造成存储空间浪费,以及在以图搜剧时返回的检索结果中包含大量的重复点位信息,影响用户的视频检索体验的技术问题。但是该专利不适用于训练集和测试集的图片去重。专利号为CN108228872A的专利公开公开了一种人脸图像去重方法和装置、电子设备、存储介质、程序,其中,方法包括:对获得的多个人脸图像执行过滤操作,得到图像质量达到第一预设条件的至少一个人脸图像;将所述至少一个人脸图像中的各所述人脸图像与图像队列中预存的至少一个人脸图像进行匹配,得到匹配结果;根据所述匹配结果确定是否针对所述人脸图像执行去重操作。本专利技术实施例实现了基于质量的过滤,大大缩减了人脸图像的数量,获得的人脸图像质量满足后续对人脸图像的处理需求,并且避免了重复处理大量人脸图像的问题;并且实现更快速的重复人脸识别。但是该专利不适用于训练集和测试集的图片去重,且不适用于过大变形的图片,容易误判。
技术实现思路
本专利技术针对现有技术存在的问题,提出了一种基于描述符匹配的去除重复图像的方法,即使在图片变形后,仍然可以找出相同的图片,从而去除测试集和训练集中重复的图片。本专利技术解决其技术问题所采用的技术方案是:一种基于描述符匹配的去除重复图像的方法,包括以下步骤:1)提取训练集中所有图片各自的特征点,并根据所述特征点计算相应图片的描述符;2)按顺序在测试集中提取一张测试图片并计算所述测试图片的测试特征点,根据所述测试特征点计算所述测试图片的测试描述符;3)根据所述测试描述符结合DBOW算法获取所述训练集中与所述测试图片最相似的N张候选图片;4)按顺序在N张候选图片中选取一张候选图片,将所述候选图片的描述符与所述测试图片的测试描述符进行匹配,匹配结果为相同,则将测试集中的所述测试图片删除并返回步骤2);否则,继续执行步骤4)至N张候选图片均匹配结束并返回步骤2)。作为优选,所述步骤4)中匹配过程具体为,41)将所述测试图片的测试描述符与所述候选图片的描述符进行暴力匹配,获取所述测试图片与所述候选图片描述符匹配的测试描述符集合一;42)将所述测试描述符集合一中与距离最近的测试描述符之间距离大于一定阈值D的测试描述符删除以获得测试描述符集合二;43)将所述测试描述符集合二中不符合旋转不变性的测试描述符删除以获得测试描述符集合三;44)将所述测试描述符集合三中不符合缩放不变性的测试描述符删除以获得测试描述符集合四;45)计算所述测试描述符集合四中测试描述符的个数,当个数大于阈值M时,进入下一步骤;否则判定所述测试图片与所述后选图片的匹配结果为不相同;46)判定测试描述符集合四中的测试描述符是否匹配在水印上,是则判定所述测试图片与所述后选图片的匹配结果为不相同,否则判定所述测试图片与所述后选图片的匹配结果为相同。作为优选,所述步骤42)中两测试描述符之间的距离为两测试描述符之差的模。作为优选,所述步骤43)中旋转不变性为所述测试描述符集合二中的某一测试描述符与其他任意两测试描述符之间形成的测试夹角与所述候选图片对应的描述符形成的夹角相等。作为优选,所述步骤44)中缩放不变性计算过程具体为441)将所述测试描述符集合三中的测试描述符任意两两配对形成多组测试描述符;442)计算每组测试描述符中两测试描述符之间的测试距离,并计算所述候选图片中与每组测试描述符对应的描述符之间的候选距离;443)计算每组测试距离与对应的候选距离之间的比值,并计算所有比值的比值平均值;444)将每组测试描述符求得的比值与比值平均值作差,当差值大于一定阈值时,则该组的两个测试描述符不符合缩放不变性。作为优选,所述步骤46)具体为计算所述测试描述符集合四中测试描述符两两距离的平均值,如果所述平均值小于所述测试图片对角线长度的a%,则判定所述测试描述符集合四中的测试描述符匹配在水印上,否则判定所述测试描述符集合四中的测试描述符不匹配在水印上。作为优选,所述步骤46)中,如果所述平均值小于所述测试图片对角线长度的10%,则判定所述测试描述符集合四中的测试描述符匹配在水印上,否则判定所述测试描述符集合四中的测试描述符不匹配在水印上。作为优选,所述特征点及所述测试特征点采用FAST算法计算获得。作为优选,所述描述符及所述测试描述符采用ORB算法计算获得。作为优选,N张候选图片中N取值为5,阈值D取值为30,阈值M取值为10。本专利技术的有益效果是,本专利技术将测试集中的图片依次取出来和训练集中的所有图片对比,通过DBOW方法找出最相似图片,通过描述符进行图片匹配,通过缩放信息筛除误匹配,通过旋转信息筛除误匹配,通过匹配区域是否在水印处删除误匹配,图片匹配效果好,能够适用于变形和有水印的图片。附图说明图1为本专利技术一种基于描述符匹配的去除重复图像的方法的流程图;图2为本专利技术测试集图片去重的实施例一的流程图。具体实施方式以下是本专利技术的具体实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。如图1所示,一种基于描述符匹配的去除重复图像的方法,使用描述符的匹配,加上利用旋转不变性和缩放不变性筛除误匹配,最终根据剩下的特征点匹配数量以及匹配区域是否在水印处来判断测试集中图片是否存在训练集中,具体包括以下步骤:1)提取训练集中所有图片各自的特征点,并根据所述特征点计算相应图片的描述符。特征点提取可以使用FAST算法,描述符计算可以使用ORB算法。特征点是图像中那些明暗变化突出的点。描述符是每个特征点的标识,一般是通过提取特征点附近的像素信息得到,可以用来判断不同图片中,哪些特征点对应的是物体上相同的点,这个过程叫做特征点的匹配。描述符的特点之一是图像在经过缩放、旋转、平移后,描述符并不发生变化,描述符最终以向量形式呈现,比如64个1byte的数。2)按顺序在测试集中提取一张测试图片并计算所述测试图片的测试特本文档来自技高网
...

【技术保护点】
1.基于描述符匹配的去除重复图像的方法,其特征在于:包括以下步骤:1)提取训练集中所有图片各自的特征点,并根据所述特征点计算相应图片的描述符;2)按顺序在测试集中提取一张测试图片并计算所述测试图片的测试特征点,根据所述测试特征点计算所述测试图片的测试描述符;3)根据所述测试描述符结合DBOW算法获取所述训练集中与所述测试图片最相似的N张候选图片;4)按顺序在N张候选图片中选取一张候选图片,将所述候选图片的描述符与所述测试图片的测试描述符进行匹配,匹配结果为相同,则将测试集中的所述测试图片删除并返回步骤2);否则,继续执行步骤4)至N张候选图片均匹配结束并返回步骤2)。

【技术特征摘要】
1.基于描述符匹配的去除重复图像的方法,其特征在于:包括以下步骤:1)提取训练集中所有图片各自的特征点,并根据所述特征点计算相应图片的描述符;2)按顺序在测试集中提取一张测试图片并计算所述测试图片的测试特征点,根据所述测试特征点计算所述测试图片的测试描述符;3)根据所述测试描述符结合DBOW算法获取所述训练集中与所述测试图片最相似的N张候选图片;4)按顺序在N张候选图片中选取一张候选图片,将所述候选图片的描述符与所述测试图片的测试描述符进行匹配,匹配结果为相同,则将测试集中的所述测试图片删除并返回步骤2);否则,继续执行步骤4)至N张候选图片均匹配结束并返回步骤2)。2.根据权利要求1所述的基于描述符匹配的去除重复图像的方法,其特征在于:所述步骤4)中匹配过程具体为,41)将所述测试图片的测试描述符与所述候选图片的描述符进行暴力匹配,获取所述测试图片与所述候选图片描述符匹配的测试描述符集合一;42)将所述测试描述符集合一中与距离最近的测试描述符之间距离大于一定阈值D的测试描述符删除以获得测试描述符集合二;43)将所述测试描述符集合二中不符合旋转不变性的测试描述符删除以获得测试描述符集合三;44)将所述测试描述符集合三中不符合缩放不变性的测试描述符删除以获得测试描述符集合四;45)计算所述测试描述符集合四中测试描述符的个数,当个数大于阈值M时,进入下一步骤;否则判定所述测试图片与所述后选图片的匹配结果为不相同;46)判定测试描述符集合四中的测试描述符是否匹配在水印上,是则判定所述测试图片与所述后选图片的匹配结果为不相同,否则判定所述测试图片与所述后选图片的匹配结果为相同。3.根据权利要求2所述的基于描述符匹配的去除重复图像的方法,其特征在于:所述步骤42)中两测试描述符之间的距离为两测试描述符之差的模。4.根据权利要求2所述的基于描述符匹配的去除重复图像的方法,其特征在...

【专利技术属性】
技术研发人员:余勤科王梓里
申请(专利权)人:上海斐讯数据通信技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1