一种带分割标注的图像数据集重复目标去重方法技术

技术编号:37867543 阅读:9 留言:0更新日期:2023-06-15 20:57
本发明专利技术公开了一种带分割标注的图像数据集重复目标去重方法,当两两匹配的图片存在有部分特征重叠的情况时,载入两图片的标注文件,获取各特征点对及其坐标对;通过累加求均值法计算x轴和y轴的坐标偏移量,并对被匹配图片的标注文件进行坐标转换;获取交集区域,生成去重掩膜的坐标和大小,利用去重掩膜在被匹配图片的对应区域及其标注文件进行置零去重处理;适用于数据集重复标定个体去重处理,最大限度地保留了有价值的信息,且避免了冗余信息,能生成更高质量的数据集,为后续深度学习的模型训练提供更高质量的数据支持;可形成自动去重,相比人工去重,具有避免缺漏、不重复的优势,且具有高效率、运行准确的显著有益效果。运行准确的显著有益效果。运行准确的显著有益效果。

【技术实现步骤摘要】
一种带分割标注的图像数据集重复目标去重方法


[0001]本专利技术涉及图像去重方法领域,尤其涉及的是一种带分割标注的图像数据集重复目标去重方法。

技术介绍

[0002]当前,随着深度学习图像技术的蓬勃发展,在深度学习的模型构建与训练中,首要的任务是如何高效、准确地获取或构建图像数据集,但在获取或构建的图像数据集的过程中,难免会存在有图像(或图片,下同)重复收集、同一个目标个体(或目标对象)多次出现在多张图片(或图像,下同)中等信息冗余的情况,从而导致在深度学习的模型训练过程中出现偏差,因此,如何实现图像数据集的图像及图像内的目标高效率、准确地去重具有重要意义。
[0003]现有的图像去重技术主要以匹配特征的方法,对重复图片或相似图片进行去重,例如,现有专利技术专利文献《一种图像去重方法、装置、电子设备及存储介质》(申请号202210394688.0)中,在获取图像特征后,对各待去重图像进行匹配,并在进行分组之后,根据各图像分组进行各待去重图像的去重操作;又如,现有专利技术专利文献《管道图像去重方法、计算机装置、产品及存储介质》(申请号202210142276.8)中,抽帧获取管道的相近两张图像帧,基于FPN网络获取图像特征,并计算两张图像相似度,从而进行图像的去重操作。
[0004]但是,上述两件现有技术仅仅对整张图片进行去重操作,并没有保留两张图片之间仍有价值的非重叠信息,如果目标个体在被舍弃的图片中以及图像背景仍存在值得利用的信息,那么在对整张图片去重的同时,就是对数据集中有价值信息的丢弃;而存在该局限或导致该缺陷的主要原因是,上述两件现有技术仅考虑在图像层次进行去重,并未考虑在带标注图像下,对有价值信息进行保留及利用。
[0005]因此,现有技术尚有待改进和发展。

技术实现思路

[0006]为解决上述技术问题,本专利技术提供一种带分割标注的图像数据集重复目标去重方法,可高效、准确地实现图像数据集的图像及图像内的目标去重。
[0007]本专利技术的技术方案如下:一种带分割标注的图像数据集重复目标去重方法,其中:当两两匹配的图片i和j存在有部分特征重叠的情况时,载入图片i和j的标注文件,获取n个匹配对索引的特征点对及其坐标对,其中,代表图片i中匹配点的横坐标,代表图片i中匹配点的纵坐标,代表图片j中匹配点的横坐标,代表图片j中匹配点的横坐标;通过累加求均值法计算x轴和y轴的坐标偏移量dx和dy:
,,其中,N代表匹配对数量,n代表匹配对索引,代表两个匹配点横坐标的绝对值,代表两个匹配点纵坐标的绝对值,并对图片i的标注文件进行坐标转换;获取交集区域,生成去重掩膜的坐标和大小(X,Y,W,H),其中,X代表去重掩膜横坐标并取所有匹配点横坐标最小值,Y代表去重掩膜纵坐标并取所有匹配点纵坐标最小值,W代表去重掩膜宽度并取值dx,H代表去重掩膜高度并取值dy;利用去重掩膜在图片i的对应区域及其标注文件进行置零去重处理。
[0008]所述的带分割标注的图像数据集重复目标去重方法,其中:先对图像数据集进行下采样操作,并将其储存在待匹配图像文件夹中;同时获取待匹配图像文件夹中的图像数量M,初始化匹配度阈值T的最小值T_min和最大值T_max,初始化被匹配图像索引i、匹配图像索引j的初始值均为1,和初始化被删除图片数量D的初始值为0。
[0009]所述的带分割标注的图像数据集重复目标去重方法,其中:判断被匹配图像索引i是否等于1?是则进入结束条件判断步骤;否则载入图片j,将图片i与图片j进行匹配并获得匹配度阈值T,进入匹配及筛选流程,经匹配及筛选后,再返回待匹配图像排序流程中,令j=j+1,进入索引匹配判断步骤。
[0010]所述的带分割标注的图像数据集重复目标去重方法,其中:判断匹配图像索引j是否小于i?是则载入图片j,与图片i进行匹配并获得匹配度阈值T,进入匹配及筛选流程,经匹配及筛选后,再回到待匹配图像排序流程中,令j=j+1,回到索引匹配判断步骤;否则进入结束条件判断步骤。
[0011]所述的带分割标注的图像数据集重复目标去重方法,其中:判断被匹配图像索引i是否小于图像数量M?是则令i=i+1,且j=1,载入图片i后,进入初始化判断步骤;否则流程结束。
[0012]所述的带分割标注的图像数据集重复目标去重方法,其中:当匹配度阈值T小于等于最小值T_min,进入匹配图像排序流程继续进行匹配,令j=j+1,回到索引匹配判断步骤;当匹配度阈值T处于T_min与T_max之间,进入去重流程中进行部分去重操作;当匹配度阈值T大于等于最大值T_max,进入去重流程中进行删除图片及标注文件操作。
[0013]所述的带分割标注的图像数据集重复目标去重方法,其中:当匹配度阈值T大于等于最大值T_max,则将整张图片i及其标注文件删除,且将被删除图片数量D值增加1,并返回待匹配图像排序流程,令j=j+1,回到索引匹配判断步骤。
[0014]所述的带分割标注的图像数据集重复目标去重方法,其中:在利用去重掩膜在图片i的对应区域及其标注文件进行置零去重处理时,判断图片i中的各特征点是否落在去重掩膜的区域内,是则获取图片i特征点掩膜坐标,去掉去重掩膜部分,将图片i去重掩膜部分
置零,并返回匹配图像排序流程继续进行匹配;否则直接将图片i去重掩膜部分置零,并返回匹配图像排序流程继续进行匹配,令j=j+1,回到索引匹配判断步骤。
[0015]所述的带分割标注的图像数据集重复目标去重方法,其中:分割标注为语义分割标注、实例分割标注或全景分割标注。
[0016]所述的带分割标注的图像数据集重复目标去重方法,其中:在每个目标的分割标注信息中包含有分类及其轮廓线的端点坐标组。
[0017]本专利技术所提供的一种带分割标注的图像数据集重复目标去重方法,为筛选出图像采集人员重复标定的目标个体或目标对象,通过SIFT算法,识别出数据集中图像间交集区域,生成去重掩膜,并将重叠部分进行置零、删除个体标定信息等处理,形成一种特定的去重方法,适用于数据集重复标定个体去重处理,从而生成更高质量的数据集,为后续深度学习的模型训练提供更高质量的数据支持;在前期确定好阈值T的最小值T_min和最大值T_max以及图像下采样的尺寸参数之后,可形成自动去重,相比人工去重,具有避免缺漏、不重复的优势,且具有高效率、运行准确的显著有益效果。
附图说明
[0018]在此描述的附图仅用于解释目的,而非意图以任何方式来限制本专利技术公开的范围;图中各部件的形状和比例尺寸等仅为示意性的,用于帮助对本专利技术的理解,并非是具体限定本专利技术各部件的形状和比例尺寸;本领域的技术人员在本专利技术的教导下,可以根据具体情况选择各种可能的形状和比例尺寸来实施本专利技术。
[0019]图1是本专利技术带分割标注的图像数据集重复目标去重方法实施例的流程图;图2是本专利技术带分割标注的图像数据集重复目标去重方法实施例所用分割标注掩膜示意图;图3是本专利技术带分割标注的图像数据集重复目标去重方法实施例去重效果示意图。
具体实施方式<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种带分割标注的图像数据集重复目标去重方法,其特征在于:当两两匹配的图片i和j存在有部分特征重叠的情况时,载入图片i和j的标注文件,获取n个匹配对索引的特征点对及其坐标对,其中,代表图片i中匹配点的横坐标,代表图片i中匹配点的纵坐标,代表图片j中匹配点的横坐标,代表图片j中匹配点的横坐标;通过累加求均值法计算x轴和y轴的坐标偏移量dx和dy:,,其中,N代表匹配对数量,n代表匹配对索引,代表两个匹配点横坐标的绝对值,代表两个匹配点纵坐标的绝对值,并对图片i的标注文件进行坐标转换;获取交集区域,生成去重掩膜的坐标和大小(X,Y,W,H),其中,X代表去重掩膜横坐标并取所有匹配点横坐标最小值,Y代表去重掩膜纵坐标并取所有匹配点纵坐标最小值,W代表去重掩膜宽度并取值dx,H代表去重掩膜高度并取值dy;利用去重掩膜在图片i的对应区域及其标注文件进行置零去重处理。2.根据权利要求1所述的带分割标注的图像数据集重复目标去重方法,其特征在于:先对图像数据集进行下采样操作,并将其储存在待匹配图像文件夹中;同时获取待匹配图像文件夹中的图像数量M,初始化匹配度阈值T的最小值T_min和最大值T_max,初始化被匹配图像索引i、匹配图像索引j的初始值均为1,和初始化被删除图片数量D的初始值为0。3.根据权利要求2所述的带分割标注的图像数据集重复目标去重方法,其特征在于:判断被匹配图像索引i是否等于1?是则进入结束条件判断步骤;否则载入图片j,将图片i与图片j进行匹配并获得匹配度阈值T,进入匹配及筛选流程,经匹配及筛选后,再返回待匹配图像排序流程中,令j=j+1,进入索引匹配判断步骤。4.根据权利要求3所述的带分割标注的图像数据集重复目标去重方法,其特征在于:判断匹配图像索引j是否小于i?是则载入图片j,与图片i进行匹配并获得匹配度阈值T,进入匹配及筛选流程,经匹配及...

【专利技术属性】
技术研发人员:马文军殷李华方悦怡肖建鹏刘涛何冠豪胡建雄容祖华黄栩滨
申请(专利权)人:广东省公共卫生研究院广东省疾病预防控制中心
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1