一种图像数据清洗方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27878076 阅读:20 留言:0更新日期:2021-03-31 01:02
本发明专利技术提供了一种图像数据清洗方法、装置、电子设备及存储介质,该方法包括:确定包括底库图片和待清洗图片的并查集;分别确定每个底库图片与每个待清洗图片的图像距离;从图像距离范围内抽取出多个分段距离;图像距离范围是用于搜索距离阈值的距离范围;针对每个分段距离,分别将图像距离小于该分段距离的底库图片和待清洗图片进行并查集合并;分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,将身份标识对应的最大分段距离作为身份标识对应的距离阈值;将该身份标识对应的距离阈值下的并查集中与该身份标识对应的集合作为该身份标识对应的标注图片集合。本发明专利技术节省了人力成本,提高了清洗效率。

【技术实现步骤摘要】
一种图像数据清洗方法、装置、电子设备及存储介质
本专利技术涉及数据处理
,特别是涉及一种图像数据清洗方法、装置、电子设备及存储介质。
技术介绍
人脸识别模型训练需要高质量的训练数据集。现有技术中,高质量的训练数据集需要进行大规模的人工标注才能生成,除了直接进行人工标注外,也可以使用模型进行辅助生成,但是使用模型辅助生成时需要设置合适的阈值才可以清洗出准确的人脸数据,而该阈值需要人工反复试错才能达到较好的效果。可见,现有技术中的图像数据清洗方式需要耗费巨大的人力成本,而且清洗效率较低。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像数据清洗方法、装置、电子设备及存储介质。依据本专利技术实施例的第一方面,提供了一种图像数据清洗方法,包括:确定包括底库图片和待清洗图片的并查集;其中,所述底库图片包括与身份标识对应的图片,所述待清洗图片包括不具有身份标识的图片;分别确定每个底库图片与每个待清洗图片的图像距离;从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离;其中,所述图像距离范围是用于搜索距离阈值的距离范围;针对每个分段距离,分别将所述图像距离小于该分段距离的底库图片和待清洗图片进行并查集合并,得到与每个分段距离对应的并查集;根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,将身份标识对应的最大分段距离作为身份标识对应的距离阈值;针对每个身份标识,将该身份标识对应的距离阈值下的并查集中与该身份标识对应的集合作为该身份标识对应的标注图片集合。依据本专利技术实施例的第二方面,提供了一种图像数据清洗装置,包括:并查集初始化模块,用于确定包括底库图片和待清洗图片的并查集;其中,所述底库图片包括与身份标识对应的图片,所述待清洗图片中包括不具有身份标识的图片;图像距离确定模块,用于分别确定每个底库图片与每个待清洗图片的图像距离;分段距离抽取模块,用于从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离;其中,所述图像距离范围是用于搜索距离阈值的距离范围;并查集合并模块,用于针对每个分段距离,分别将所述图像距离小于该分段距离的底库图片和待清洗图片进行并查集合并,得到与每个分段距离对应的并查集;距离阈值确定模块,用于根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,将身份标识对应的最大分段距离作为身份标识对应的距离阈值;标注集合确定模块,用于针对每个身份标识,将该身份标识对应的距离阈值下的并查集中与该身份标识对应的集合作为该身份标识对应的标注图片集合。依据本专利技术实施例的第三方面,提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面中所述的图像数据清洗方法。依据本专利技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的图像数据清洗方法。本专利技术实施例提供的图像数据清洗方法、装置、电子设备及存储介质,通过确定包括底库图片和待清洗图片的并查集,分别确定每个底库图片与每个待清洗图片的图像距离,从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离,针对每个分段距离,分别将图像距离小于该分段距离的底库图片和待清洗图片进行并查集合并,得到与每个分段距离对应的并查集,根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,将身份标识对应的最大分段距离作为身份标识对应的距离阈值,针对每个身份标识,将该身份标识对应的距离阈值下的并查集中与该身份标识对应的集合作为该身份标识对应的标注图片集合。由于可以在图像距离范围内自动搜索确定每个身份标识对应的距离阈值,并且根据动态确定的距离阈值可以将待清洗图片归类到对应的身份标识下,得到身份标识对应的标注图片集合,相对于人工清洗数据和人工试错确定阈值,节省了人力成本,提高了清洗效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。图1是本专利技术实施例提供的一种图像数据清洗方法的步骤流程图;图2是本专利技术实施例中的相似度与相似度密度的关系示意图;图3是本专利技术实施例提供的一种图像数据清洗装置的结构框图。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。图1是本专利技术实施例提供的一种图像数据清洗方法的步骤流程图,该方法可以应用于根据具有身份标识的底库图片将不具有身份标识的待清洗图片归类到所述身份标识下的情况,以完成对图像数据的清洗。如图1所示,该方法可以包括:步骤101,确定包括底库图片和待清洗图片的并查集;其中,所述底库图片包括与身份标识对应的图片,所述待清洗图片包括不具有身份标识的图片。其中,所述底库图片为具有标注的少量图片,可以是人脸图片、人体图片、车辆图片或动物图片等,每个底库图片具有对应的身份标识。图片对应的身份标识可以是人的ID号或自定义的编号,还可以是动物的品种或车辆的品牌等。在底库图片为人脸图片时,底库图片中具有标注的人脸图片为目标人员的清晰正脸照片,该具有标注的人脸图片的获取方式可以包括:爬取百度百科的人物照,和/或对于公司园区/物业等可以让员工/业主提供自己的个人证件照(一张或多张),通过这些方式获取到的有标注数据的人脸图片称为底库图片;待清洗图片可以是从互联网中爬取的对应底库中人物的图片和/或通过园区内架设的摄像头抓拍的底库内人物的活动照片,这些图片没有和身份标识对应,需要通过数据清洗确定这些图片对应的身份标识。在获取到底库图片和待清洗图片后,分别统计底库图片的数量和待清洗图片的数量,从而得到底库图片和待清洗图片的数量总和,并对每个底库图片和待清洗图片进行编号,得到图片标识,将底库图片和待清洗图片初始化为大小为所述数量总和的并查集,并在并查集中的每个单元素集合中存放一个底库图片或待清洗图片的图片标识。通过初始化为一个大小为底库图片和待清洗图片数量总和的并查本文档来自技高网...

【技术保护点】
1.一种图像数据清洗方法,其特征在于,包括:/n确定包括底库图片和待清洗图片的并查集;其中,所述底库图片包括与身份标识对应的图片,所述待清洗图片包括不具有身份标识的图片;/n分别确定每个底库图片与每个待清洗图片的图像距离;/n从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离;其中,所述图像距离范围是用于搜索距离阈值的距离范围;/n针对每个分段距离,分别将所述图像距离小于该分段距离的底库图片和待清洗图片进行并查集合并,得到与每个分段距离对应的并查集;/n根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,将身份标识对应的最大分段距离作为身份标识对应的距离阈值;/n针对每个身份标识,将该身份标识对应的距离阈值下的并查集中与该身份标识对应的集合作为该身份标识对应的标注图片集合。/n

【技术特征摘要】
1.一种图像数据清洗方法,其特征在于,包括:
确定包括底库图片和待清洗图片的并查集;其中,所述底库图片包括与身份标识对应的图片,所述待清洗图片包括不具有身份标识的图片;
分别确定每个底库图片与每个待清洗图片的图像距离;
从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离;其中,所述图像距离范围是用于搜索距离阈值的距离范围;
针对每个分段距离,分别将所述图像距离小于该分段距离的底库图片和待清洗图片进行并查集合并,得到与每个分段距离对应的并查集;
根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,将身份标识对应的最大分段距离作为身份标识对应的距离阈值;
针对每个身份标识,将该身份标识对应的距离阈值下的并查集中与该身份标识对应的集合作为该身份标识对应的标注图片集合。


2.根据权利要求1所述的方法,其特征在于,从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离,包括:
以预设采样间隔对以上限距离和下限距离表示的图像距离范围进行等间隔采样,将得到的多个采样距离作为用于与所述图像距离进行比较的多个分段距离。


3.根据权利要求1或2所述的方法,其特征在于,在所述从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离之前,还包括:
获取用户设置的表示图像距离范围的上限距离和下限距离。


4.根据权利要求1或2所述的方法,其特征在于,在所述从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离之前,还包括:
获取用户设置的表示图像相似度范围的上限相似度和下限相似度;
根据相似度与距离的换算关系,将所述上限相似度转换为上限距离,并将所述下限相似度转换为下限距离,得到以所述上限距离和下限距离表示的图像距离范围。


5.根据权利要求1所述的方法,其特征在于,所述分别确定每个底库图片与每个待清洗图片的图像距离,包括:
通过特征提取模型分别提取所述每个底库图片和每个待清洗图片的图像特征;
根据每个底库图片的图像特征和每个待清洗图片的图像脸特征,确定每个底库图片分别与每个待清洗图片的图像距离。


6.根据权利要求1所述的方法,其特征在于,根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,包括:
针对每个身份标识,对所有分段距离下的并查集进行二分查找,以确定该身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段...

【专利技术属性】
技术研发人员:杜佳慧
申请(专利权)人:北京迈格威科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1