【技术实现步骤摘要】
一种图像数据清洗方法、装置、电子设备及存储介质
本专利技术涉及数据处理
,特别是涉及一种图像数据清洗方法、装置、电子设备及存储介质。
技术介绍
人脸识别模型训练需要高质量的训练数据集。现有技术中,高质量的训练数据集需要进行大规模的人工标注才能生成,除了直接进行人工标注外,也可以使用模型进行辅助生成,但是使用模型辅助生成时需要设置合适的阈值才可以清洗出准确的人脸数据,而该阈值需要人工反复试错才能达到较好的效果。可见,现有技术中的图像数据清洗方式需要耗费巨大的人力成本,而且清洗效率较低。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像数据清洗方法、装置、电子设备及存储介质。依据本专利技术实施例的第一方面,提供了一种图像数据清洗方法,包括:确定包括底库图片和待清洗图片的并查集;其中,所述底库图片包括与身份标识对应的图片,所述待清洗图片包括不具有身份标识的图片;分别确定每个底库图片与每个待清洗图片的图像距离;从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离;其中,所述图像距离范围是用于搜索距离阈值的距离范围;针对每个分段距离,分别将所述图像距离小于该分段距离的底库图片和待清洗图片进行并查集合并,得到与每个分段距离对应的并查集;根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,将身份标 ...
【技术保护点】
1.一种图像数据清洗方法,其特征在于,包括:/n确定包括底库图片和待清洗图片的并查集;其中,所述底库图片包括与身份标识对应的图片,所述待清洗图片包括不具有身份标识的图片;/n分别确定每个底库图片与每个待清洗图片的图像距离;/n从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离;其中,所述图像距离范围是用于搜索距离阈值的距离范围;/n针对每个分段距离,分别将所述图像距离小于该分段距离的底库图片和待清洗图片进行并查集合并,得到与每个分段距离对应的并查集;/n根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,将身份标识对应的最大分段距离作为身份标识对应的距离阈值;/n针对每个身份标识,将该身份标识对应的距离阈值下的并查集中与该身份标识对应的集合作为该身份标识对应的标注图片集合。/n
【技术特征摘要】
1.一种图像数据清洗方法,其特征在于,包括:
确定包括底库图片和待清洗图片的并查集;其中,所述底库图片包括与身份标识对应的图片,所述待清洗图片包括不具有身份标识的图片;
分别确定每个底库图片与每个待清洗图片的图像距离;
从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离;其中,所述图像距离范围是用于搜索距离阈值的距离范围;
针对每个分段距离,分别将所述图像距离小于该分段距离的底库图片和待清洗图片进行并查集合并,得到与每个分段距离对应的并查集;
根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,将身份标识对应的最大分段距离作为身份标识对应的距离阈值;
针对每个身份标识,将该身份标识对应的距离阈值下的并查集中与该身份标识对应的集合作为该身份标识对应的标注图片集合。
2.根据权利要求1所述的方法,其特征在于,从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离,包括:
以预设采样间隔对以上限距离和下限距离表示的图像距离范围进行等间隔采样,将得到的多个采样距离作为用于与所述图像距离进行比较的多个分段距离。
3.根据权利要求1或2所述的方法,其特征在于,在所述从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离之前,还包括:
获取用户设置的表示图像距离范围的上限距离和下限距离。
4.根据权利要求1或2所述的方法,其特征在于,在所述从以上限距离和下限距离表示的图像距离范围内抽取出用于与所述图像距离进行比较的多个分段距离之前,还包括:
获取用户设置的表示图像相似度范围的上限相似度和下限相似度;
根据相似度与距离的换算关系,将所述上限相似度转换为上限距离,并将所述下限相似度转换为下限距离,得到以所述上限距离和下限距离表示的图像距离范围。
5.根据权利要求1所述的方法,其特征在于,所述分别确定每个底库图片与每个待清洗图片的图像距离,包括:
通过特征提取模型分别提取所述每个底库图片和每个待清洗图片的图像特征;
根据每个底库图片的图像特征和每个待清洗图片的图像脸特征,确定每个底库图片分别与每个待清洗图片的图像距离。
6.根据权利要求1所述的方法,其特征在于,根据与每个分段距离对应的并查集,分别确定每个身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段距离,包括:
针对每个身份标识,对所有分段距离下的并查集进行二分查找,以确定该身份标识下的底库图片与其他底库图片没有发生错误合并的最大分段...
【专利技术属性】
技术研发人员:杜佳慧,
申请(专利权)人:北京迈格威科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。