【技术实现步骤摘要】
数据集清洗方法、装置和电子系统
本专利技术涉及数据清洗
,尤其是涉及一种数据集清洗方法、装置和电子系统。
技术介绍
随着人脸识别领域深度学习的方法被广泛利用,训练人脸识别系统需要海量的人脸图像。为了得到更多的人脸图像,一种通用的做法是从互联网上抓取人脸图像生成数据集。从互联网上抓取人脸图像的过程中,一般会对每一张被抓取的图像标注一个身份标识,并将相同身份标识的图像放入一个目录。但是由于抓取图像时标注的身份标识可能不够准确,导致一个目录下可能存有不同身份标识的人脸图像;或者被抓取的图像可能存在多人合影的情况,导致同样身份标识的人脸图像可能存在于多个不同目录下,数据集会存在大量噪声,数据集的数据质量较差。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种数据集清洗方法、装置和电子系统,以减少数据集中的噪声,增加数据集的数据质量。第一方面,本专利技术实施例提供了一种数据集清洗方法,包括:获取包含目标对象的图像数据集;图像数据集划分为至少一个目录,每个目录中的图像对应同一目标对象的身份标 ...
【技术保护点】
1.一种数据集清洗方法,其特征在于,包括:/n获取包含目标对象的图像数据集;所述图像数据集划分为至少一个目录,每个所述目录中的图像对应同一目标对象的身份标识;/n将每个所述目录中的图像划分为至少一个类别;其中,每一个所述类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值;/n检查每个所述目录中包含图像数量最多的目标类别,剔除所述目录中除所述目标类别之外的其余类别,将每个所述目标类别的图像作为该目标类别对应目录的图像;/n对于每个所述目录,分别计算该目录的各个图像的特征对应的均值向量,将该均值向量作为该目录的特征;/n基于所述目录的特征间的相似度进行目录合 ...
【技术特征摘要】
1.一种数据集清洗方法,其特征在于,包括:
获取包含目标对象的图像数据集;所述图像数据集划分为至少一个目录,每个所述目录中的图像对应同一目标对象的身份标识;
将每个所述目录中的图像划分为至少一个类别;其中,每一个所述类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值;
检查每个所述目录中包含图像数量最多的目标类别,剔除所述目录中除所述目标类别之外的其余类别,将每个所述目标类别的图像作为该目标类别对应目录的图像;
对于每个所述目录,分别计算该目录的各个图像的特征对应的均值向量,将该均值向量作为该目录的特征;
基于所述目录的特征间的相似度进行目录合并;
根据合并目录后的图像获得所述目标对象的目标数据集。
2.根据权利要求1所述的方法,其特征在于,获取包含目标对象的图像数据集的步骤,包括:
获取初始图像集;每个所述初始图像集中的初始图像具有对应的身份标识;
将具有相同身份标识的所述初始图像存入同一目录中;
根据所述初始图像中目标对象的置信度和/或人脸框大小对每个目录中的初始图像进行清洗,得到包含目标对象图像数据集。
3.根据权利要求2所述的方法,其特征在于,根据所述初始图像中目标对象的置信度对每个目录中的初始图像进行清洗的步骤,包括:
判断所述初始图像对于所述目标对象的置信度是否大于预设的第二阈值;
如果否,从所述目录中剔除所述初始图像;
如果是,从所述初始图像中提取所述目标对象对应的图像;以提取得到所述图像替换所述初始图像。
4.根据权利要求1所述的方法,其特征在于,将每个所述目录中的图像划分为至少一个类别的步骤,包括:
提取每个所述目录中的每个图像的特征,对于每个所述目录均执行以下操作:
如果所述目录中有多个图像的特征之间的相似度均高于预设的第三阈值,则融合所述多个图像的特征,得到融合后的目标特征和所述目标特征对应的融合图像;
分别将每个最终图像作为一个所述类别,并将所述最终图像对应的特征作为所述类别的特征;其中,所述最终图像包括所述融合图像和/或未融合的图像;
逐一选择每个所述类别,对于选择的所述类别:计算被选择的所述类别与未被选择的所述类别中的特征的第二相似度;如果所述第二相似度的最大值大于所述第一阈值,则将所述被选择的类别合并到所述第二相似度的最大值对应的类别中;
重复执行所述逐一选择每个所述类别,对于选择的所述类别进行类别合并处理的步骤,直至重复的次数达到预设的次数阈值,或者所述目录中的类别的数量变化趋于0。
5.根据权利要求1所述的方法,其特征在于,基于所述目录的特征间的相似度进行目录合并的步骤,包括:
基于所述目录的特征对所述目录进行K均值聚类,得到至少一个簇;每个所述簇包括至少一个所述目录;
计算每个所述簇中的目录与其他目录的特征之...
【专利技术属性】
技术研发人员:陈坤鹏,姚聪,王鹏,周争光,
申请(专利权)人:北京旷视科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。