数据清洗设备、数据清洗方法和人脸验证方法技术

技术编号:34085711 阅读:22 留言:0更新日期:2022-07-11 19:57
本申请实施例提供了一种数据清洗方法。所述方法包括:获取训练人脸数据集,所述训练人脸数据集包括多个训练图像,每个所述训练图像被标记有人员ID;获取候选人脸验证模型,并利用所述多个训练图像训练所述候选人脸验证模型;在所述训练后,从所述候选人脸验证模型中获取多个特征嵌套,并确定一个人员ID的平均特征嵌套与标记为所述同一个人员ID的每个图像之间的相似度;从所述多个训练图像中提取至少一个相似度小于相似度阈值的训练图像;以及响应于接收确认信号,删除提取的所述至少一个训练图像。练图像。练图像。

【技术实现步骤摘要】
【国外来华专利技术】数据清洗设备、数据清洗方法和人脸验证方法
[0001]相关申请的交叉引用
[0002]本申请要求于2019年11月20日提交的申请号为NO.62/938,246,标题为“人脸检测数据集的弱监督清洗方法和系统”的美国临时申请的优先权,其全部内容通过引用结合在本申请中。


[0003]本申请涉及计算机视觉
,更具体地,涉及一种数据清洗设备、一种数据清洗方法和一种人脸验证方法。

技术介绍

[0004]作为一项重要的识别和辨别技术,人脸识别在现代社会具有不可替代的功能。对于人脸验证来说,误报(false positives)和漏报(false negatives)都应该最小化,以避免失败和黑客。在这种情况下,人脸数据集的质量是非常重要的。然而,由于操作员和测试员的不专业,通常人脸数据收集涉及不一致的问题,不准确的人脸检测也可能降低人脸验证的性能。为了获得具有高可靠性和准确性的人脸识别,需要对数据进行清洗和处理,从而删除噪声图像。
[0005]现有的数据清洗流程(data clean pipelines)包括人工清洗和基于模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种数据清洗方法,其特征在于,包括:获取训练人脸数据集,所述训练人脸数据集包括:多个训练图像,每个所述训练图像被标记有人员ID;获取候选人脸验证模型,并利用所述多个训练图像训练所述候选人脸验证模型;在所述训练后,从所述候选人脸验证模型中获取多个特征嵌套,并确定一个人员ID的平均特征嵌套与标记为所述同一个人员ID的每个图像之间的相似度;从所述多个训练图像中提取至少一个所述相似度小于相似度阈值的训练图像;以及响应于接收确认信号,删除提取的所述至少一个训练图像。2.根据权利要求1所述的方法,其特征在于,在删除提取的所述至少一个训练图像的所述操作之前以及在提取至少一个训练图像的所述操作之后,所述方法还包括:输出提取的所述至少一个训练图像以用于第一检查。3.根据权利要求2所述的方法,其特征在于,删除提取的所述至少一个训练图像的所述操作,包括:接收第一检查信号,其中所述第一检查信号为确认信号或拒绝信号;响应于接收所述确认信号,删除提取的所述至少一个训练图像;或者响应于接收所述拒绝信号,保留提取的所述至少一个训练图像。4.根据权利要求1所述的方法,其特征在于,在提取至少一个训练图像的所述操作之前,所述方法还包括:定义小于或等于一上限值的所述相似度阈值。5.根据权利要求4所述的方法,其特征在于,所述上限值为0.85。6.根据权利要求1所述的方法,其特征在于,在获取训练人脸数据集的所述操作之后,所述方法还包括:为所述多个训练图像生成列表“all.lst”;在提取至少一个训练图像的所述操作之后,所述方法还包括:为提取的所述至少一个训练图像生成列表“noisy.lst”;在删除提取的所述至少一个训练图像的所述操作之后,所述方法还包括:更新所述列表“all.lst”。7.根据权利要求1所述的方法,其特征在于,还包括:使用剩余的所述训练图像训练所述候选人脸验证模型;在所述训练之后,获取多个特征嵌套;形成多个对,每个所述对包括两个不同的人员ID;计算每一个所述对的相似度;提取至少一个相似度大于合并阈值的对;以及根据第二检查信号处理提取的所述至少一个对。8.根据权利要求7所述的方法,其特征在于,在提取至少一个相似度大于合并阈值的对的所述操作之后,包括:输出提取的所述至少一个对;以及接收执行在提取的所述至少一个对上的第二检查信号。9.根据权利要求7所述的方法,其特征在于,所述第二检查信号为合并信号或非合并信
号,根据所述检查信号处理提取的所述至少一个对的所述操作包括:响应于接收所述合并信号,修改所述对中的至少一个人员ID;以及响应于接收所述非合并信号,保留所述两个不同的人员ID。10.根据权利要求9所述的方法,其特征在于,修改所述对中的至少一个人员ID的所述操作,包括:将所述两个人员ID中的一个替换为另一个。11.根据权利要求1所述的方法,其特征在于,在删除提取的所述至少一个训练图像的所述操作之后,所述方法还包括:增大所述相似度阈值,并执行从所述多个训练图像中提取至少一个相似度小于相似度阈值的训练图像的所述操作。12.一种人脸验证方法,其特征在于,包括:提供训练人脸数据集,所述训练人脸数据集包括多个训练图像,每个所述训练图像被标记有人员ID;获取候选人脸验证模...

【专利技术属性】
技术研发人员:刘杰周扬
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1