一种面向开放集的大规模人脸检索数据集清洗方法及系统技术方案

技术编号:35213558 阅读:15 留言:0更新日期:2022-10-15 10:27
本发明专利技术公开了一种面向开放集的大规模人脸检索数据集清洗方法及系统,该清洗方法包括人脸预处理、人脸检测与关键点检测、人脸分类、人脸特征提取、人脸相似度搜索、人脸数据合并、人脸数据删除七个步骤,采用基于相似度搜索的多阈值、多路并行、多轮迭代的方法,全自动化、准确且高效地完成大规模人脸数据的全流程清洗工作,无需人工参与。基于相似度搜索的搜索索引器采用增量型构建方法,同一个身份ID的人脸特征向量在搜索索引器中有且仅有一个,可高效地实现将同一身份ID的人脸数据置于同一文件夹中。件夹中。件夹中。

【技术实现步骤摘要】
一种面向开放集的大规模人脸检索数据集清洗方法及系统


[0001]本专利技术涉及计算机视觉
,尤其公开了一种面向开放集的大规模人脸检索数据集清洗方法及系统。

技术介绍

[0002]随着深度学习技术不断突破以及算力不断提升,计算机视觉领域取得了突破性进展。人脸检索作为计算机视觉领域的重点研究方向,广泛地应用于安防、社交以及日常娱乐等领域。但当前人脸检索仍面临公开的训练数据集噪声多、规模小,特别是亚裔人脸少等问题。其中,目前完全公开的最大最干净的人脸训练数据集是格灵深瞳Glint360K,仅拥有36万ID和1700w张图片,且利用该数据集训练的模型在亚洲人的人脸检索精度仍非常差,远远无法满足面向开放集的大规模人脸检索系统的数据需求。
[0003]然而,完全利用人工清洗海量的人脸数据存在若干问题,包括但不限于如下几点:1)数据安全问题;2)无法准确地将海量的人脸图像按身份ID进行分类;3)耗时长且人工成本高。
[0004]通过利用互联网或者其他途径获得含人脸的图像后,如何将其高效地制作成一个可以用于实际落地场景的大规模且干净的人脸数据集呢?
[0005]在专利201810930672.0中,公开了一种关于人脸数据清洗方法及机置,获取与目标人物相关的第一待处理的人脸数据,基于第一人脸识别模型分别提取各人脸数据的人脸特征,确定目标人物的第一人脸特征。根据各人脸数据的人脸特征及目标人物的第一人脸特征,筛选出各人脸数据中不需要清洗的第一人脸数据,需要删除的第二人脸数据及需要清洗的第三人脸数据。其中,需要清洗的第三人脸数据通过人工进行清洗完。该专利技术可减少清洗的人工成本及开销,但无法全流程自动化清洗,仍需要人工参与。同时,从权力要求书和实施例中未能看到可以应用于多大规模的数据清洗任务中,因此在千万级甚至亿级等规模是否适用有待验证。
[0006]在专利202010288271.7中,公开了一种人脸聚类方法、装置、电子设备和计算机可读存储介质。将人脸数据集中的每个人脸数据确定为一个节点;两两计算节点之间的相似度,并在相似度大于指定阈值的两个节点之间构建边;基于边和每个边的初始权重构建成的数据图;基于初始权重和初始类别标识,按照预设的迭代次数确定数据图的每个节点的目标类别,以对人脸数据集中的人脸数据完成聚类。该专利技术有效缓解了单类异常的问题,提高了聚类的精度,但鉴于聚类的特点,目前暂时难以准确高效地应用于大规模人脸数据清洗问题上。
[0007]在专利CN202010188856.1中,公开了一种人脸数据清洗方法、装置及设备。该方法包括:获取预设时间段的人脸数据集;确定人脸数据集中两两之间的相似度值;根据相似度值确定人脸数据集中重复的人脸数据;对重复的人脸数据择一保留。该专利技术提高了数据存储和处理的效率,但仅仅是解决人脸数据清洗中去重问题,未涉及人脸数据清洗最核心的问题,如何将大规模人脸数据按照同一人脸身份ID进行高效准确地分堆。
[0008]在专利CN202111061863.6中,公开了一种大规模人脸数据集的双阶段噪声清洗方法,利用双阶段策略,让网络在训练过程中自发地检测闭集噪声样本和开集噪声样本,对闭集噪声样本进行重利用,对开集噪声样本从训练集进行删除。该专利技术解决一个基本可用且仅略含噪声的闭集人脸数据集的清洗问题。但在真实场景中,人脸数据是一个随机分布的开放集,数据清洗难度远大于该专利技术解决的闭集数据集。此外,实施例仅仅是采用一个数据规模并不大的闭集数据集(weface)进行说明,随着数据规模的增大,该专利技术的清洗方案是否适用有待验证。
[0009]上述这些专利公开的方法及其实施例,主要解决类别数量确定的闭集人脸数据集的清洗问题,且基本需要人工参与清洗,本专利技术提出了一种面向类别数量不确定的大规模开放集人脸数据的清洗方法,采用基于相似度搜索的多阈值、多路并行、多轮迭代的方法,全自动化、准确且高效地完成大规模人脸数据的全流程清洗工作,无需人工参与。同时,本专利技术清洗方法适用于不同规模数据量,可满足百万级别、千万级甚至数亿级等的清洗需求。
[0010]综合上述现有专利及相关技术,目前已有的专利存在着以下问题:
[0011]现有专利未能解决真实场景所需的类别数量不确定的大规模开放集人脸数据的清洗问题,主要解决类别数量确定的闭集人脸数据集的清洗问题。比如,利用身份ID等信息在互联网中爬取获得的含噪声的人脸数据集,该数据集类别数量是确定的,且每个类别的人脸图像是具备一定准确性的,仅含有部分错误人脸或者非人脸的噪声数据。
[0012]对于大规模的数据(如千万级甚至亿级人脸),聚类算法难收敛、准确度较低,并且需要大量的内存和时间。此外,聚类算法基本需要设定初始类别数,不太适用于类别数量不确定的开放集人脸数据。
[0013]为解决上述问题,本专利技术针对实际落地场景的开放集的大规模人脸数据,提出了一种基于相似度搜索的多阈值、多路并行、多轮迭代且不需要人工参与的人脸数据清洗方法及系统。

技术实现思路

[0014]本专利技术提供了一种面向开放集的大规模人脸检索数据集清洗方法及系统,旨在处理现有技术中未能解决真实场景所需的类别数量不确定的大规模开放集人脸数据的清洗的技术问题。
[0015]本专利技术的一方面涉及一种面向开放集的大规模人脸检索数据集清洗方法,包括以下步骤:
[0016]人脸预处理步骤,利用图像处理工具将所有含有人脸的图像按照指定尺寸的画布进行拼接,获得已拼接人脸图像;
[0017]人脸检测与关键点检测步骤,对各个已拼接人脸图像进行人脸检测和人脸关键点检测,获得若干个人脸图像及人脸关键点;利用各个人脸关键点对相应人脸图像进行仿射变换,获得各个已对齐人脸图像;
[0018]人脸分类步骤,对各个已对齐人脸图像进行分类,分为可用人脸和不可用人脸,并去除不可用人脸;
[0019]人脸特征提取步骤,对各个可用人脸进行人脸特征提取,获取人脸特征向量,并结合数据分析工具,将各个人脸特征向量保存至磁盘中;
[0020]人脸相似度搜索步骤,由若干路人脸相似度子搜索并行完成,同时,将人脸特征向量分为对应若干份;若干路人脸相似度子搜索分别负责一份人脸特征向量的相似度搜索任务,分别获得不同身份ID文件夹;将若干路人脸相似度子搜索获得的不同身份ID文件夹置于同一个文件夹,获得初始人脸文件夹;
[0021]人脸数据合并步骤,从初始人脸文件夹的各个子文件夹中随机抽取若干张人脸图片;将随机抽取的所有人脸图片进行人脸特征提取,获得人脸特征向量;并将同一身份ID的人脸特征向量进行拼接,获得已拼接人脸特征向量;结合数据分析工具,将所有已拼接人脸特征向量保存至磁盘中;将各个已拼接人脸特征向量与合并索引器中的所有已拼接人脸特征向量进行相似距离计算,对小于合并阈值的待合并文件夹进行合并,获得已合并人脸临时文件夹,并更新合并阈值,直至已合并人脸临时文件夹的数量基本不减少或者指定合并轮数停止,获得已合并人脸文件夹;
[0022]人脸数据删除步骤,从已合并人脸文件夹的各个子文件夹中随机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向开放集的大规模人脸检索数据集清洗方法,其特征在于,包括以下步骤:人脸预处理步骤,利用图像处理工具将所有含有人脸的图像按照指定尺寸的画布进行拼接,获得已拼接人脸图像;人脸检测与关键点检测步骤,对各个已拼接人脸图像进行人脸检测和人脸关键点检测,获得若干个人脸图像及人脸关键点;利用各个所述人脸关键点对相应所述人脸图像进行仿射变换,获得各个已对齐人脸图像;人脸分类步骤,对各个所述已对齐人脸图像进行分类,分为可用人脸和不可用人脸,并去除所述不可用人脸;人脸特征提取步骤,对各个所述可用人脸进行人脸特征提取,获取人脸特征向量,并结合数据分析工具,将各个所述人脸特征向量保存至磁盘中;人脸相似度搜索步骤,由若干路人脸相似度子搜索并行完成,同时,将所述人脸特征向量分为对应若干份;若干路人脸相似度子搜索分别负责一份人脸特征向量的相似度搜索任务,分别获得不同身份ID文件夹;将若干路人脸相似度子搜索获得的不同身份ID文件夹置于同一个文件夹,获得初始人脸文件夹;人脸数据合并步骤,从所述初始人脸文件夹的各个子文件夹中随机抽取若干张人脸图片;将随机抽取的所有人脸图片进行人脸特征提取,获得人脸特征向量;并将同一身份ID的人脸特征向量进行拼接,获得已拼接人脸特征向量;结合数据分析工具,将所有已拼接人脸特征向量保存至磁盘中;将各个所述已拼接人脸特征向量与所述合并索引器中的所有已拼接人脸特征向量进行相似距离计算,对小于合并阈值的待合并文件夹进行合并,获得已合并人脸临时文件夹,并更新合并阈值,直至已合并人脸临时文件夹的数量基本不减少或者指定合并轮数停止,获得已合并人脸文件夹;人脸数据删除步骤,从所述已合并人脸文件夹的各个子文件夹中随机抽取若干张人脸图片;将随机抽取的所有人脸图片进行人脸特征提取,获得人脸特征向量,并将同一身份ID的所述人脸特征向量进行拼接,获得已拼接人脸特征向量,结合数据分析工具,将所有已拼接人脸特征向量保存至磁盘中;将所有已拼接人脸特征向量插入至所述删除索引器中,更新所述删除索引器;将各个所述已拼接人脸特征向量与所述删除索引器中的所有已拼接人脸特征向量进行相似距离计算,获得最小相似距离和对应索引号,并将所述最小相似距离、所述对应索引号以及对应的文件路径保存至待删除文件中;根据所述待删除文件,将小于删除阈值的且文件夹中图片数量不是最多的所有文件夹进行删除,获得已删除人脸临时文件夹,并按照某一衰减率更新所述删除阈值,直至所述已删除人脸临时文件夹的数量基本不减少或者达到指定轮数停止,获得已删除人脸文件夹;利用所述已删除人脸文件夹训练所述人脸特征提取的网络参数,获得更优的人脸特征提取模型,进一步更新所述人脸特征提取,直至所述人脸特征提取模型达到期望精度或者达到指定轮数停止,最后一轮的所述已删除人脸文件夹即为最终清洗的人脸文件夹。2.如权利要求1所述的面向开放集的大规模人脸检索数据集清洗方法,其特征在于,所述人脸相似度搜索步骤包括:对搜索索引器进行初始化;将第一个人脸特征向量插入至所述搜索索引器中,更新所述搜索索引器,并将第一个人脸特征向量对应的可用人脸保存至指定的文件夹中;
将各个人脸特征向量依次与所述搜索索引器中的所有人脸特征向量进行相似距离计算,获得最小相似距离和对应索引号,若所述最小相似距离小于设定的微阈值,则不做任何操作;若所述最小相似距离大于设定的微阈值且小于设定的小阈值,则根据所述索引号将所述人脸特征向量对应的可用人脸保存至同一身份ID的文件夹中;若所述最小相似距离大于所述小阈值,则所述搜索索引器中不存在与所述人脸特征向量为同一身份ID的人脸特征向量,将所述人脸特向量插入至所述搜索索引器中,更新所述搜索索引器,并将所述人脸特征向量对应的可用人脸保存至另外一个指定的文件夹中;获得按身份ID分组保存人脸图片的所述不同身份ID文件夹。3.如权利要求1所述的面向开放集的大规模人脸检索数据集清洗方法,其特征在于,所述人脸数据合并步骤包括:从所述初始人脸文件夹的各个子文件夹中随机抽取若干张人脸图片;将随机抽取的所有人脸图片进行人脸特征提取,获得人脸特征向量,并将同一身份ID的所述人脸特征向量进行拼接,获得已拼接人脸特征向量;结合数据分析工具,将所有已拼接人脸特征向量保存至磁盘中;对合并索引器进行初始化;将所有已拼接人脸特征向量插入至所述合并索引器中,更新所述合并索引器;将各个所述已拼接人脸特征向量与所述合并索引器中的所有已拼接人脸特征向量进行相似距离计算,获得TopN个距离最近的相似距离和对应索引号,并将所述相似距离、所述对应索引号以及对应的文件路径保存至待合并文件中;根据所述待合并文件,将小于合并阈值的文件夹进行合并,获得已合并人脸临时文件夹,并按照某一的衰减率更新所述合并阈值;重复上述所有操作,直至所述已合并人脸临时文件夹的数量基本不减少或者达到指定轮数停止,获得已合并人脸文件夹。4.如权利要求3所述的面向开放集的大规模人脸检索数据集清洗方法,其特征在于,所述人脸数据删除步骤包括:从所述已合并人脸文件夹的各个子文件夹中随机抽取若干张人脸图片;将随机抽取的所有人脸图片进行人脸特征提取,获得人脸特征向量,并将同一身份ID的所述人脸特征向量进行拼接,获得已拼接人脸特征向量;结合数据分析工具,将所有已拼接人脸特征向量保存至磁盘中;对删除索引器进行初始化;将所有已拼接人脸特征向量插入至所述删除索引器中,更新所述删除索引器;将各个所述已拼接人脸特征向量与所述删除索引器中的所有已拼接人脸特征向量进行相似距离计算,获得TopN个距离最近的相似距离和对应索引号,并将所述相似距离、所述对应索引号以及对应的文件路径保存至待删除文件中;根据所述待删除文件,将小于删除阈值的且文件夹中图片数量不是最多的所有文件夹进行删除,获得已删除人脸临时文件夹,并按照某一衰减率更新所述删除阈值;重复上述所有操作,直至所述已删除人脸临时文件夹的数量基本不减少或者达到指定轮数停止,获得已删除人脸文件夹。5.如权利要求4所述的面向开放集的大规模人脸检索数据集清洗方法,其特征在于,所
述合并阈值通过以下公式计算出:合并阈值=初始阈值

衰减率*合并轮数所述合并阈值用于将同一身份ID的不同文件夹进行合并;所述删除阈值通过以下公式计算出:删除阈值=初始阈值

衰减率*删除轮数所述删除阈值用于将小于删除阈值且文件夹中图片数量不是最多的所有文件夹进行删除。6.一种面向开放集的大规模人脸检索数据集清洗系统,其特征在于,包括:人脸预处理模块(10),用于利用图像处理工具将所有含有人脸的图像按照指定尺寸的画布进行拼接,获得已拼接人脸图像;人脸检测与关键点检测模块(20),用于对各个已拼接人脸图像进行人脸检测和人脸关键点检测,获得若干个人脸图像及...

【专利技术属性】
技术研发人员:周海涛姚丹霖石靖刘宇翔彭自立
申请(专利权)人:湖南优美科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1