【技术实现步骤摘要】
一种面向开放集的大规模人脸检索数据集清洗方法及系统
[0001]本专利技术涉及计算机视觉
,尤其公开了一种面向开放集的大规模人脸检索数据集清洗方法及系统。
技术介绍
[0002]随着深度学习技术不断突破以及算力不断提升,计算机视觉领域取得了突破性进展。人脸检索作为计算机视觉领域的重点研究方向,广泛地应用于安防、社交以及日常娱乐等领域。但当前人脸检索仍面临公开的训练数据集噪声多、规模小,特别是亚裔人脸少等问题。其中,目前完全公开的最大最干净的人脸训练数据集是格灵深瞳Glint360K,仅拥有36万ID和1700w张图片,且利用该数据集训练的模型在亚洲人的人脸检索精度仍非常差,远远无法满足面向开放集的大规模人脸检索系统的数据需求。
[0003]然而,完全利用人工清洗海量的人脸数据存在若干问题,包括但不限于如下几点:1)数据安全问题;2)无法准确地将海量的人脸图像按身份ID进行分类;3)耗时长且人工成本高。
[0004]通过利用互联网或者其他途径获得含人脸的图像后,如何将其高效地制作成一个可以用于实际落地场景的大规模且干净的人脸数据集呢?
[0005]在专利201810930672.0中,公开了一种关于人脸数据清洗方法及机置,获取与目标人物相关的第一待处理的人脸数据,基于第一人脸识别模型分别提取各人脸数据的人脸特征,确定目标人物的第一人脸特征。根据各人脸数据的人脸特征及目标人物的第一人脸特征,筛选出各人脸数据中不需要清洗的第一人脸数据,需要删除的第二人脸数据及需要清洗的第三人脸数据。其中,需要 ...
【技术保护点】
【技术特征摘要】
1.一种面向开放集的大规模人脸检索数据集清洗方法,其特征在于,包括以下步骤:人脸预处理步骤,利用图像处理工具将所有含有人脸的图像按照指定尺寸的画布进行拼接,获得已拼接人脸图像;人脸检测与关键点检测步骤,对各个已拼接人脸图像进行人脸检测和人脸关键点检测,获得若干个人脸图像及人脸关键点;利用各个所述人脸关键点对相应所述人脸图像进行仿射变换,获得各个已对齐人脸图像;人脸分类步骤,对各个所述已对齐人脸图像进行分类,分为可用人脸和不可用人脸,并去除所述不可用人脸;人脸特征提取步骤,对各个所述可用人脸进行人脸特征提取,获取人脸特征向量,并结合数据分析工具,将各个所述人脸特征向量保存至磁盘中;人脸相似度搜索步骤,由若干路人脸相似度子搜索并行完成,同时,将所述人脸特征向量分为对应若干份;若干路人脸相似度子搜索分别负责一份人脸特征向量的相似度搜索任务,分别获得不同身份ID文件夹;将若干路人脸相似度子搜索获得的不同身份ID文件夹置于同一个文件夹,获得初始人脸文件夹;人脸数据合并步骤,从所述初始人脸文件夹的各个子文件夹中随机抽取若干张人脸图片;将随机抽取的所有人脸图片进行人脸特征提取,获得人脸特征向量;并将同一身份ID的人脸特征向量进行拼接,获得已拼接人脸特征向量;结合数据分析工具,将所有已拼接人脸特征向量保存至磁盘中;将各个所述已拼接人脸特征向量与所述合并索引器中的所有已拼接人脸特征向量进行相似距离计算,对小于合并阈值的待合并文件夹进行合并,获得已合并人脸临时文件夹,并更新合并阈值,直至已合并人脸临时文件夹的数量基本不减少或者指定合并轮数停止,获得已合并人脸文件夹;人脸数据删除步骤,从所述已合并人脸文件夹的各个子文件夹中随机抽取若干张人脸图片;将随机抽取的所有人脸图片进行人脸特征提取,获得人脸特征向量,并将同一身份ID的所述人脸特征向量进行拼接,获得已拼接人脸特征向量,结合数据分析工具,将所有已拼接人脸特征向量保存至磁盘中;将所有已拼接人脸特征向量插入至所述删除索引器中,更新所述删除索引器;将各个所述已拼接人脸特征向量与所述删除索引器中的所有已拼接人脸特征向量进行相似距离计算,获得最小相似距离和对应索引号,并将所述最小相似距离、所述对应索引号以及对应的文件路径保存至待删除文件中;根据所述待删除文件,将小于删除阈值的且文件夹中图片数量不是最多的所有文件夹进行删除,获得已删除人脸临时文件夹,并按照某一衰减率更新所述删除阈值,直至所述已删除人脸临时文件夹的数量基本不减少或者达到指定轮数停止,获得已删除人脸文件夹;利用所述已删除人脸文件夹训练所述人脸特征提取的网络参数,获得更优的人脸特征提取模型,进一步更新所述人脸特征提取,直至所述人脸特征提取模型达到期望精度或者达到指定轮数停止,最后一轮的所述已删除人脸文件夹即为最终清洗的人脸文件夹。2.如权利要求1所述的面向开放集的大规模人脸检索数据集清洗方法,其特征在于,所述人脸相似度搜索步骤包括:对搜索索引器进行初始化;将第一个人脸特征向量插入至所述搜索索引器中,更新所述搜索索引器,并将第一个人脸特征向量对应的可用人脸保存至指定的文件夹中;
将各个人脸特征向量依次与所述搜索索引器中的所有人脸特征向量进行相似距离计算,获得最小相似距离和对应索引号,若所述最小相似距离小于设定的微阈值,则不做任何操作;若所述最小相似距离大于设定的微阈值且小于设定的小阈值,则根据所述索引号将所述人脸特征向量对应的可用人脸保存至同一身份ID的文件夹中;若所述最小相似距离大于所述小阈值,则所述搜索索引器中不存在与所述人脸特征向量为同一身份ID的人脸特征向量,将所述人脸特向量插入至所述搜索索引器中,更新所述搜索索引器,并将所述人脸特征向量对应的可用人脸保存至另外一个指定的文件夹中;获得按身份ID分组保存人脸图片的所述不同身份ID文件夹。3.如权利要求1所述的面向开放集的大规模人脸检索数据集清洗方法,其特征在于,所述人脸数据合并步骤包括:从所述初始人脸文件夹的各个子文件夹中随机抽取若干张人脸图片;将随机抽取的所有人脸图片进行人脸特征提取,获得人脸特征向量,并将同一身份ID的所述人脸特征向量进行拼接,获得已拼接人脸特征向量;结合数据分析工具,将所有已拼接人脸特征向量保存至磁盘中;对合并索引器进行初始化;将所有已拼接人脸特征向量插入至所述合并索引器中,更新所述合并索引器;将各个所述已拼接人脸特征向量与所述合并索引器中的所有已拼接人脸特征向量进行相似距离计算,获得TopN个距离最近的相似距离和对应索引号,并将所述相似距离、所述对应索引号以及对应的文件路径保存至待合并文件中;根据所述待合并文件,将小于合并阈值的文件夹进行合并,获得已合并人脸临时文件夹,并按照某一的衰减率更新所述合并阈值;重复上述所有操作,直至所述已合并人脸临时文件夹的数量基本不减少或者达到指定轮数停止,获得已合并人脸文件夹。4.如权利要求3所述的面向开放集的大规模人脸检索数据集清洗方法,其特征在于,所述人脸数据删除步骤包括:从所述已合并人脸文件夹的各个子文件夹中随机抽取若干张人脸图片;将随机抽取的所有人脸图片进行人脸特征提取,获得人脸特征向量,并将同一身份ID的所述人脸特征向量进行拼接,获得已拼接人脸特征向量;结合数据分析工具,将所有已拼接人脸特征向量保存至磁盘中;对删除索引器进行初始化;将所有已拼接人脸特征向量插入至所述删除索引器中,更新所述删除索引器;将各个所述已拼接人脸特征向量与所述删除索引器中的所有已拼接人脸特征向量进行相似距离计算,获得TopN个距离最近的相似距离和对应索引号,并将所述相似距离、所述对应索引号以及对应的文件路径保存至待删除文件中;根据所述待删除文件,将小于删除阈值的且文件夹中图片数量不是最多的所有文件夹进行删除,获得已删除人脸临时文件夹,并按照某一衰减率更新所述删除阈值;重复上述所有操作,直至所述已删除人脸临时文件夹的数量基本不减少或者达到指定轮数停止,获得已删除人脸文件夹。5.如权利要求4所述的面向开放集的大规模人脸检索数据集清洗方法,其特征在于,所
述合并阈值通过以下公式计算出:合并阈值=初始阈值
‑
衰减率*合并轮数所述合并阈值用于将同一身份ID的不同文件夹进行合并;所述删除阈值通过以下公式计算出:删除阈值=初始阈值
‑
衰减率*删除轮数所述删除阈值用于将小于删除阈值且文件夹中图片数量不是最多的所有文件夹进行删除。6.一种面向开放集的大规模人脸检索数据集清洗系统,其特征在于,包括:人脸预处理模块(10),用于利用图像处理工具将所有含有人脸的图像按照指定尺寸的画布进行拼接,获得已拼接人脸图像;人脸检测与关键点检测模块(20),用于对各个已拼接人脸图像进行人脸检测和人脸关键点检测,获得若干个人脸图像及...
【专利技术属性】
技术研发人员:周海涛,姚丹霖,石靖,刘宇翔,彭自立,
申请(专利权)人:湖南优美科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。