一种人脸数据集的构建方法及系统技术方案

技术编号:34451877 阅读:22 留言:0更新日期:2022-08-06 16:53
本发明专利技术公开了一种人脸数据集的构建方法及系统,所述构建方法包括:创建能够表明唯一人物身份信息的关键词列表,并确定各人物的标准人脸图像;依据关键词爬取人脸图像;采用人脸检测算法进行人脸检测并裁剪;采用训练好的ArcFace人脸识别模型提取所裁剪的人脸图像的特征向量;基于所提取的人脸特征向量,采用DBSCAN聚类算法对所裁剪的人脸图像初步聚类,参照标准人脸图像,剔除非目标人物的人脸图像,保留候选人脸图像;采用DBSCAN聚类算法进行二次聚类,实现人脸图像的去重处理;对去重处理后的人脸图像进行清洗,获取人脸数据集。该构建方法可以创建大规模的的人脸数据集,基于此数据集可以开发各类人种不同的人脸识别模型。模型。模型。

【技术实现步骤摘要】
一种人脸数据集的构建方法及系统


[0001]本专利技术涉及一种人脸数据集的构建方法及系统,属于图像处理


技术介绍

[0002]随着深度学习技术的使用,人脸识别的准确率得到突破性的提高。人脸识别准确率提升一方面依赖于算法的改进,另一方面依赖于带有标注的大规模人脸数据集。人脸数据集是一种通过对人物图像的面部区域进行切割形成的数据集,被广泛用于人脸识别,人脸生成等神经网络模型的训练。
[0003]
技术实现思路

[0004]本专利技术的目的在于克服现有技术中的不足,提供一种人脸数据集的构建方法及系统,利用本专利技术方法或系统构建的人脸数据集训练人脸识别模型,能够提高模型的泛化能力,提高识别结果的准确率。
[0005]为达到上述目的/为解决上述技术问题,本专利技术是采用下述技术方案实现的:第一方面,本专利技术提供一种人脸数据集的构建方法,包括:创建能够表明唯一人物身份信息的关键词列表,并确定各人物的标准人脸图像;依据关键词列表中的关键词爬取人脸图像,并将基于同一关键词爬取的人脸图像存储于同一文件夹中;对于同一文件夹中的人本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种人脸数据集的构建方法,其特征在于,包括:创建能够表明唯一人物身份信息的关键词列表,并确定各人物的标准人脸图像;依据关键词列表中的关键词爬取人脸图像,并将基于同一关键词爬取的人脸图像存储于同一文件夹中;对于同一文件夹中的人脸图像分别采用人脸检测算法进行人脸检测并裁剪;采用训练好的ArcFace人脸识别模型对所裁剪的人脸图像进行特征向量提取;基于所提取的人脸特征向量,采用DBSCAN聚类算法对所裁剪的人脸图像进行初步聚类,根据初步聚类结果并参照标准人脸图像,剔除非目标人物的人脸图像,保留候选人脸图像;采用DBSCAN聚类算法对候选人脸图像进行二次聚类,根据二次聚类结果进行人脸图像的去重处理;对去重处理后保留的人脸图像进行清洗,获取所述人脸数据集。2.如权利要求1所述的一种人脸数据集的构建方法,其特征在于,所述关键词包括人物姓名,以人物姓名创建关键词列表时,对同一人物的曾用名或艺名或笔名进行姓名合并。3.如权利要求2所述的一种人脸数据集的构建方法,其特征在于,以公众任务的人物姓名为关键词爬取人脸图像时,由前往后至少爬取五百张人脸图像;同一人物姓名爬取的人脸图像存储于以人物姓名命名的文件夹中。4.如权利要求1所述的一种人脸数据集的构建方法,其特征在于,所述人脸检测算法包括MTCNN或dlib算法。5.如权利要求1所述的一种人脸数据集的构建方法,其特征在于,在执行裁剪操作之前,删除分辨率小于设定阈值的人脸图像。6.如权利要求1所述的一种人脸数据集的构建方法,其特征在于,采用DBSCAN聚类算法对所裁剪的人脸图像进行初步聚类的方法包括:对于两张人脸图像的特征向量间的欧式距离,对于欧式距离小于设定阈值的人脸图像归结为同一类别;将人脸图像数目最多的类别作为正样本...

【专利技术属性】
技术研发人员:褚哲张泽
申请(专利权)人:南京信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1