当前位置: 首页 > 专利查询>长春大学专利>正文

一种课堂面部数据集的构建方法及系统技术方案

技术编号:38687819 阅读:16 留言:0更新日期:2023-09-02 23:01
本发明专利技术一种课堂面部数据集的构建方法及系统,属于图像处理技术领域;所述构建方法包括构建能表明受试者唯一身份的身份标签列表,并确定受试者的基准面部图像;逐帧截取课堂监控视频画面,将同一受试者图像存储到以受试者身份标签命名的文件夹中;使用OpenCV、SSD等五个面部检测算法检测面部图像并保存;对同一文件夹中的图像做数据增强;使用训练好的DeepFace模型提取面部特征向量;基于面部特征向量,使用Density Peak Clustering聚类算法去除低质量的数据样本;对过滤后的数据进行清洗,得到所述课堂面部数据集。本发明专利技术提出的课堂面部数据集构建方法能够得到高质量的大规模数据集,同时能够有效提升面部识别模型的识别精度。别精度。别精度。

【技术实现步骤摘要】
一种课堂面部数据集的构建方法及系统


[0001]本专利技术属于图像处理
,尤其涉及一种课堂面部数据集的构建方法及系统。

技术介绍

[0002]大多数人脸数据集是在受控环境中收集的,人物坐在相机预定距离处,背景为中性背景。照明、室温、面部表情和姿势都是预先确定的。然而,在真实世界的环境中,人脸数量、背景环境、遮挡、光照、尺度和姿势等因素在图像之间变化很大。同时,大多数人脸数据集都是在欧洲地区收集的,在非受控环境下的亚洲人脸识别领域仍然是一个被忽视的部分。
[0003]随着人工智能的发展,AI逐渐应用于各种环境,学校也可以通过AI进行智能管理。近年来涌现了许多优秀的人脸识别模型和高质量的数据集,尽管在受控环境下采集的人脸图像识别效果较好,但在教室环境下采集的人脸图像识别效果仍然不高。由于教室中相机位置的不规则性以及相机捕捉过程中的许多变量,包括相机捕捉角度、人脸大小、姿势、表情、遮挡、年龄和光照等,所有这些因素都可能导致人脸识别困难。人脸识别的能力不仅取决于网络模型的架构,还取决于用于训练的数据集。目前用于训练最先进的人脸识别框架的大多数数据集局限于欧美人面孔或正面姿势,例如Annotated Thermal Faces in the Wild Dataset (TFW),但这些数据集都没有专门设计用于亚洲人面孔。除了现有数据集中涉及的各种挑战之外,所提议的数据集的图像是在不均匀和不同的背景下拍摄的,这在大多数数据集中是缺少的。该数据集可在以下链接下载:https://github.com/Shensxf/Face

Dataset。
[0004]构建人脸数据集的常见方法包括:在实验室或摄影棚拍摄、在自然场景中拍摄、从互联网收集等。在实验室或摄影棚中拍摄的数据集,如Yale人脸数据库、AR人脸数据库,这种方法构建的数据集环境受到控制,无法反映真实的人脸识别场景。在自然场景中拍摄的数据集有Labeled Faces in the Wild (LFW)、CelebA等。这种方法可以收集更加真实的人脸数据,但控制条件较差,可能会受到光照、背景、姿势等因素的影响,数据质量可能会降低。从互联网收集的数据集包括VGG人脸数据集、MS

Celeb

1M、FaceForensics++等,这种方法可以收集大量的人脸数据,但数据质量不均,存在明显的数据偏差,需要更多的工作来过滤和清理收集到的数据集。

技术实现思路

[0005]本专利技术目的在于提供一种课堂面部数据集的构建方法及系统,以解决人脸识别领域中缺乏中国人面部数据集以及缺乏真实糟糕背景因素的技术问题。
[0006]为实现上述目的,本专利技术的一种课堂面部数据集的构建方法及系统的具体技术方案如下:一种课堂面部数据集的构建方法,包括以下步骤:
步骤S1、创建能够表明唯一人物身份信息的身份标签列表,并确定各人物的基准面部图像;步骤S2、从课堂监控视频中,按帧截图图像,建立图像数据集;步骤S3、根据按帧截取的图像,手动将同一身份标签的人脸图像存储在同一文件夹中;步骤S4、对同一文件夹中的人脸图像使用人脸检测算法进行人脸检测及裁剪,并将检测到的面部图像保存,通过该方法初次扩大数据样本量;步骤S5、对面部图像进行数据增强,包括翻转、旋转、缩放、像素平移、随机裁剪、添加噪声像素、调整亮度、扭曲图像等操作,用于对数据样本量进行再次扩大;步骤S6、使用训练好的DeepFace人脸识别模型对裁剪好的人脸图像进行特征向量提取;步骤S7、基于所述步骤S6中的 DeepFace模型提取的特征向量,使用Density Peak Clustering聚类算法对同一文件夹中的人脸图像进行聚类,通过聚类结果过滤掉低质量的面部图像;步骤S8、对过滤后得到的面部图像进行数据清洗,获得课堂面部数据集。
[0007]进一步,所述步骤S1中的身份标签包括人物姓名,以人物姓名创建身份标签列表时,对同一人物的学号和姓名进行姓名合并。
[0008]进一步,所述步骤S3中从视频帧截取图像时,应一帧截取一张图像;含有同一身份标签的面部图像手动存储在以人物学号姓名命名的文件夹中,同一受试者至少保存一百张含有面部区域的图像。
[0009]进一步,所述步骤S4中的人脸检测算法包括OpenCV或SSD或DLib或MTCNN或Mediapipe或Retinaface算法。
[0010]进一步,所述步骤S7中采用Density Peak Clustering聚类算法对人脸图像进行聚类具体包括以下步骤:步骤S7

1、从人脸图像中提取特征向量,在同一受试者身份标签命名的文件夹中,使用DeepFace人脸识别模型提取面部图像的特征向量,并将特征向量保存到文件中,关键代码如下:result = DeepFace.represent(image, model=model)feature_vector = result['representations'][0, :];步骤S7

2、使用DeepFace模型获得面部图像特征的余弦距离和欧式距离,将两个距离取平均值作为计算距离;步骤S7

3、通过设置 eps 和 min_samples 参数来控制聚类的精度和密度,关键代码如下:db = DBSCAN(eps=0.5, min_samples=5).fit(features);根据计算距离的结果计算密度,形成一个密度估计值,密度定义为在指定距离阈值内的数据点数量;步骤S7

4、根据计算得到的密度估计值,选择具有较高密度的数据点作为密度峰点;步骤S7

5、对于每个密度峰点,根据其邻近样本的密度和距离关系,将其分配给不
同的聚类簇,如果两张人脸图像的特征向量被分配到相同的密度峰点所代表的聚类簇中,则归为一类。
[0011]进一步,所述步骤S5中的数据增强包括以下步骤:步骤S5

1、将图像水平或垂直翻转,生成镜像样本,以增加数据集的多样性;步骤S5

2、以不同角度旋转图像,如顺时针或逆时针旋转一定角度,以模拟人脸在不同朝向的情况;步骤S5

3、通过放大或缩小图像,模拟远近距离的效果,增加数据集的丰富性;步骤S5

4、对图像进行平移,以模拟人脸在图像中的位置变化;步骤S5

5、随机裁剪图像的一部分或按照特定比例裁剪,以模拟不同的视野或局部信息;步骤S5

6、向图像中添加随机噪声,如高斯噪声或椒盐噪声,以增强模型对噪声的鲁棒性;步骤S5

7、改变图像的亮度、对比度和色彩饱和度等参数,生成不同光照条件下的样本;步骤S5

8、应用平移、旋转、缩放和错切等变换来扭曲图像形状,以增加数据集的多样性。
[0012]进一步,所述步骤S8中的数据清洗包括去除图像中含其他受试者的图像、图像中存在严重曝光的图像、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种课堂面部数据集的构建方法,其特征在于,包括以下步骤:步骤S1、创建能够表明唯一人物身份信息的身份标签列表,并确定各人物的基准面部图像;步骤S2、从课堂监控视频中,按帧截图图像,建立图像数据集;步骤S3、根据按帧截取的图像,手动将同一身份标签的人脸图像存储在同一文件夹中;步骤S4、对同一文件夹中的人脸图像使用人脸检测算法进行人脸检测及裁剪,并将检测到的面部图像保存,初次扩大数据样本量;步骤S5、对面部图像进行数据增强,包括翻转、旋转、缩放、像素平移、随机裁剪、添加噪声像素、调整亮度和扭曲图像操作;步骤S6、使用训练好的DeepFace人脸识别模型对裁剪好的人脸图像进行特征向量提取;步骤S7、基于所述步骤S6中的 DeepFace模型提取的特征向量,使用Density Peak Clustering聚类算法对同一文件夹中的人脸图像进行聚类,通过聚类结果过滤掉低质量的面部图像;步骤S8、对过滤后得到的面部图像进行数据清洗,获得课堂面部数据集。2.根据权利要求1所述的课堂面部数据集的构建方法,其特征在于,所述步骤S1中的身份标签包括人物姓名。3.根据权利要求1所述的课堂面部数据集的构建方法,其特征在于,所述步骤S3中从视频帧截取图像时,应一帧截取一张图像;含有同一身份标签的面部图像手动存储在以人物学号姓名命名的文件夹中。4.根据权利要求1所述的课堂面部数据集的构建方法,其特征在于,所述步骤S4中的人脸检测算法包括OpenCV或SSD或DLib或MTCNN或Mediapipe或Retinaface算法。5.根据权利要求1所述的课堂面部数据集的构建方法,其特征在于,所述步骤S7中采用Density Peak Clustering聚类算法对人脸图像进行聚类,并设置 eps 和 min_samples 参数来控制聚类的精度和密度,具体包括以下步骤:步骤S7

1、从人脸图像中提取特征向量,在同一受试者身份标签命名的文件夹中,使用DeepFace人脸识别模型提取面部图像的特征向量,并将特征向量保存到文件中;步骤S7

2、使用DeepFace模型获得面部图像特征的余弦距离和欧式距离,将两个距离取平均值作为计算距离;步骤S7

3、根据计算距离的结果计算密度,形成一个密度估计值,密度定义为在指定距离阈...

【专利技术属性】
技术研发人员:李念峰申向峰孙立岩丁天娇王春湘李天晟柴滕飞关彤王振俨肖治国
申请(专利权)人:长春大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1