一种基于人体特征融合的学业情绪识别方法技术

技术编号:38473161 阅读:12 留言:0更新日期:2023-08-11 14:49
本发明专利技术公开了一种基于人体特征融合的学业情绪识别方法,属于情绪识别领域。本发明专利技术基于教室监控图像数据,通过目标检测与特征提取模块分别对学习者的面部表情和肢体姿态进行特征提取,获得学习者表情与姿态特征的向量表征。以此为基础,将得到的特征向量进行拼接融合,进而提出一个双分支学业情绪识别网络,对学习者在课堂中的学业情绪进行识别。本发明专利技术解决了传统的学业情绪识别方法准确度低、鲁棒性差的问题,有助于教师更准确了解学生的学习状态和知识掌握程度以提升教学质量。态和知识掌握程度以提升教学质量。态和知识掌握程度以提升教学质量。

【技术实现步骤摘要】
一种基于人体特征融合的学业情绪识别方法


[0001]本专利技术属于情绪识别领域,尤其是一种基于人体特征融合的学业情绪识别方法。

技术介绍

[0002]学业情绪识别是指对学习者在学习过程中的情绪状态进行识别和分析。利用人工智能技术赋能线下课堂教学活动,对学生的课堂学业情绪进行分析,有助于及时发现教学过程中存在的问题,有针对性地调整教学方法,提高教学质量。
[0003]目前主流的课堂环境下学习者学业情绪识别方法仅基于面部表情识别,通过课堂监视器采集到的数据进行分析,进而推断出学生的情感。Lasri等构建了一个学生情绪识别系统,该系统的第一个阶段使用Haar特征的级联分类器进行人脸检测,然后使用卷积神经网络在FER2013数据集上进行训练,使得卷积神经网络具备识别七种基本表情的能力进而推断学习者情绪。Bian等构建了一个公开的在线学习者的面部表情数据集,包含五种常见的学业情绪(困惑、享受、疲劳、分心和中立)的面部表情,该数据库采集自82名学生志愿者。并在该研究中引入了一种基于空间变换网络的自适应数据增强算法,去除原始图像中的混杂干扰,最终通过卷积神经网络进行情绪识别。韩丽等提出了基于面部表情分析的高效课堂评价方法,该方法首先结合AAM模型与局部约束模型,在通过智能监控设备获取的图像上进行人脸特征点检测,再通过嘴角、眼睛与眉毛夹角、面部偏移角度的特征变化判断五种表情(倾听、疑惑、理解、抗拒、不屑),最终通过参与度、关注度、活跃时间和疑惑程度衡量课堂全景教学效果;孙波等基于面部活动单元编码系统,提出了针对七种学业情绪和面部活动特征的详细对应关系,并通过特征分解可将个体特征及表情特征分解到不同的子空间,排除了个体特征对于表情识别的干扰。
[0004]归纳而言,现有的学业情绪识别的方法主要仅仅基于面部表情识别,很少考虑到面部表情以外的其他人体特征。但在线下课堂场景中,由于学生面部表情分辨率差异较大、表情激活度较低、存在面部遮挡等原因导致表情特征差异性较小或不可用,使得仅基于表情的学业情绪识别方法识别准确率较低,鲁棒性较差,难以实现落地应用。学习者的情绪表达媒介并非只有面部表情,身体其他部位对于情绪的表达也是显而易见的,因此,结合更多的人体特征进行学业情绪识别是提升识别准确度的重要途径。

技术实现思路

[0005]本专利技术的目的在于克服上述现有技术的缺点,提供一种基于人体特征融合的学业情绪识别方法。
[0006]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0007]一种基于人体特征融合的学业情绪识别方法,包括以下步骤:
[0008]1)将监控视频的原始数据P输入人体目标检测模块Faster R

CNN内,基于目标检测算法处理输出待识别的学生个体框,进而提取得到每个学生的局部区域图像信息O
i
及对应的人体边界框B
i

[0009]2)将待识别学生的局部区域图像信息O
i
经过人脸对齐模块MTCNN对齐,再通过数据增强得到预处理后的人脸图像,将所述预处理后的人脸图像输入到表情特征提取网络中进行表情特征学习,最后输出表情特征X1;
[0010]将待识别学生个体框与全局图像共同输入到CrowdPose算法中的联合候选单人姿态估计模块中,对人体关节点进行估计输出一组指示人体关节位置信息的热图,之后经全局平均池化层和一个多层感知器,将所述热图转化为512维的向量,作为所述待识别学生的姿态特征X2;
[0011]3)将表情特征X1和姿态特征X2进行拼接得到X
b
,将X
b
输入学业情绪分类器进行学习者学业情绪识别。
[0012]进一步的,步骤2)中,所述表情特征学习的特征提取网络在预训练的VGGFace人脸识别模型的基础上做以下调整进行构建:
[0013](1)在原始的VGGFace网络中的最后一个卷积层之后插入一个全局平均池化层;
[0014](2)将原始的VGGFace中的最后3层全连接层改为2层全连接层;
[0015](3)将最后一个全连接层的输出通道设置为512;
[0016](4)在最后一个全连接层后添加一层Dropout层,随机失活概率设置为0.3;
[0017](5)训练时将原始的分类损失softmax损失函数替换为岛损失函数,损失函数表示为:
[0018]L
cls
=L
c
+αL
p
[0019]其中,L
c
代表样本与该类样本特征聚类中心之间的距离;L
cls
代表分类模块的损失值,α代表类间的距离权重,L
p
代表不同类别的样本特征聚类中心之间的距离。
[0020]进一步的,步骤2)中,人脸图像的预处理方法为:
[0021]经MTCNN对齐后的人脸图像,使用图像区域随机擦除、直方图均衡化及图像水平翻转三种方法对所述人脸图像进行数据增强操作。
[0022]进一步的,步骤2)中,姿态特征估计采用基于CrowdPose算法的自顶向下的多人姿态估计策略。
[0023]进一步的,17个关节点为鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝及右踝。
[0024]进一步的,步骤3)中,表情特征X1和姿态特征X2均为512维向量,因此拼接后得到的X
b
为1024维向量。
[0025]进一步的,步骤3)中,所述情绪分类器由全连接层、批标准化层、Dropout层和输出层组成:
[0026]全连接层:将输入的X
b
映射到一个256维的特征向量中;
[0027]批标准化层:对输入的256维特征向量进行标准化,即将每个特征维度上的数据进行归一化处理;
[0028]Dropout层:随机将一部分神经元的输出设置为零;所述Dropout层内有一个超参数p,表示随机将神经元输出设为零的概率;
[0029]输出层:为一个全连接层,将所述Dropout层输出向量映射到一个7维的向量中,表示7种不同情绪分类结果。
[0030]进一步的,超参数p设置为0.6,即将60%的神经元输出随机设为零。
[0031]进一步的,7种不同情绪分类结果为无聊、放松、专注、困惑、沮丧、快乐和疲劳。
[0032]与现有技术相比,本专利技术具有以下有益效果:
[0033]本专利技术基于人体特征融合的学业情绪识别算法在操作时,通过结合面部表情识别与人体姿态估计技术,综合考虑学习者表情与姿态特征来进行学业情绪识别。在神经网络结构设计中,基于VGGFace进行网络结构调整,利用迁移学习思想提升了模型在数据量较少的情况下的泛化能力。同时,引入岛损失函数,指导神经网络进行“类内聚、类间开”的表情特征学习,提高了表情识别准确率。该方法将姿态特征与表情特征融合进行学业情绪识别,使得在学业情绪识别任务中对表情特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人体特征融合的学业情绪识别方法,其特征在于,包括以下步骤:1)将监控视频的原始数据P输入人体目标检测模块Faster R

CNN内,基于目标检测算法处理输出待识别的学生个体框,进而提取得到每个学生的局部区域图像信息O
i
及对应的人体边界框B
i
;2)将待识别学生的局部区域图像信息O
i
经过人脸对齐模块MTCNN对齐,再通过数据增强得到预处理后的人脸图像,将所述预处理后的人脸图像输入到表情特征提取网络中进行表情特征学习,最后输出表情特征X1;将待识别学生个体框与全局图像共同输入到CrowdPose算法中的联合候选单人姿态估计模块中,对人体关节点进行估计输出一组指示人体关节位置信息的热图,之后经全局平均池化层和一个多层感知器,将所述热图转化为512维的向量,作为所述待识别学生的姿态特征X2;3)将表情特征X1和姿态特征X2进行拼接得到X
b
,将X
b
输入学业情绪分类器进行学习者学业情绪识别。2.根据权利要求1所述的基于人体特征融合的学业情绪识别方法,其特征在于,步骤2)中,所述表情特征学习的特征提取网络在预训练的VGGFace人脸识别模型的基础上做以下调整进行构建:(1)在原始的VGGFace网络中的最后一个卷积层之后插入一个全局平均池化层;(2)将原始的VGGFace中的最后3层全连接层改为2层全连接层;(3)将最后一个全连接层的输出通道设置为512;(4)在最后一个全连接层后添加一层Dropout层,随机失活概率设置为0.3;(5)训练时将原始的分类损失softmax损失函数替换为岛损失函数,损失函数表示为:L
cls
=L
c
+αL
p
其中,L
c
代表样本与该类样本特征聚类中心之间的距离;L
cls
...

【专利技术属性】
技术研发人员:陈妍沈铭宇刘嘉欣苑超田锋朱海萍郑庆华
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1