基于多头注意力机制的表情识别模型及其训练方法技术

技术编号:37150271 阅读:50 留言:0更新日期:2023-04-06 22:05
本发明专利技术公开了基于多头注意力机制的表情识别模型及其训练方法,该模型由3个部分组成:(1)基础主干网络,使用ResNet

【技术实现步骤摘要】
基于多头注意力机制的表情识别模型及其训练方法


[0001]本专利技术涉及人脸识别
,尤其涉及基于多头注意力机制的表情识别模型及其训练方法。

技术介绍

[0002]情绪与认知活动之间具有强烈而复杂的关系,情绪能影响各种认知行为,包括信息处理、推理和决策。在学生的学习过程中,学生会因为各种因素产生不同情绪,如困惑、无聊、好奇、有趣、挫败等等。积极的情绪能够提高学习效果,而消极的情绪会产生相反的作用。分析学生的学习情绪可以帮助教师了解学生的学习兴趣、行为和注意力情况。教师可以根据这些信息及时调整教学方案和教学节奏,从而使学生保持一个高效的学习状态。进而实现高质量、高效率教学,如何能高效准确地识别学生学习过程中的情感状态,一直是教育领域研究热点。现有研究表明,在学习过程中,学生的情绪可以从学生的面部表情观察出来。
[0003]虽然现有的深度学习方法给学生表情识别领域提供了极大的帮助,但学生表情识别仍面临许多挑战。如当前开源的学生表情数据库极少,多数研究者都是自建数据库进行研究。而自建数据库的质量参差不齐,不仅耗费研究者大量精力,而且构建的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于多头注意力机制的表情识别模型,其特征在于,包括:基础特征提取网络,所述基础特征提取网络采用ResNet

18的变体作为表情图像的基础特征提取网络,通过低层特征与高层特征的特征进行融合,获得表情影像的特征图,通过特征图计算亲和力损失量;多头注意力模块,所述多头注意力模块包含预设数量的平行注意力通道,每条注意力通道包含空间注意力和通道注意力,接收基础特征提取网络输出的特征;所述多头注意力模块基于特征图多尺度下的空间注意力关系s
i1
及各个像素点之间关联的空间注意力关系s
i2
获取总空间特征s

i
,根据总空间特征s

i
的H与W的维度获得及通道注意力关系ac及通道特征c

i
,根据各条注意力通道的输出结果计算分区损失;特征融合与标签平滑模块,所述特征融合与标签平滑模块将预设数量的注意力通道提取特征求和后并进行融合,使用多分类器Softmax计算表情图像属于各个类别的概率,选择其中概率最大的类别作为对表情图像的判定类别,并获得预测值y

,计算表情图像的预测值与实际真实值之间的差异,使用交叉熵损失函数计算分类损失,根据亲和力损失、分区损失及分类损失计算模型的总损失,根据总损失进行反向传播优化模型参数。2.根据权利要求1所述的基于多头注意力机制的表情识别模型,其特征在于,对所述ResNet

18的变体的每一个BasicBlock进行采样,将低层特征与高层特征的采样结果进行特征融合,获得表情影像的特征图,所述基础特征提取网络的输出公式为:x
i

=F(w,x
i
)其中,x
i

表示基础特征提取网络的输出;F表示基础特征提取网络的映射关系;w表示网络模型的参数;x
i
表示基础特征提取网络的输入;亲和力损失计算公式为:其中,L
af
表示亲和力损失;M表示表情图像中心点的个数;c
yi
表示对应表情图像中心点;σ2表示所有表情图像中心点之间的方差。3.根据权利要求2所述的基于多头注意力机制的表情识别模型,其特征在于,所述多头注意力模块构造包含1x1,1x3,3x1及3x3卷积核的卷积层和一个激活函数来提取多尺度下的空间注意力关系s
i1
;将x
i

的特征长H和宽W压缩成一个维度,通过矩阵转置和矩阵相乘得到每个像素和其它像素点的关系以及其它像素点和本像素点的关系,获得像素点之间的像素关系特征,将x
i

的特征按通道的维度进行平均池化得到Bx1xHxW的位置特征,再将像素关系特征和Bx1xHxW的位置特征进行特征融合,通过1x1的卷积核获得各个像素点之间关联的空间注意力关系s
i2
,通过以下公式获得总空间特征s

i
:s

i
=x

*(μ
i1
*s
i1

i2
*s
i2
)其中,i表示第i条注意力通道;x

表示基础特征提取网络所提取的特征;μ
i1
表示是注意力关系的系数;μ
i2
为关系注意力的系数;s

i
表示总空间特征;对总空间特征s

i
的H和W的维度进行自适应平均池化,再压缩维度,保留两个维度BxN得到特征c,通过两个Linear和sigmod函数自动学习通道注意力关系ac,通道特征公式为:c

i
=c
i
×
ac
i
其中,c

i
表示第i个注意力通道的通道特征;ac
i
表示第i个通道注意力关系。4.根据权利要求3所述的基于多头注意力机制的表情识别模型,其特征在于,应用Log

softmax函数来突出通道特征感兴趣的部分,公式如下:根据各条注意力通道的输出结果计算分区损失,公式如下:其中,L
pt
表示分区损失;N表示样本个数;C表示通道数;表示第i个采样的第j个通道的标准差的k次方。5.根据权利要求1所述的基于多头注意力机制的表情识别模型,其特征在于,所述特征融合与标签平滑模块将预设数量的注意力通道提取的特征求和后进行融合,输出的最后一个维度约束到与类别的数量相同,为每一个类别分别输出一个得分;使用Batch Normalization对Linear后的得分进行归一化操作,得到网络输出out;使用标签平滑公式对初始的标签进行重新编码,标签平滑公式为:target_n=(1

α)*target_s+α/cls其中,target_n表示使用标签平滑的新标签;target_s表示初始标签,初始标签为one_hot编码标签;α表示标签平滑系数;cls表示分类类别数量;使用交叉熵损失函数计算对表情图像的预测值与实际真实值之间的差异,得到分类损失L
cls
,公式如下:L
cls


target_n*lny

其中,y

表示预测值;模型的总损失计算公式为:其中,L表示模型的总损失;表示亲和力损失系数;表示分区损失系数。6.基于多头注意力机制的表情识别训练方法,其特征在于,所述训练方...

【专利技术属性】
技术研发人员:韦鹏程戴骁骏曾玉山张琦
申请(专利权)人:重庆第二师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1