一种基于注意力和多尺度特征融合的表情识别方法技术

技术编号:37279740 阅读:16 留言:0更新日期:2023-04-20 23:46
本发明专利技术属于计算机视觉技术领域,公开了一种基于注意力和多尺度特征融合的表情识别方法,采用fer2013人脸表情数据集,分为训练集、测试集和验证集;构建多尺度特征提取层,加入不同膨胀率的空洞卷积,提取人脸表情图像的尺度信息特征,并进行融合;采用通道注意力机制模块;设计残差模块,将单元的输入直接与单元输出加在一起再进行激活;以ResNet为框架,用构建出的多尺度模块搭建网络;将训练集输入到最终的网络结构中,采用交叉熵损失函数和随机梯度下降优化器进行训练,并将测试集输入到训练好的网络结构中,得到表情分类结果。本发明专利技术提高人脸表情识别的精确度,便于人脸识别在医学、心理学、人机交互等领域中的应用。人机交互等领域中的应用。人机交互等领域中的应用。

【技术实现步骤摘要】
一种基于注意力和多尺度特征融合的表情识别方法


[0001]本专利技术属于计算机视觉
,具体的说是涉及一种基于注意力和多尺度特征融合的表情识别方法。

技术介绍

[0002]人们对图像的感知和理解是主观性的,该专利技术的目的是希望计算机能够描述和表达人观察图像所引起的情感反应。近年来,人脸表情识别已成为计算机视觉领域的一热点研究课题,在人机交互、情感挖掘、疲劳驾驶检测、情感评估、图像检索、美术和广告设计等领域得到了广泛的应用。
[0003]第一种方法是利用传统的机器学习,包括特征提取、多特征融合、特征分类等,先选择合适的情感空间表示模型,然后从图像内容中提取像颜色和纹理这样的视觉特征,再借助机器学习手段基于人工标注样本开展学习和训练,从而得到图像情感检测器。第二种方法是基于深度学习的方法,深度学习在人工智能和模式识别等相关学科研究中取得了突破性进展,对深度网络进行特征组合变换得到了相对抽象的高阶特征,进而获得了更强的描述和表示的能力。Aarush等人(Gupta A,Agrawal D,Chauhan H,et al.An Attention Model for Group

Level Emotion Recoginition[C]//Proceedings of the 2018on International Conference on Multimodal Interaction.ACM,2018:611

615.)提出了一种用于识别图像中多个人的情况下,每个人的情感的卷积神经网络,先利用局部卷积神经网络监测并提取每个人的面部表情情况,再使用全局卷积神经网络针对图像的基础特征进行提取,结合面部表情来识别图像中每个人的情感。Guo等人(Guo J,Zhou s,wu J,et al.Multi

modality Network with Visual and Geometrical Information for Micro Emotion Recognition[C]//2017 12th IEEE International Conference on Automatic Face&Gesture Recognition(FG 2017).IEEE Computer Society,2017:814

819.)则是在人脸上找面部关键点,人脸的图像用卷积神经网络提取面部表情特征以表达图像的情感,特征点专门组成矩阵,学习人类在不同情感状态下面部关键点之间的位置关系特征。最后将关键点的特征和面部表情特征进行融合来精确识别图像的情感。Chen等(Chen M,Zhang L,Allebach J P.Learning deep features for image emotion classification[C]//IEEE International Conference on Image Processing.IEEE,2015:4491

4495)构造了一种由3个子网络组成的集成卷积神经网络,并利用支持向量机进行最终表情预测。Minaee等(MINAEE S,MINAEI M,ABDOLRASHIDI A.Deep

Emotion:Facial Expression Recognition Using Attentional Convolutional Network[J/OL].arXiv:1902.01019[cs.CV].[2021

11

03].https:llarxiv.orglabs/1902.01019v1.)提出了一种注意力卷积网络来识别表情,并用可视化技术寻找人脸图像中对分类结果影响最强的区域。
[0004]但上述识别方法无法捕获表情的多尺度特征,提取到的特征比较贫乏。

技术实现思路

[0005]本专利技术提出了一种基于注意力和多尺度特征融合的表情识别方法,实现自动提取有效特征并识别人类,利用多尺度特征融合模块,构建多尺度融合特征的计算结构,使模型提取到更丰富的表情特征,增强深度神经网络的可靠性。
[0006]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0007]本专利技术是一种基于注意力和多尺度特征融合的表情识别方法,包括:
[0008]步骤A:采用fer2013人脸表情数据集,对数据集进行预处理,并将数据集按照8:1:1分为训练集、测试集和验证集;
[0009]步骤B:构建多尺度特征提取层,采用三个分支,加入不同膨胀率的空洞卷积,提取人脸表情图像的不同尺度信息特征,并将提取到的信息特征进行融合;
[0010]步骤C:采用通道注意力机制模块,使模型关注更加重要的特征通道;
[0011]步骤D:以跳层连接的形式设计残差模块,将单元的输入直接与单元输出加在一起再进行激活;
[0012]步骤E:以ResNet为框架,用构建出的多尺度模块搭建网络;
[0013]步骤F:将训练集输入到最终的网络结构中,采用交叉熵损失函数和随机梯度下降优化器进行训练,并将测试集输入到训练好的网络结构中,得到表情分类结果。
[0014]本专利技术的有益效果是:
[0015](1)本专利技术设计了多尺度特征注意力机制模块,该方法可以提取人脸表情图像的不同尺度信息特征,从而有效提高人脸表情识别的精确度;
[0016](2)本专利技术将注意力机制与残差融合,残差单元以跳层连接的形式实现,将单元的输入直接与单元输出加在一起,然后再激活,很好地解决了深度神经网络的退化问题;
[0017](3)本专利技术在提取多尺度特征中加入空洞卷积,在不丢失分辨率的前提下扩大了感受野,大感受野可以检测分割大目标,高分辨率可以精确定位目标。
附图说明
[0018]图1为本专利技术的流程图。
[0019]图2为本专利技术方法设计的多尺度特征融合表情识别网络结构图。
[0020]图3为本专利技术方法一个多尺度模块结构图。
具体实施方式
[0021]以下将以图式揭露本专利技术的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本专利技术。也就是说,在本专利技术的部分实施方式中,这些实务上的细节是非必要的。
[0022]如图1所示,本专利技术是一种基于注意力和多尺度特征融合的表情识别方法,该表情识别方法具体包括如下步骤:
[0023]步骤1:采用fer2013人脸表情数据集,并对数据集进行预处理,并将数据集按照8:1:1分为训练集、测试集和验证集。
[0024]步骤1

1:使用fer2013人脸表情数据集。fer2013数据集由28709张训练图,3589张公开测试图和3589张私有测试图组成,每一张图都是像素为48
×
48的灰度图。fer2013数据
库中一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力和多尺度特征融合的表情识别方法,其特征在于:所述情识别方法包括如下步骤:步骤1:采用fer2013人脸表情数据集,对数据集进行预处理,并将数据集分为训练集、测试集和验证集;步骤2:构建多尺度特征提取层,采用三个分支,加入不同膨胀率的空洞卷积,提取人脸表情图像的不同尺度信息特征,并将提取到的信息特征进行融合;步骤3:采用通道注意力机制模块,使模型关注重要的特征通道;步骤4:以跳层连接的形式设计残差模块,将单元的输入直接与单元输出加在一起再进行激活;步骤5:以ResNet为框架,用构建出的多尺度模块搭建网络;步骤6:将训练集输入到最终的网络结构中,采用交叉熵损失函数和随机梯度下降优化器进行训练,并将测试集输入到训练好的网络结构中,得到表情分类结果。2.根据权利要求1所述的一种基于注意力和多尺度特征融合的表情识别方法,其特征在于:所述步骤2具体包括如下步骤:步骤2

1:利用最大池化很好地提取特征信息,并使用ReLU激活函数使神经网络学习到非线性映射;步骤2

2:构建多尺度特征提取层,提取图像的多尺度结构特征,采用三个分支,分别加入膨胀率为1、2、3的空洞卷积,图像经过不同通道后,再进行融合。3.根据权利要求2所述的一种基于注意力和多尺度特征融合的表情识别方法,其特征在于:所述步骤2

2具体包括如下步骤:步骤2
‑2‑
1:输入图像经过卷积核为1
×
1的卷积层,将通道数改为网络结构可以容纳的通道数;步骤2
‑2‑
2:将图像分别经过膨胀率为1、2、3的空洞卷积通道,卷积核都为3,空洞卷积的膨胀率越大,卷积核的感受野越大,经过空洞卷积操作后,若输入层为输出层的尺寸为:w0=(w

1)*(d

1)+wh0=(h

1)*(d

1)+h1)+h其中,d、k、w、h、s和p分别表示膨胀率、卷积核个数、宽度、高度、步长和填充值;步骤2
‑2‑
3:将经过三个通道特征在同特征维度进行拼接操作,假设三个通道的通道数分别为c1、c2、c3,则拼接操作后结果的维度为:N
×
(c1+c2+c3)
×
H
×
W其中,N、H和W分别为样本数、图像高度和图像宽度;步骤2
‑2‑
4:经过卷积层后,进行归一化,对图像进行归一化操作后再用ReLU函数进行激活。4.根据权利要求1所述的一种基于注意力和多尺度特征融合的表情识别方法,其特征
在于:所述步骤3具体包括如下步骤:步骤3

1:对特征通道U=[u1,u2,...,u
c
]进行压缩,用全局平均池化的方式将每个特征通道上的W
×
H特征图压缩为一个具有全局感受野的实数,一个通道上的全局特征z
c
为:其中H和W分别为特征图的高度和宽度,压缩后的特征为z=[z1,z2,...,z
c
];步骤3

2:对压缩后的特征z进行激励,先后进行2个全连接层和激活函数Sigmoid操作,最终得到归一化权重,对应的数学表达式为:s=σ(g(z,W))=σ(W2δ(W1z))其中σ和δ分别代表Sigmoid和ReLU激活函数,r为超参数“压缩比”,取整数16...

【专利技术属性】
技术研发人员:周同瑄王宇洪旻珂尹海涛
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1