一种基于局部与全局注意力机制的表情识别方法及系统技术方案

技术编号:28421863 阅读:50 留言:0更新日期:2021-05-11 18:29
本发明专利技术公开了一种基于局部与全局注意力机制的表情识别方法及系统。该方法首先构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;然后使用人脸表情图像库中的样本图像对神经网络模型进行训练;最后将待测试的人脸图像输入到训练好的神经网络模型进行表情识别。本发明专利技术使用多尺度特征提取模块来提取人脸图像中不同尺度的纹理特征,以免丢失有鉴别力的表情特征;使用空间域和通道域局部与全局注意力模块强化对表情识别起关键作用的更具鉴别力的特征,可以有效提高表情识别的准确率和鲁棒性。

【技术实现步骤摘要】
一种基于局部与全局注意力机制的表情识别方法及系统
本专利技术属于图像处理与表情识别领域,具体涉及一种基于局部与全局注意力机制的表情识别方法及系统。
技术介绍
人脸表情是人类表达内心情感的最重要的方式,在人际交往中发挥着非常重要的作用,人类通常是通过识别表情来理解对方的感受。虽然人类几乎可以不费任何力气就能识别面部表情,但计算机对表情的可靠识别仍然是一个巨大挑战。人脸表情识别技术目前主要的应用场景包括人机交互、安全、机器人制造、医疗、通信领域等。研究人脸表情识别可以使计算机像人类那样具有理解和表达情感的能力,可以推动人机交互技术的发展,让计算机可以更友好更人性化地为人类提供各种服务,对推动人工智能的发展也有重大的意义,是人工智能走向强人工智能的必经之路。人类视觉注意力机制是指人类通过视觉快速扫描图像,寻找图像中需要重点关注的区域,即注意力焦点,并对这一重点关注区域投入更多的注意力资源,以获取更多所需要的细节信息,抑制其他无用信息的干扰。深度学习领域借鉴人类视觉注意力机制提出注意力机制,试图从图像中选择出对当前任务起更关键作用的信息,将有限的资源用于处理更重要的信息。现有的人脸表情识别方法主要分为传统方法和深度学习方法。传统方法采用人工设计的特征来表征人脸表情图像,而人工设计的特征鲁棒性较低,通常可以在特定的人脸表情数据集上取得较高的表情分类准确率,但是在应用于真实场景时,由于受到姿态、光照、背景、遮挡等因素的干扰,这些传统方法往往不能有效地从人脸图像中提取具有鉴别力的表情特征,导致人脸表情识别准确率不高。已有的基于卷积神经网络的人脸表情识别方法大多是采用单一尺度的卷积核提取人脸表情特征,通过不断地增加卷积层加深网络结构来提高识别准确率,但是当神经网络模型达到一定的层数时,再通过增加卷积层不能达到提升识别准确率的目的;已有的基于注意力机制的人脸表情识别方法大多在计算权重时只使用最大池化提取特征图张量中的局部特征信息而没有充分地考虑特征图张量中的全局特征,使得计算得到的权重存在一定偏差。
技术实现思路
专利技术目的:针对现有人脸表情识别方法存在准确率低、鲁棒性差的问题,本专利技术的目的是提供一种基于局部与全局注意力机制的表情识别方法,通过使用多尺度特征提取模块来提取人脸图像中不同尺度的纹理特征,以免丢失有鉴别力的表情特征;使用空间域和通道域局部与全局注意力模块强化对表情识别起关键作用的更具鉴别力的特征,可以有效提高表情识别的准确率和鲁棒性。技术方案:本专利技术为实现上述专利技术目的采用以下技术方案:一种基于局部与全局注意力机制的表情识别方法,该方法包括以下步骤:(1)构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;所述的浅层特征提取模块包含两个卷积层,用于提取人脸图像的浅层特征,输出特征图张量其中w1、h1和f1分别代表特征图张量T1的宽度、高度和通道数;所述的空间域局部与全局注意力模块包含两个独立并行的支路,分别在通道方向上使用最大池化和平均池化提取特征图张量T1的局部特征和全局特征,并使用基于局部特征和全局特征的空间域注意力权重矩阵对特征图张量T1进行加权运算,输出特征图张量所述的残差网络模块由残差块和池化层构成,输出特征图张量其中w2、h2和f2分别代表特征图张量T3的宽度、高度和通道数;所述的多尺度特征提取模块包含n个独立并行的支路,分别采用不同大小的卷积核对特征图张量T3进行卷积运算,输出n个特征图张量并将所述的n个特征图张量拼接成特征图张量其中1≤i≤n,2≤n≤5,w3、h3和f3分别代表特征图张量Ki的宽度、高度和通道数;所述的通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块,其中第一支路和第二支路分别包含两个并行的分支,分别用于在宽度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征,以及在高度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征;权重向量组合模块用于基于提取的局部特征和全局特征计算特征图张量T4的通道域注意力权重,使用通道域注意力权重对特征图张量T4进行加权运算,输出特征图张量所述的全连接层对特征图张量T5进行特征融合,输出特征向量Q;所述的分类层对特征向量Q进行分类,输出人脸表情类别;(2)使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练,保存训练好的神经网络模型;(3)将待测试的人脸图像输入到训练好的神经网络模型进行表情识别,输出表情类别。作为优选,所述的空间域局部与全局注意力模块包含两个独立并行的支路,其中一个支路先对特征图张量T1在通道方向上进行最大池化操作,得到大小为w1×h1的特征图P1,再将特征图P1进行零填充操作和卷积运算,得到大小为w1×h1的局部特征图P1';另一个支路先对特征图张量T1在通道方向上进行平均池化操作,得到大小为w1×h1的特征图P2,再将特征图P2进行零填充操作和卷积运算,得到大小为w1×h1的全局特征图P2';然后将上述两个并行支路输出的局部特征图P1'和全局特征图P2'进行叠加,得到大小为w1×h1的特征图P3;接着将特征图P3通过Sigmoid激活函数得到特征图张量T1的空间域注意力权重矩阵WS,WS的大小为w1×h1;最后将特征图张量T1与空间域注意力权重矩阵WS进行点乘运算,输出特征图张量作为优选,所述的多尺度特征提取模块每个支路由两个进行一维卷积运算的卷积层构成。作为优选,所述的通道域局部与全局注意力模块具体结构如下:第一支路包含两个并行的分支,其中一个分支对特征图张量T4在宽度方向上进行最大池化操作,输出局部特征图张量另一个分支对特征图张量T4在宽度方向上进行平均池化操作,输出全局特征图张量然后将上述两个并行分支输出的局部特征图张量MW和全局特征图张量AW输入到全连接层进行融合,输出特征图张量T4在宽度方向上的权重向量LW,权重向量LW的维数为nf3;第二支路包含两个并行分支,其中一个分支对特征图张量T4在高度方向进行最大池化操作,输出局部特征图张量另一个分支对特征图张量T4在高度方向上进行平均池化操作,输出全局特征图张量然后将上述两个并行分支输出的局部特征图张量MH和全局特征图张量AH输入到全连接层进行融合,输出特征图张量T4在高度方向上的权重向量LH,权重向量LH的维数为nf3;权重向量组合模块将权重向量LW和LH进行组合,得到维数为nf3的权重向量L,接着将权重向量L通过Sigmoid激活函数得到通道域注意力权重向量WC,再将特征图张量T4与通道域注意力权重向量WC进行点乘运算,输出特征图张量基于相同的专利技术构思,本专利技术公开的一种基于局部与全局注意力机制的表情识别系统,包括:网络模型构建模块,用于构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意本文档来自技高网
...

【技术保护点】
1.一种基于局部与全局注意力机制的表情识别方法,其特征在于,该方法包括以下步骤:/n(1)构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;/n所述的浅层特征提取模块包含两个卷积层,用于提取人脸图像的浅层特征,输出特征图张量

【技术特征摘要】
1.一种基于局部与全局注意力机制的表情识别方法,其特征在于,该方法包括以下步骤:
(1)构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;
所述的浅层特征提取模块包含两个卷积层,用于提取人脸图像的浅层特征,输出特征图张量其中w1、h1和f1分别代表特征图张量T1的宽度、高度和通道数;
所述的空间域局部与全局注意力模块包含两个独立并行的支路,分别在通道方向上使用最大池化和平均池化提取特征图张量T1的局部特征和全局特征,并使用基于局部特征和全局特征的空间域注意力权重矩阵对特征图张量T1进行加权运算,输出特征图张量
所述的残差网络模块由残差块和池化层构成,输出特征图张量其中w2、h2和f2分别代表特征图张量T3的宽度、高度和通道数;
所述的多尺度特征提取模块包含n个独立并行的支路,分别采用不同大小的卷积核对特征图张量T3进行卷积运算,输出n个特征图张量并将所述的n个特征图张量拼接成特征图张量其中1≤i≤n,2≤n≤5,w3、h3和f3分别代表特征图张量Ki的宽度、高度和通道数;
所述的通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块,其中第一支路和第二支路分别包含两个并行的分支,分别用于在宽度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征,以及在高度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征;权重向量组合模块用于基于提取的局部特征和全局特征计算特征图张量T4的通道域注意力权重,使用通道域注意力权重对特征图张量T4进行加权运算,输出特征图张量
所述的全连接层对特征图张量T5进行特征融合,输出特征向量Q;
所述的分类层对特征向量Q进行分类,输出人脸表情类别;
(2)使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练,保存训练好的神经网络模型;
(3)将待测试的人脸图像输入到训练好的神经网络模型进行表情识别,输出表情类别。


2.根据权利要求1所述的一种基于局部与全局注意力机制的表情识别方法,其特征在于,所述的空间域局部与全局注意力模块包含两个独立并行的支路,其中一个支路先对特征图张量T1在通道方向上进行最大池化操作,得到大小为w1×h1的特征图P1,再将特征图P1进行零填充操作和卷积运算,得到大小为w1×h1的局部特征图P1';另一个支路先对特征图张量T1在通道方向上进行平均池化操作,得到大小为w1×h1的特征图P2,再将特征图P2进行零填充操作和卷积运算,得到大小为w1×h1的全局特征图P2';然后将上述两个并行支路输出的局部特征图P1'和全局特征图P2'进行叠加,得到大小为w1×h1的特征图P3;接着将特征图P3通过Sigmoid激活函数得到特征图张量T1的空间域注意力权重矩阵WS,WS的大小为w1×h1;最后将特征图张量T1与空间域注意力权重矩阵WS进行点乘运算,输出特征图张量


3.根据权利要求1所述的一种基于局部与全局注意力机制的表情识别方法,其特征在于,所述的多尺度特征提取模块每个支路由两个进行一维卷积运算的卷积层构成。


4.根据权利要求1所述的一种基于局部与全局注意力机制的表情识别方法,其特征在于,所述的通道域局部与全局注意力模块具体结构如下:
第一支路包含两个并行的分支,其中一个分支对特征图张量T4在宽度方向...

【专利技术属性】
技术研发人员:卢官明徐志鹏卢峻禾
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1