一种基于深度神经网络的多任务表情识别方法及系统技术方案

技术编号:39591201 阅读:11 留言:0更新日期:2023-12-03 19:45
本发明专利技术公开了一种基于深度神经网络的多任务表情识别方法及系统,包括:获取人脸图像;将人脸图像输送到联合网络模型中;特征提取网络用于对人脸图像进行关键点预测以产生人脸特征点的热力图预测,并将热力图预测作为人脸的关键点特征信息;

【技术实现步骤摘要】
一种基于深度神经网络的多任务表情识别方法及系统


[0001]本专利技术涉及表情识别
,尤其涉及一种基于深度神经网络的多任务表情识别方法及系统


技术介绍

[0002]人脸表情识别技术和其它类型的智能识别技术相比,还未突破技术性屏障,生活上的应用还不足

尤其是在涉及情感计算和情感分析相关
,目前的表情识别研究还很不成熟

当前,现有的表情识别技术大多是针对离散表情的识别任务,且识别环境相对简单,处理诸如光照条件差

图像模糊

姿态偏移有遮挡等问题时,结果不尽如人意,无法得到实际的应用

同时由于这些简单的表情分类不能反映人类在自然的日常情境中所展现出来的较为复杂丰富的情感,在情感分析方面也显得能力不足

[0003]基于连续情感维度模型的表情识别对基于计算机的系统来说是极其困难的,近年来,针对连续情感维度的表情识别研究也越来越多

然而上述工作对于处理情感分析表情识别任务依然不足


技术实现思路

[0004]基于
技术介绍
存在的技术问题,本专利技术提出了一种基于深度神经网络的多任务表情识别方法及系统,优化人脸表情识别网络,提高网络的预测性能

[0005]本专利技术提出的一种基于深度神经网络的多任务表情识别方法,包括:
[0006]获取人脸图像;
[0007]将人脸图像输送到联合网络模型中,所述联合网络模型包括特征提取网络
、FPN
金字塔模型

编码器和第一多层感知机层;
[0008]所述特征提取网络用于对人脸图像进行关键点预测以产生人脸特征点的热力图预测,并将热力图预测作为人脸的关键点特征信息;
[0009]所述
FPN
金字塔模型用于对人脸的关键点特征信息进行上采样和下采样,并将下采样得到的下采样特征输送到编码器中;
[0010]所述编码器用于对所输入的下采样特征进行编码处理,并将编码后的下采样特征输送到
FPN
金字塔模型中与上采样融合后输出不同层次的特征信息;
[0011]所述第一多层感知机层用于对输入的不同层次的特征信息进行感知分类,以输出所述人脸图像中人脸面部表情的识别预测结果

[0012]进一步地,所述特征提取网络包括由沙漏模型堆叠形成的四阶沙漏模型,沙漏模型采用
ConvBlock
瓶颈块连接;
[0013]所述
FPN
金字塔模型为三层金字塔模型,上采样和下采样分别形成上采样特征和下采样特征,每层的下采样特征的输出通过对应层设置的编码器连接到上采样特征的输入

[0014]进一步地,所述编码器包括依次连接的归一化层

多头自注意力层和第二多层感
知机层;
[0015]所述第一归一化层的输入连接同层的下采样特征,将输入的下采样特征与多头自注意力层的输出相加得到的特征序列作为第二归一化层的输入,将所述特征序列与多层感知机层的输出相加以输出三个不同层次的特征信息,三个不同层次的特征信息作为第一多层感知机层的输入

[0016]进一步地,所述多头自注意力层包括依次连接的线性变换层

缩放点积注意力层

拼接层和线性输出层,其中,线性变换层和缩放点积注意力层在多头自注意力层的每个头中均设置,拼接层和线性输出层在多头自注意力层中依次总体设置,线性连接层设置三个变换映射层,三个变换映射层分别用于将归一化后的下采样特征分别通过三个线性变换映射到三个矩阵中,所述三个矩阵包括查询矩阵
Q、
键矩阵
K
和值矩阵
V。
[0017]进一步地,所述缩放点积注意力层包括第一矩阵乘法层

数组标准层
、softmax
回归层和第二矩阵乘法层;
[0018]第一矩阵乘法层的输入连接查询矩阵
Q
和键矩阵
K
,第一矩阵乘法层

数组标准层
、softmax
回归层依次连接,第二矩阵乘法层的输入连接
softmax
回归层的输出和值矩阵
V。
[0019]进一步地,所述线性变换层对归一化处理后的输入序列进行缩放,具体如下:
[0020]Q

XW
Q
[0021]K

XW
K
[0022]V

XW
V
[0023]其中,
Q
表示查询矩阵,
K
表示键矩阵,
V
表示值矩阵,表示值矩阵,和均为矩阵系数,
D
是特征维度

[0024]进一步地,下采样特征在编码器中的处理公式如下:
[0025]MSA(Q,K,V)

Concat(head1,

,head
h
)W
iO
[0026][0027]X


MSA(Q,K,V)+X
[0028]X
out

MLP+X

[0029]其中
d

D/h

i

1,2,

h

h
为多头自注意力头的个数,
D
是特征维度,
MSA
表示多头自我注意层,
Norm
是归一化算子,
MLP
代表多层感知机,
Concat
表示拼接,
X
表示输入到多头自注意力层的下采样特征,
X
out
表示编码器的输出,
[0030]进一步地,所述人脸的关键点特征信息
R

[0031][0032]其中,
u

v
是像素点坐标,
k
i

k
j
表示预测的关键点坐标,
σ
是设定的以关键点为圆心的辐射半径

[0033]一种基于深度神经网络的多任务表情识别系统,包括获取模块

输入模块

特征提取网络模块
、FPN
金字塔模块

编码器模块和多层感知机模块;
[0034]所述获取模块用于获取人脸图像;
[0035]所述输入模块用于将人脸图像输送到联合网络模型中,所述联合网络模型包括特征提取网络
、FPN
金字塔模型

编码器和第一多层感知机层;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度神经网络的多任务表情识别方法,其特征在于,包括:获取人脸图像;将人脸图像输送到联合网络模型中,所述联合网络模型包括特征提取网络
、FPN
金字塔模型

编码器和第一多层感知机层;所述特征提取网络用于对人脸图像进行关键点预测以产生人脸特征点的热力图预测,并将热力图预测作为人脸的关键点特征信息;所述
FPN
金字塔模型用于对人脸的关键点特征信息进行上采样和下采样,并将下采样得到的下采样特征输送到编码器中;所述编码器用于对所输入的下采样特征进行编码处理,并将编码后的下采样特征输送到
FPN
金字塔模型中与上采样融合后输出不同层次的特征信息;所述第一多层感知机层用于对输入的不同层次的特征信息进行感知分类,以输出所述人脸图像中人脸面部表情的识别预测结果
。2.
根据权利要求1所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述特征提取网络包括由沙漏模型堆叠形成的四阶沙漏模型,沙漏模型采用
ConvBlock
瓶颈块连接;所述
FPN
金字塔模型为三层金字塔模型,上采样和下采样分别形成上采样特征和下采样特征,每层的下采样特征的输出通过对应层设置的编码器连接到上采样特征的输入
。3.
根据权利要求2所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述编码器包括依次连接的归一化层

多头自注意力层和第二多层感知机层;所述第一归一化层的输入连接同层的下采样特征,将输入的下采样特征与多头自注意力层的输出相加得到的特征序列作为第二归一化层的输入,将所述特征序列与多层感知机层的输出相加以输出三个不同层次的特征信息,三个不同层次的特征信息作为第一多层感知机层的输入
。4.
根据权利要求3所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述多头自注意力层包括依次连接的线性变换层

缩放点积注意力层

拼接层和线性输出层,其中,线性变换层和缩放点积注意力层在多头自注意力层的每个头中均设置,拼接层和线性输出层在多头自注意力层中依次总体设置,线性连接层设置三个变换映射层,三个变换映射层分别用于将归一化后的下采样特征分别通过三个线性变换映射到三个矩阵中,所述三个矩阵包括查询矩阵
Q、
键矩阵
K
和值矩阵
V。5.
根据权利要求4所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述缩放点积注意力层包括第一矩阵乘法层

数组标准层
、softmax
回归层和第二矩阵乘法层;第一矩阵乘法层的输入连接查询矩阵
Q
和键矩阵
K
,第一矩阵乘法层

数组标准层
、softmax
回归层依次连接,第二矩阵乘法层的输入连接
softmax
回归层的输出和值矩阵
V。6.
根据权利要求4所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述线性变换层对归一化处...

【专利技术属性】
技术研发人员:张祎霖孙晓
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1