文本描述辅助的姿势感知的人脸表情识别方法技术

技术编号:34697600 阅读:16 留言:0更新日期:2022-08-27 16:33
本发明专利技术公开了一种表情描述文本辅助的姿势感知的人脸表情识别方法,包括:1、根据表情发生时的面部单元动作和对原始人脸图像的预处理,构建出多模态数据集合;2、构建姿势分类器,从人脸图像中提取姿势特征,并选取各种姿势的聚类中心作为对应的姿势特征;3、构建表情描述文本特征提取器,从文本中提取表情文本特征;4、融合人脸视觉特征,姿势特征和表情文本特征,以跨模态的方式为视觉特征生成对应姿势和表情的注意力图,并通过同时区分注意力图加权后的视觉特征的姿势和表情类别,从而得到最优表情表征网络。本发明专利技术能有效利用先验姿势特征和表情描述文本丰富的语义信息,从而能实现任意姿势下的表情的精准识别。任意姿势下的表情的精准识别。任意姿势下的表情的精准识别。

【技术实现步骤摘要】
文本描述辅助的姿势感知的人脸表情识别方法


[0001]本专利技术涉及情感计算领域,具体的是一种文本描述辅助的姿势感知的人脸表情识别方法。

技术介绍

[0002]表情识别作为情感计算的一个分支,正在从实验室环境转向更加灵活多变的室外场景,其中,头部姿势的变化是影响识别性能的重要因素之一。现有的多角度表情识别分为两类:基于生成的方法和基于姿势鲁棒的方法,姿势鲁棒的方法又可以细分为基于正则化方法、基于对抗的方法、基于解缠的方法和基于子空间的方法。重构技术通常被用于基于解缠的方法,基于子空间的方法通常提取原始图像的手工特征,或者对特征空间加以约束,其他方法则主要用到各种生成对抗方法的变体。一些表情识别的方法也引入注意力机制。
[0003]然而无论是基于生成的方法还是基于姿势鲁棒的方法,以及基于注意力的方法,它们都存在一些根本上难以克服的问题。基于生成的方法通过生成大量各个角度下的各种表情图像来丰富数据集,从而使模型得到充分训练,然而生成的图像质量较差;基于姿势鲁棒的方法试图消除或者分离出姿势信息,从而得到只包含表情信息的特征,但姿势和表情以一种复杂的非线性方式耦合在一起;基于注意力机制的方法一方面没有考虑姿势变化的影响,另一方面很难保证从原始图像自动学习的注意力图的有效性。

技术实现思路

[0004]本专利技术是为了解决上述现有技术存在的不足之处,提出一种文本描述辅助的姿势感知的人脸表情识别方法,以期能通过引入先验姿势特征和表情描述文本并利用跨模态的注意力机制实现任意姿势下表情的精准识别,从而提高表情识别的准确性和鲁棒性。
[0005]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0006]本专利技术一种文本描述辅助的姿势感知的人脸表情识别方法的特点在于,是按如下步骤进行:
[0007]步骤1、构建多模态数据集合A;
[0008]步骤1.1、构建多模态数据的表情描述文本集合,记为其中,s
k
表示第k条文本,m为文本的总条数;所述第k条文本s
k
包含的单词,记为其中,t
k,l
表示所述第k条文本s
k
中的第l个单词,N
k
表示第k条文本信息的单词长度;
[0009]步骤1.2、构建多模态数据的表情图像数据集合:
[0010]获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集其中,x
i
,y
i
,v
i
分别表示第i个人脸图像及对应的表情类别和姿势类别,y
i
∈{1,2,

,m

},v
i
∈{1,2,

,n},N是表情图像数据集D中图像的数量,m

是表情的总类别数,n是姿势的总类别数,且m

=m;
[0011]步骤2、构建姿势分类器,包含:姿势特征提取器E
p
,分类器C
p
和特征对齐器AL:
[0012]步骤2.1、构建所述姿势特征提取器E
p
为ResNet50结构:
[0013]所述ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
[0014]步骤2.2、提取姿势特征:
[0015]将所述表情图像数据集D的第i个人脸图像x
i
输入所述姿势特征提取器E
p
中,获得第i个人脸图像x
i
的姿势特征
[0016]步骤2.3、构建所述分类器C
p
,包含一个全连接层:
[0017]将所述姿势特征输入到所述分类器C
p
中,得到第i个人脸图像x
i
预测的姿势类别v

i

[0018]步骤2.4、利用式(1)构建姿势分类损失L
pose

[0019]L
pose
=crossentropy(v

i
,v
i
)
ꢀꢀ
(1)
[0020]式(1)中,crossentropy()表示交叉熵函数;
[0021]步骤2.5、利用式(2)计算第j种姿势的特征f
j
,从而得到n种姿势的特征:
[0022][0023]式(2)中,n
j
表示预测的姿势类别v

i
和真实的姿势类别v
i
都为第j种姿势类别的姿势特征集合的特征数量;
[0024]步骤2.6、构建所述特征对齐器AL,包含一个全连接层:
[0025]将所述第j种姿势的特征f
j
输入到所述特征对齐器AL中,得到对齐后的第j种姿势特征
[0026]步骤3、构建表情描述文本特征提取器,包含:分词器E
t
,文本内特征编码器E
intra
和文本间特征编码器E
inter

[0027]步骤3.1、构建所述分词器E
t
,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
[0028]将所述表情描述文本集合S的第k条文本s
k
输入到所述分词器E
t
中进行处理,获得对应的第k个数字序列以及对应的第k个位置编码为pc
k

[0029]步骤3.2、构建文本内特征编码器E
intra
,包含:嵌入层和多层Transformer编码器;
[0030]所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
[0031]将所述第k个数字序列和第k个位置编码pc
k
输入到所述文本内特征编码器E
intra
中进行处理,获得第k个初步表情描述文本特征
[0032]步骤3.3、构建所述文本间特征编码器E
inter
,包含:多层Transformer编码器;
[0033]将所有初步表情描述文本特征输入到所述文本间特征编码器E
inter
中进行处理,获得最终表情描述文本特征其中,表示第k条表情文本描述特征;
[0034]步骤4、构建跨模态模块,包含:图像视觉特征提取器E
v
,姿势分类器C
p
和表情分类器C
e

[0035]步骤4.1、构建所述图像视觉特征提取器E
v
,包含部分ResNet50的层结构;
[0036]所述部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函
数层,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本描述辅助的姿势感知的人脸表情识别方法,其特征在于,是按如下步骤进行:步骤1、构建多模态数据集合A;步骤1.1、构建多模态数据的表情描述文本集合,记为其中,s
k
表示第k条文本,m为文本的总条数;所述第k条文本s
k
包含的单词,记为其中,t
k,l
表示所述第k条文本s
k
中的第l个单词,N
k
表示第k条文本信息的单词长度;步骤1.2、构建多模态数据的表情图像数据集合:获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集其中,x
i
,y
i
,v
i
分别表示第i个人脸图像及对应的表情类别和姿势类别,y
i
∈{1,2,

,m'},v
i
∈{1,2,

,n},N是表情图像数据集D中图像的数量,m'是表情的总类别数,n是姿势的总类别数,且m'=m;步骤2、构建姿势分类器,包含:姿势特征提取器E
p
,分类器C
p
和特征对齐器AL:步骤2.1、构建所述姿势特征提取器E
p
为ResNet50结构:所述ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;步骤2.2、提取姿势特征:将所述表情图像数据集D的第i个人脸图像x
i
输入所述姿势特征提取器E
p
中,获得第i个人脸图像x
i
的姿势特征步骤2.3、构建所述分类器C
p
,包含一个全连接层:将所述姿势特征输入到所述分类器C
p
中,得到第i个人脸图像x
i
预测的姿势类别v'
i
;步骤2.4、利用式(1)构建姿势分类损失L
pose
:L
pose
=crossentro
py
(v

i
,v
i
)
ꢀꢀꢀ
(1)式(1)中,crossentropy()表示交叉熵函数;步骤2.5、利用式(2)计算第j种姿势的特征f
j
,从而得到n种姿势的特征:式(2)中,n
j
表示预测的姿势类别v'
i
和真实的姿势类别v
i
都为第j种姿势类别的姿势特征集合的特征数量;步骤2.6、构建所述特征对齐器AL,包含一个全连接层:将所述第j种姿势的特征f
j
输入到所述特征对齐器AL中,得到对齐后的第j种姿势特征步骤3、构建表情描述文本特征提取器,包含:分词器E
t
,文本内特征编码器E
intra
和文本间特征编码器E
inter
:步骤3.1、构建所述分词器E
t
,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;将所述表情描述文本集合S的第k条文本s
k
输入到所述分词器E
t
中进行处理,获得对应
的第k个数字序列以及对应的第k个位置编码为p...

【专利技术属性】
技术研发人员:王上飞吴毅常亚南李国鸣毛萌
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1