一种基于视觉自注意力网络的表情识别方法技术

技术编号:29044604 阅读:51 留言:0更新日期:2021-06-26 05:57
一种基于视觉自注意力网络的表情识别方法属于图像识别领域,使机器能够做到类似于人类那样综合考虑表情的局部信息。本发明专利技术主要过程为:S1:数据准备,将训练数据集输入到局部图像生成模块得到局部图像;S2:把局部图像输入至设计的视觉自注意力网络进行训练,得到训练好的模型;S3:将待识别的图像经过预处理送入到训练好的视觉自注意力网络中进行识别,得到结果。本发明专利技术采用视觉自注意力网络能够关注到局部图像之间的相互影响,并能够融合不同局部图像的鲁棒性特征以综合考虑到局部图像的信息,使图像最终表达的特征更加鲁棒,经过实验验证本发明专利技术所设计的网络在多个数据集上都超越了当前最先进方法的识别准确率,验证了本发明专利技术的有效性。明的有效性。明的有效性。

【技术实现步骤摘要】
一种基于视觉自注意力网络的表情识别方法


[0001]本专利技术涉及图像识别领域,尤其是涉及了一种基于深度学习和自注意力机制的表情识别方法。

技术介绍

[0002]当今,机器始终无法精准理解和体会人类的情感,可以说现在的机器还处于“弱”人工智能阶段。如果机器能够精准的理解人类的情感进而做到人机交互,便可以推动其走向“强”人工智能阶段。在市场销售领域,如果机器能够精准的识别出顾客对某种产品的喜好程度,商家就可以据此做出一定的营销策略和市场决策,促进经济的发展;在公共安全领域,如果机器能够判断出某人的异常情绪,就可及时预防犯罪的发生;在校园教育领域,如果机器能够识别出学生对某个知识点的理解程度所做出的表情,教师即可及时调整授课策略,调整授课进度等;在安全驾驶领域,人机交互系统如果能够根据司机的表情和言语表达,判断出司机的驾驶行为和状态,就可以及时避免危险事故的发生。因此研究具有情感识别特别是能精准的判别人脸表情的机器人在现实生活中显得尤为重要。
[0003]根据提取面部表情特征的方法可以将表情识别方法分为两类,一是传统的基于人工设计特征的表情识别方法,二是基于深度学习的表情识别方法。使用人工设计特征的表情识别方法比较成熟,但是只能提取人工设定好的特征,提取的特征比较单一化,特征表达能力不足,适应性差。基于深度学习的表情识别是一种端到端的学习方式,它能学习到图像中潜在的多样化特征,对光线变化和头部偏转比较鲁棒,近几年以深度学习为基础的表情识别方法成为了主流。虽然现如今大多数的方法在识别率方面获得了很大的提升,但是都只是从表情的全局图像提取特征,并没有考虑局部图像信息。由于人类的个体属性差异、光照、遮挡等外界环境的干扰,全局图像所受到的影响较大,会存在一些无用信息对模型的识别造成干扰,这是一点需要改进的地方。
[0004]深圳市点猫科技有限公司申请的专利“一种基于深度学习的人脸表情识别方法、装置及设备”(专利申请号202011345478.X,公布号CN112149651A)中公开了一种基于深度学习的人脸表情识别方法。该专利用生成对抗网络和原始图像生成了丰富的表情图像用于训练网络,缓解了模型过拟合问题,提升了识别准确率。该专利申请公开的方法存在的不足是:它是从全局图像提取表情特征,没有像人类那样综合人脸的一些局部信息识别表情,因为人类观察表情的时候都是先看人脸的几个局部信息,而后综合考虑到底是什么表情,本专利技术为了弥补现在识别方法的不足和模仿人眼识别表情机制,提出了一种基于视觉自注意力网络的表情识别方法。

技术实现思路

[0005]为了使模型综合考虑到不同局部图像的信息以提高特征的判别性表达,本专利技术提出了一种适用于视觉领域的自注意力网络。具体来说,本专利技术为了把局部图像的鲁棒性特征进行融合,通过对自然语言处理领域中的Transformer模型进行改造,构成了一种视觉自
注意力网络,其能够考虑到局部图像之间的相互影响,把不同的局部图像特征进行相互融合,使提取出的图像特征有了更加判别性的表达。
[0006]为实现上述目的,本专利技术采用的技术方案为一种基于视觉自注意力网络的表情识别方法,该方法是按以下步骤实现的;
[0007]S1:数据准备,将训练数据输入到局部图像生成模块获得局部图像;
[0008]本步骤用于获得每个训练数据的三种局部表情图像。
[0009]S2:把局部图像输入至视觉自注意力网络进行训练,得到训练好的模型;
[0010]本步骤基于S1步骤获得的局部表情图像训练视觉自注意力网络,使其能够关注到局部图像之间的相互影响并进行相互融合。
[0011]S3:将待识别的图像经过预处理送入到训练好的视觉自注意力网络中进行识别,得到结果;
[0012]本步骤把待检测的图像送入到训练好的视觉自注意力网络中,获得识别出的表情。
[0013]所述S1的具体步骤包括:
[0014]S1.1数据集的准备
[0015]所使用数据集由流行的表情数据集CK+,Oulu

CASIA,RAF

DB组成,前两个数据集中用10折交叉验证的方法取8折作为训练数据,最后一个数据集用给出的训练集作为训练数据。
[0016]S1.2局部图像生成模块
[0017]所述的局部图像生成模块由人脸检测方法和数据增强技术组成,人脸检测方法使用的是Dlib库中基于深度学习的人脸检测方法,数据增强技术用来构建局部图像,其所用到的数据增强技术包括对图像进行水平翻转(模拟数字设备的镜像条件),随机旋转(模拟人脸角度的变化),调节亮度、对比度、饱和度和色度(模拟现实生活中的不同光照条件或者数字设备设置参数不同导致获取到的图像不同),最后对图像进行随机裁切(模拟局部图像)并进行标准化,由此生成了局部图像。
[0018]将上述局部图像生成模块中的流程运行三次,由此可以生成三个局部图像。
[0019]所述S2的具体步骤包括:
[0020]S2.1视觉自注意力网络的组成
[0021]视觉自注意力网络由4层所设计的视觉自注意力层、全局平均池化层和全连接层结构叠加组成,其中每层的视觉自注意力层由三组并列的视觉特征提取模块和自注意力特征融合机制构成,其连接关系是三组视觉特征提取模块的输出作为自注意力特征融合机制的输入。
[0022]S2.2视觉特征提取模块的组成
[0023]S2.1中所述的三组并列的视觉特征提取模块均由残差结构、询问向量(q)生成模块、关键向量(k)生成模块和值矩阵(V)生成模块构成。
[0024]残差结构由ResNet中的残差模块(Res Module),最大池化层(MP)组成,其连接关系为:Res Module、MP。
[0025]询问向量(q)生成模块由深度可分离卷积层(DSC1),全局平均池化层(GP1)构成,其连接关系依次为:DSC1、GP1。
[0026]关键向量(k)生成模块由深度可分离卷积层(DSC2),全局平均池化层(GP2)构成,其连接关系依次为:DSC2、GP2。
[0027]值矩阵(V)生成模块只由深度可分离卷积层(DSC3)组成。
[0028]视觉特征提取模块的具体结构组成包含三个并列的子结构,其具体连接关系分别是(1)残差结构、询问向量生成模块。(2)残差结构、关键向量生成模块。(3)残差结构、值矩阵生成模块。残差结构的输出同时是询问向量生成模块、关键向量生成模块和值矩阵生成模块的输入。因此数据经过视觉特征提取模块会有三个输出,对应的分别是询问向量、关键向量和值矩阵,由此可得到三组视觉特征提取模块一共输出了三个询问向量,三个关键向量和三个值矩阵。
[0029]S2.3自注意力特征融合机制
[0030]S2.1种所述的自注意力融合机制表达如下:
[0031]F=Softmax(QK)V
[0032]式中Q是由S2.2中提到的三组视觉特征提取模块输出的三个询问向量拼接而成;K是由三组视觉特征提取模块输出的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉自注意力网络的表情识别方法,其特征在于,该方法是按以下步骤实现的:S1:数据准备,将训练数据输入到局部图像生成模块获得局部图像;S2:把局部图像输入至视觉自注意力网络进行训练,得到训练好的模型;视觉自注意力网络由4层所设计的视觉自注意力层、全局平均池化层和全连接层结构叠加组成,其中每层的视觉自注意力层由三组并列的视觉特征提取模块和自注意力特征融合机制构成,其连接关系是三组视觉特征提取模块的输出作为自注意力特征融合机制的输入;S3:将待识别的图像经过预处理送入到训练好的视觉自注意力网络中进行识别,得到结果。2.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述S1的具体步骤包括:S1.1数据的准备所使用的数据由公开的表情数据集CK+,Oulu

CASIA,RAF

DB组成,前两个数据集中用10折交叉验证的方法取8折作为训练数据,最后一个数据集用给出的训练集作为训练数据;S1.2局部图像生成模块所述的局部图像生成模块由人脸检测方法和数据增强技术组成,人脸检测方法使用的是Dlib库中基于深度学习的人脸检测方法,数据增强技术用来构建局部图像,其所用到的数据增强技术包括对图像进行水平翻转,随机旋转,调节亮度、对比度、饱和度和色度,最后对图像进行随机裁切并进行标准化;将上述局部图像生成模块中的流程运行三次,由此生成三个局部图像。3.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述的三组并列的视觉特征提取模块均由残差结构、询问向量(q)生成模块、关键向量(k)生成模块和值矩阵(V)生成模块构成;残差结构由ResNet中的残差模块(Res Module),最大池化层(MP)组成,其连接关系为:Res Module、MP;询问向量(q)生成模块由深度可分离卷积层(DSC1),全局平均池化层(GP1)构成,其连接关系依次为:DSC1、GP1;关键向量(k)生成模块由深度可分离卷积层(DSC2),全局平均池化层(GP2)构成,其连接关系依次为:DSC2、GP2;值矩阵(V)生成模块只由深度可分离卷积层(DSC3)组成;视觉特征提取模块的具体结构组成包含三个并列的子结构,其具体连接关系分别是(1)残差结构、询问向量生成模块;(2)残差结构、关键向量生成模块;(3)残差结构、值矩阵生成模块;残差结构的输出同时是询问向量生成模块、关键向量生成模块和值矩阵生成模块的输入;因此数据经过视觉特征提取模块会有三个输出,对应的分别是询问向量、关键向量和值矩阵,由此可得三组视觉特征提取模块一共输出了三个询问向量,三个关键向量和三个值矩阵。4.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述的自注意力特征融合机制为:F=Softmax(QK)V
式中Q是三组视觉特征提取模块输出...

【专利技术属性】
技术研发人员:于乃功柏德国
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1