一种基于视觉自注意力网络的表情识别方法技术

技术编号：29044604 阅读：51 留言：0更新日期：2021-06-26 05:57

一种基于视觉自注意力网络的表情识别方法属于图像识别领域，使机器能够做到类似于人类那样综合考虑表情的局部信息。本发明专利技术主要过程为：S1：数据准备，将训练数据集输入到局部图像生成模块得到局部图像；S2：把局部图像输入至设计的视觉自注意力网络进行训练，得到训练好的模型；S3：将待识别的图像经过预处理送入到训练好的视觉自注意力网络中进行识别，得到结果。本发明专利技术采用视觉自注意力网络能够关注到局部图像之间的相互影响，并能够融合不同局部图像的鲁棒性特征以综合考虑到局部图像的信息，使图像最终表达的特征更加鲁棒，经过实验验证本发明专利技术所设计的网络在多个数据集上都超越了当前最先进方法的识别准确率，验证了本发明专利技术的有效性。明的有效性。明的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉自注意力网络的表情识别方法

[0001]本专利技术涉及图像识别领域，尤其是涉及了一种基于深度学习和自注意力机制的表情识别方法。

技术介绍

[0002]当今，机器始终无法精准理解和体会人类的情感，可以说现在的机器还处于“弱”人工智能阶段。如果机器能够精准的理解人类的情感进而做到人机交互，便可以推动其走向“强”人工智能阶段。在市场销售领域，如果机器能够精准的识别出顾客对某种产品的喜好程度，商家就可以据此做出一定的营销策略和市场决策，促进经济的发展；在公共安全领域，如果机器能够判断出某人的异常情绪，就可及时预防犯罪的发生；在校园教育领域，如果机器能够识别出学生对某个知识点的理解程度所做出的表情，教师即可及时调整授课策略，调整授课进度等；在安全驾驶领域，人机交互系统如果能够根据司机的表情和言语表达，判断出司机的驾驶行为和状态，就可以及时避免危险事故的发生。因此研究具有情感识别特别是能精准的判别人脸表情的机器人在现实生活中显得尤为重要。
[0003]根据提取面部表情特征的方法可以将表情识别方法分为两类，一是传统的基于人工设计特征的表情识别方法，二是基于深度学习的表情识别方法。使用人工设计特征的表情识别方法比较成熟，但是只能提取人工设定好的特征，提取的特征比较单一化，特征表达能力不足，适应性差。基于深度学习的表情识别是一种端到端的学习方式，它能学习到图像中潜在的多样化特征，对光线变化和头部偏转比较鲁棒，近几年以深度学习为基础的表情识别方法成为了主流。虽然现如今大多数的方法在识别率方面获得了很大的提升，但是都只...

【技术保护点】

【技术特征摘要】
1.一种基于视觉自注意力网络的表情识别方法，其特征在于，该方法是按以下步骤实现的：S1：数据准备，将训练数据输入到局部图像生成模块获得局部图像；S2：把局部图像输入至视觉自注意力网络进行训练，得到训练好的模型；视觉自注意力网络由4层所设计的视觉自注意力层、全局平均池化层和全连接层结构叠加组成，其中每层的视觉自注意力层由三组并列的视觉特征提取模块和自注意力特征融合机制构成，其连接关系是三组视觉特征提取模块的输出作为自注意力特征融合机制的输入；S3：将待识别的图像经过预处理送入到训练好的视觉自注意力网络中进行识别，得到结果。2.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法，其特征在于，所述S1的具体步骤包括：S1.1数据的准备所使用的数据由公开的表情数据集CK+，Oulu
‑
CASIA，RAF
‑
DB组成，前两个数据集中用10折交叉验证的方法取8折作为训练数据，最后一个数据集用给出的训练集作为训练数据；S1.2局部图像生成模块所述的局部图像生成模块由人脸检测方法和数据增强技术组成，人脸检测方法使用的是Dlib库中基于深度学习的人脸检测方法，数据增强技术用来构建局部图像，其所用到的数据增强技术包括对图像进行水平翻转，随机旋转，调节亮度、对比度、饱和度和色度，最后对图像进行随机裁切并进行标准化；将上述局部图像生成模块中的流程运行三次，由此生成三个局部图像。3.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法，其特征在于，所述的三组并列的视觉特征提取模块均由残差结构、询问向量(q)生成模块、关键向量(k)生成模块和值矩阵(V)生成模块构成；残差结构由ResNet中的残差模块(Res Module)，最大池化层(MP)组成，其连接关系为：Res Module、MP；询问向量(q)生成模块由深度可分离卷积层(DSC1)，全局平均池化层(GP1)构成，其连接关系依次为：DSC1、GP1；关键向量(k)生成模块由深度可分离卷积层(DSC2)，全局平均池化层(GP2)构成，其连接关系依次为：DSC2、GP2；值矩阵(V)生成模块只由深度可分离卷积层(DSC3)组成；视觉特征提取模块的具体结构组成包含三个并列的子结构，其具体连接关系分别是(1)残差结构、询问向量生成模块；(2)残差结构、关键向量生成模块；(3)残差结构、值矩阵生成模块；残差结构的输出同时是询问向量生成模块、关键向量生成模块和值矩阵生成模块的输入；因此数据经过视觉特征提取模块会有三个输出，对应的分别是询问向量、关键向量和值矩阵，由此可得三组视觉特征提取模块一共输出了三个询问向量，三个关键向量和三个值矩阵。4.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法，其特征在于，所述的自注意力特征融合机制为：F＝Softmax(QK)V
式中Q是三组视觉特征提取模块输出...

【专利技术属性】
技术研发人员：于乃功，柏德国，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人