基于视觉Transformer和卷积网络相融合的人脸表情识别方法技术

技术编号:37244166 阅读:20 留言:0更新日期:2023-04-20 23:24
本发明专利技术属于计算机视觉的图像分类领域,具体涉及一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法,该方法具有如下特征,包括以下步骤:步骤1,将待训练图像进行预处理获得预处理图像;步骤2,将预处理图像输入到基于视觉Transformer和卷积网络相融合的模型进行训练,进而得到模型的权重文件,该模型包括卷积模块、编码器以及注意力机制,所述卷积层包括对图片特征的位置信息进行关联;所述编码器包多个残差模块,所述残差模块是将编码器的输入与编码器最后输出作为编码器最后的输出结果,编码器当中由多个残差模块组成,并将这些输出作为融合注意力的输入;所述融合注意力机制将池化层中的输出作为注意力机制模块的输入,将输入的特征图使用自适应的注意力机制找出特征中不同的权重响应,最后输入到视觉Transformer当中进行训练;步骤3,加载模型权重文件,将测试的人脸表情图片输入到模型中得出表情预测结果。此外,本发明专利技术的人脸表情识别割模型对各个类别之间的特征更好的分离开,提高了表情识别模型预测的精度。提高了表情识别模型预测的精度。提高了表情识别模型预测的精度。

【技术实现步骤摘要】
基于视觉Transformer和卷积网络相融合的人脸表情识别方法


[0001]本专利技术属于计算机视觉的图像分类领域,具体涉及一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法。

技术介绍

[0002]伴随着计算机技术的日益发展,越来越多的技术面向并应用于社会,国家正朝着信息化时代的步伐前进,信息化推动着技术的发展。人工智能正是该时代下的产物,人工智能已经开始全面浸透到人们的日常生活当中,通过人工智能带来的各种便利,使得人们能够在某些领域里让计算机代替人类操作,降低人们的时间成本,能够更加高效地处理事务,例如人脸识别技术让社会更加信息化,人们再也不会有随时随地需要带着身份证随行的烦恼。再者现如今最为火热的自动驾驶领域,让人们对驾驶的概念有更深层次的思考,虽然该技术还有许多的不足和需要改进的地方,但该技术的应用代表着计算机视觉从理论层面转入现实生活,正是该技术应用到实际场景,催生出越来越多的计算机视觉技术的现实落地。
[0003]人脸面部表情在人们日常的生活当中起到主导作用,相比于文字或者动作表达,表情能够更加直接且有效本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法,其特征在于,包括以下步骤:获取人脸表情图片输入样本和对应的表情类别标签;根据所述人脸表情图片进行人脸检测和人脸对齐;建立视觉Transformer和卷积网络相融合的网络模型,将所述的人脸表情图片送入模型中提取人脸表情特征,得到图片的表情特征;计算输入进网络模型当中的各个类别图片在所有图片当中的数量占比;将表情特征送入分类器进行分类,输出分类结果根据每个表情类别在整个数据集当中所占的比例计算对应的损失值。2.根据权利要求1所述的一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法,其特征在于,所述人脸表情图片样本和对应的类别标签,具体包括:获取人脸表情图片当中的人脸位置,对人脸表情图片当中的人脸进行人脸检测,以获取到人脸在图片当中的具体位置。将上述所得到的人脸位置放置经过映射,得到人脸对齐后的人脸表情图片。3.根据权利要求1所述的一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法,其特征在于,所述建立视觉Transformer和卷积网络相融合的网络模型,将人脸表情图片输入模型当中进行训练,进而得到图片特征具体包括如下:创建视觉Transformer和卷积网络相结合的模块,共创建4个上述的模块,并对模型内部的优化器、学习率、卷积核等参数进行初始化;将表情图片输入到视觉Transformer和卷积网络相结合的网络模型当中,根据最后一层视觉Transformer所输出的一维特征序列,将一维特征序列作为最后的特征序列。4.根据权利要求1所述的一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法,其特征在于视觉Transformer当中新增自注意力机制,即CBAM模块,计算公式如下:公式如下:其中F是输入的特征图,M
c
(
·
)是通道注意函数,是特征图之间对应元素位置相乘,M
s
(
·
)是空间注意力函数,F

是CBAM模块最后的输出,该输出是结合通道注意力与空间注意力的特征图;通道注意力计算公式如下:M
c
(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))),其中AvgPool(
·
)是将图片进行平均池化,MaxPool(
·
)是将图片进行最大池化,MLP(
·
)是对输入的特征图进行全连接操作,σ(
·
)是sigmoid函数;空间注意力计算公式如下:M
s
(F)=σ(f([AvgPool(F);MaxPool(F)])),其中f(
·
)是对特征图进行卷积操作,[AvgPool(
·
);MaxPool(
·
)]是将最大池化...

【专利技术属性】
技术研发人员:米建勋刘毅邹立志
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1