【技术实现步骤摘要】
基于视觉Transformer和卷积网络相融合的人脸表情识别方法
[0001]本专利技术属于计算机视觉的图像分类领域,具体涉及一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法。
技术介绍
[0002]伴随着计算机技术的日益发展,越来越多的技术面向并应用于社会,国家正朝着信息化时代的步伐前进,信息化推动着技术的发展。人工智能正是该时代下的产物,人工智能已经开始全面浸透到人们的日常生活当中,通过人工智能带来的各种便利,使得人们能够在某些领域里让计算机代替人类操作,降低人们的时间成本,能够更加高效地处理事务,例如人脸识别技术让社会更加信息化,人们再也不会有随时随地需要带着身份证随行的烦恼。再者现如今最为火热的自动驾驶领域,让人们对驾驶的概念有更深层次的思考,虽然该技术还有许多的不足和需要改进的地方,但该技术的应用代表着计算机视觉从理论层面转入现实生活,正是该技术应用到实际场景,催生出越来越多的计算机视觉技术的现实落地。
[0003]人脸面部表情在人们日常的生活当中起到主导作用,相比于文字或者动作表达,表 ...
【技术保护点】
【技术特征摘要】
1.一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法,其特征在于,包括以下步骤:获取人脸表情图片输入样本和对应的表情类别标签;根据所述人脸表情图片进行人脸检测和人脸对齐;建立视觉Transformer和卷积网络相融合的网络模型,将所述的人脸表情图片送入模型中提取人脸表情特征,得到图片的表情特征;计算输入进网络模型当中的各个类别图片在所有图片当中的数量占比;将表情特征送入分类器进行分类,输出分类结果根据每个表情类别在整个数据集当中所占的比例计算对应的损失值。2.根据权利要求1所述的一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法,其特征在于,所述人脸表情图片样本和对应的类别标签,具体包括:获取人脸表情图片当中的人脸位置,对人脸表情图片当中的人脸进行人脸检测,以获取到人脸在图片当中的具体位置。将上述所得到的人脸位置放置经过映射,得到人脸对齐后的人脸表情图片。3.根据权利要求1所述的一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法,其特征在于,所述建立视觉Transformer和卷积网络相融合的网络模型,将人脸表情图片输入模型当中进行训练,进而得到图片特征具体包括如下:创建视觉Transformer和卷积网络相结合的模块,共创建4个上述的模块,并对模型内部的优化器、学习率、卷积核等参数进行初始化;将表情图片输入到视觉Transformer和卷积网络相结合的网络模型当中,根据最后一层视觉Transformer所输出的一维特征序列,将一维特征序列作为最后的特征序列。4.根据权利要求1所述的一种基于视觉Transformer和卷积网络相融合的人脸表情识别方法,其特征在于视觉Transformer当中新增自注意力机制,即CBAM模块,计算公式如下:公式如下:其中F是输入的特征图,M
c
(
·
)是通道注意函数,是特征图之间对应元素位置相乘,M
s
(
·
)是空间注意力函数,F
″
是CBAM模块最后的输出,该输出是结合通道注意力与空间注意力的特征图;通道注意力计算公式如下:M
c
(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))),其中AvgPool(
·
)是将图片进行平均池化,MaxPool(
·
)是将图片进行最大池化,MLP(
·
)是对输入的特征图进行全连接操作,σ(
·
)是sigmoid函数;空间注意力计算公式如下:M
s
(F)=σ(f([AvgPool(F);MaxPool(F)])),其中f(
·
)是对特征图进行卷积操作,[AvgPool(
·
);MaxPool(
·
)]是将最大池化...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。