基于有监督对比学习的网格自注意力人脸表情识别方法技术

技术编号：40053345 阅读：6 留言：0更新日期：2024-01-16 21:33

本发明专利技术涉及基于有监督对比学习的网格自注意力人脸表情识别方法，创建包含多类别的人脸表情图像数据集，构建具有多层级注意力网络的特征提取模型，包括：网格自注意力模块和高级特征编码模块；构建基于有监督对比学习的混合损失函数约束构建的特征提取模型学习到更具有判别力的表示；将训练集中的图像输入具有多层级注意力网络的特征提取模型中进行训练，根据输入图像对应的标签类别数据和构建基于有监督对比学习的损失函数，判断具有多层级注意力网络的特征提取模型的有效性，得到训练好的具有多层级注意力网络的特征提取模型；将测试集中的图像输入至训练好的具有多层级注意力网络的特征提取模型中进行人脸表情的识别，得到表情识别后结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于有监督对比学习的网格自注意力人脸表情识别方法，属于计算机视觉，特别是人脸表情识别技术。

技术介绍

1、在表情识别任务中，表情特征提取是关键步骤之一。传统人脸表情识别算法一般都是通过人工方式来选择并提取人脸表情特征，受某些人为因素的干扰，从而使得训练得到的模型无法对表情信息进行良好的诠释，模型泛化能力不强，识别准确率不高。大数据时代，计算资源快速发展与升级，使深度学习取得了突破性的进展，卷积神经网络在人脸表情识别任务上表现出了一定的优越性，但是仍然受高质量样本有限的制约，同时复杂的背景环境和不均匀的光线等也会产生影响，使得模型训练易产生过拟合，难以提取有效表情特征，最终模型的准确率和鲁棒性需要进一步提升，具体为：

2、(1)人脸表情数据类别不均衡和数据不足问题。由于人更容易出现开心或者惊讶等表情而不是其他类别表情，大部分人脸表情数据集中存在表情类别不均衡的问题，即开心或惊讶等常见表情的样本数量会远多于厌恶等其他表情类别。进而导致所训练的模型更加偏向于常见的表情类型，对于罕见的表情无法识别准确。

3、(2)深度dcnn模型过拟合问题。为了保证模型能够模拟复杂的人脸表情特征，网络通常需要具有很深的层次结构。然而，对dcnn模型的网络结构加深或扩展，会导致模型结构复杂，容易引发模型过拟合。数据不足可能进一步导致深度表情识别模型训练过拟合问题。

4、(3)人脸表情特征提取困难问题。基于dcnn的表情识别模型的关键在于从人脸图像中发现和学习到具有判别性作用的关键特征，然后进行类别匹配

5、(4)人脸表情特征权重关注不足。在使用dcnn进行表情识别时，各个特征通道和空间信息权重是固定的，无法自适应地进行调整，从而导致一些重要的通道或者空间特征被忽略，而一些不重要的特征通道对表情识别起到负面作用。为了结合表情图像的全局和局部细节，在cnn直接使用大的卷积核来充分捕捉数据中的关键信息会导致模型需要学习和更新大量的网络参数，导致更长的模型学习时间。

6、现有的人脸表情识别方法主要采用深度学习模型对人脸图像进行特征提取和分类。然而，由于人脸表情具有多样性和变化性，传统的深度学习模型往往难以准确地识别不同的表情。

技术实现思路

1、本专利技术技术解决问题：克服现有技术的不足，提供一种基于有监督对比学习的网格自注意力人脸表情识别方法，精准地识别人脸的不同表情，提升表情识别的性能。

2、本专利技术技术解决方案：

3、第一方面，本专利技术提供一种基于有监督对比学习的网格自注意力人脸表情识别方法，其特点在于：采用一种有监督对比学习的方法建立具有多层级自注意力网络的特征提取模型，具体包括以下步骤：

4、步骤1：创新一个包含多类别的人脸表情图像数据集，数据集包括人脸表情图像及对应的标签类别数据，将所有人脸表情图像作为训练样本进行预处理，裁剪成为大小相同的图像，并剔除非人脸表情图像和错误标签类别数据；将预处理后的人脸表情图像按照比例分为训练集、验证集和测试集，对训练集中的人脸表情图像即数据进行逐一数据增强，从而得到最终训练集；

5、步骤2：构建一种具有多层级注意力网络的特征提取模型，所述具有多层级注意力网络的特征提取模型包括：网格自注意力模块和高级特征编码模块；

6、所述网格自注意力模块，按照网格的方式对不同空间位置的人脸表情图像进行注意力计算，得到网格注意力特征图，从而完成人脸表情图像中的低级特征的提取；

7、所述高级特征编码模块根据网格注意力特征图，提取人脸表情图像的高级特征即语义特征，再对语义特征进行分类，从而完成对人脸表情图像的分类；

8、步骤3：构建一种基于有监督对比学习的混合损失函数，约束步骤2中所构建的特征提取模型学习到更具有判别力的表示，从而提高任务性能；

9、步骤4：将步骤1所得训练集图像数据输入到步骤2所构建的具有多层级注意力网络的特征提取模型中进行训练，根据所输入图像数据的标签类别数据和步骤3所构建基于有监督对比学习的损失函数判断具有多层级注意力网络的特征提取模型的有效性，采用验证集最优准确率评测结果选择训练参数，得到训练好的具有多层级注意力网络的特征提取模型；

10、步骤5：将步骤1测试集中的人脸表情图像输入到训练好的具有多层级注意力网络的特征提取模型中，进行人脸表情的识别，验证所训练模型表情识别结果的准确性。

11、可选地，所述步骤3中，基于有监督对比学习的混合损失函数l包括基于数据增强的多分类交叉熵损失数lcls和有监督对比学习损失数lsup，如下式所示：

12、l＝λ*lcls+(1-λ)*lsup

13、所述基于数据增强的多分类交叉熵损失函数lcls为其中λ表示基于数据增强的多分类交叉熵损失函数lcls在基于有监督对比学习的混合损失函数l中的权重，λ(范围0.05-1)根据训练样本进行选择，需要多次试验确定。m表示基本数据增强策略的种类，表示对训练样本标签类别的预测值，表示正则化后的特征输出，n表示从训练集中抽取的训练样本数量。

14、所述有监督对比学习损失函数lsup为：

15、

16、其中，i表示任意训练样本，e表示所有训练样本的集合，p(i)表示训练样本i的正样本集合，p表示与i互为正样本对的任意样本，log表示对数函数，exp表示指数函数，zi，zp和za表示训练样本i，p，a经过多层级注意力网络的特征提取模型的特征输出，τ表示有监督对比学习损失函数lsup的温度系数(范围0.5-20)，τ根据训练样本进行选择，需要多次试验确定。；a(i)表示训练样本的负样本集合。

17、可选地，所述步骤1中，对训练集中的图像进行逐一数据增强的方法实现如下：

18、(1)将训练集中的图像裁剪为统一大小，进行灰度化，然后按顺序进行随机裁剪、随机颜色抖动、仿射变换、水平翻转和随机旋转基本数据增强操作；

19、(2)对经过步骤(1)中基本数据增强后的图像进行多倍裁剪，将处理的后的图像进行one-hot(独热)编码并随机添加噪音，得到编码后的图像；

20、(3)对编码后的图像照一定比例(融合比例系数小于0.15)进行随机融合，同时输入图像的标签类别数据对应的向量进行所述一定比例处理，得到最终图像。

21、可选地，所述步骤2中，所述网格自注意力模块中，按照网格的方式对不同空间位置的人脸表情图像进行注意力计算的过程包括三个部分：低级特征提取、网格注意力计算和残差特征融合，具体为：

22、(1)低级特征提取：将输入图像i通过卷积计算进行分割，描述为函数g，得到分割后网格图像：

23、

24、其中i，j表示分割本文档来自技高网...

【技术保护点】

1.一种基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述步骤3中，基于有监督对比学习的混合损失函数L包括：基于数据增强的多分类交叉熵损失数Lcls和有监督对比学习损失数Lsup，即：

3.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述步骤1中，对训练集中的图像进行逐一数据增强的方法，实现如下：

4.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述步骤2，网格自注意力模块中，按照网格的方式对不同空间位置的人脸表情图像进行注意力计算的过程包括三个部分：低级特征提取、网格注意力计算和残差特征融合，具体为：

5.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述高级特征编码模块根据网格注意力特征图，提取人脸表情图像的高级特征即语义特征，再对语义特征进行分类，从而完成对图像的分类的过程如下：

6.一种

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序执行时实现权利要求1-5中任意之一所述的方法。

...

【技术特征摘要】

1.一种基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述步骤3中，基于有监督对比学习的混合损失函数l包括：基于数据增强的多分类交叉熵损失数lcls和有监督对比学习损失数lsup，即：

4.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述步骤2，...

【专利技术属性】
技术研发人员：蔡苏，刘紫凤，张钰华，周海涛，
申请(专利权)人：北京师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人