一种基于图像块位置感知Transformer的表情识别方法及系统技术方案

技术编号：41259955 阅读：1 留言：0更新日期：2024-05-11 09:18

本发明专利技术公开了一种基于图像块位置感知Transformer的表情识别方法及系统，该方法包括以下步骤：构建一个基于图像块位置感知Transformer的表情识别模型，该模型由图像预处理单元、初始特征提取单元、特征块位置选定单元、视觉Transformer单元和分类器构成；使用人脸表情图像库中的样本对表情识别模型进行训练；将待测试的人脸图像输入到训练好的表情识别模型进行表情识别。本发明专利技术以迭代渐进的不固定间隔来选定特征块的位置，排除对表情识别有干扰的特征块，强化对表情识别起关键作用的特征块，从而使得表情识别模型能够提取更具鉴别力的表情特征，增强模型对面部被遮挡、头部姿态变化、光照不均匀的鲁棒性，有效提升表情识别的准确率和泛化性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于图像块位置感知transformer的表情识别方法及系统，属于表情识别及人工智能。

技术介绍

1、面部表情是人类在日常生活中交流情感的重要方式，通过分析人的面部表情可以推测人的内心情感状态。近年来，随着人工智能技术的发展，人们对机器的“智能”也提出了更高的要求。赋予机器情感认知，能让机器更智能友好地服务于人，如人机互交中实现更人性化的互动，医疗诊断中辅助判断病人状态，娱乐游戏中提升玩家体验等。自动人脸表情识别作为情感计算的一个研究分支，是实现人机交互的基础，已成为计算机视觉领域的研究热点。人脸表情识别技术在社交机器人、教育、医疗诊断、疲劳驾驶监测等人机交互领域有着广阔的商业应用前景。

2、现有的人脸表情识别模型在受控的实验室环境下取得了良好的性能。然而，在非受控的真实世界环境下，由于存在面部被遮挡、头部姿态变化以及人物个体差异等干扰因素，使得现有的表情识别模型的性能急剧下降，给人脸表情识别带来了巨大挑战。如何提高人脸表情识别模型的准确率、鲁棒性和泛化性能是亟待解决的关键问题。

3、生活中，人们只需通过观察部分面部即可以判定他人表情或情绪。关注人脸局部特征有助于解决自然场景下的人脸遮挡、姿态变化等问题。诸多研究者通过引入注意力机制使模型更关注人脸图像中与表情密切相关的区域，抑制与表情无关的面部区域。

4、卷积神经网络(cnn)具有平移不变性和局部敏感性等归纳偏置能力，可以很好地捕捉图像细粒度特征和局部信息，在图像分类、表情识别领域表现出良好的性能。然而，cnn感受野有限，仅

技术实现思路

1、本专利技术目的在于针对上述现有技术的缺陷和不足，提出了一种基于图像块位置感知transformer的表情识别方法，通过以迭代渐进的不固定间隔来选定特征块的中心位置，通过位置感知的视觉transformer来提取人脸图像中未被遮挡的重要区域的更具鉴别力的表情特征，以增强模型对面部被遮挡、头部姿态变化、光照不均匀的鲁棒性，有效提升表情识别的准确率和泛化性能。

2、本专利技术为解决其技术问题所采用的技术方案是：一种基于图像块位置感知transformer的表情识别方法，该方法包括如下步骤：

3、步骤1：构建一个基于图像块位置感知transformer的表情识别模型；

4、步骤2：使用人脸表情图像库中的样本对构建的表情识别模型进行训练，通过误差反向传播算法调整表情识别模型的参数至最优；

5、步骤3：将待测试的人脸图像输入到训练好的表情识别模型进行表情识别。

6、进一步地，所述步骤1包括特征块位置选定单元以迭代渐进的不固定间隔来选定特征块的中心位置坐标，具体步骤如下：

7、步骤1-1：对于第1次迭代，与采用常规的视觉transformer模型一样，将特征图f划分成互不重叠的n×n个特征块，其中第i个特征块的中心位置坐标为：

8、

9、其中，i表示特征块的序号索引，i＝0，1，2，…，n×n-1，ix和iy分别表示第i个特征块的行索引和列索引，表示向下取整操作，ix＝i-iy*n，sw＝w/n，sh＝h/n，w和h分别表示特征图的宽度和高度；所有n×n个特征块的中心位置坐标序列为

10、步骤1-2：对于第1次迭代，设第i个特征块对应的token为所有n×n个特征块对应的token序列为将n×n个特征块的中心位置坐标序列映射到一个嵌入空间，得到位置编码矩阵将p1与token序列t′1逐元素相加后输入transformer编码器，得到第1次迭代后输出的token序列其表达式为：

11、p1＝w1p1

12、

13、t1＝transformer(x1)

14、其中，是将特征块的中心位置坐标序列p1映射为位置编码矩阵p1的线性变换矩阵，表示逐元素相加，transformer(·)表示基于多头自注意力的transformer编码器；

15、步骤1-3：对于第1次迭代，将t1通过全连接层进行线性映射得到预测的坐标偏移量序列其表达式为：

16、o1＝m1t1

17、其中，是可训练学习的线性变换矩阵；

18、步骤1-4：对于第t次迭代，t＝2，3，…，n，n×n个特征块的中心位置坐标序列pt由第t-1次迭代时的中心位置坐标序列pt-1和第t-1次迭代时预测的坐标偏移量序列ot-1相加得到，其表达式为：

19、pt＝pt-1+ot-1

20、步骤1-5：对于第t次迭代，t＝2，3，…，n，设第i个特征块对应的token为所有n×n个特征块对应的token序列为将n×n个特征块的中心位置坐标序列映射到一个嵌入空间，得到位置编码矩阵将pt与token序列t′t和tt-1逐元素相加后输入transformer编码器，得到第t次迭代后输出的token序列其表达式为：

21、pt＝wtpt

22、

23、tt＝transformer(xt)

24、其中，是将特征块的中心位置坐标序列pt映射为位置编码矩阵pt的线性变换矩阵，表示逐元素相加，transformer(·)表示基于多头自注意力的transformer编码器；

25、步骤1-6：对于第t次迭代，t＝2，3，…，n，将tt通过全连接层进行线性映射得到预测的坐标偏移量序列其表达式为：

26、ot＝mttt

27、其中，是可训练学习的线性变换矩阵。

28、本专利技术还提供了一种基于图像本文档来自技高网...

【技术保护点】

1.一种基于图像块位置感知Transformer的表情识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于图像块位置感知Transformer的表情识别方法，其特征在于，所述步骤1包括特征块位置选定单元以迭代渐进的不固定间隔来选定特征块的中心位置坐标，具体步骤如下：

3.一种基于图像块位置感知Transformer的表情识别系统，其特征在于，包括：

4.根据权利要求3所述的一种基于图像块位置感知Transformer的表情识别系统，其特征在于，所述初始特征提取单元输出的特征图为其中W、H和C分别代表特征图的宽度、高度和通道维数。

5.根据权利要求3所述的一种基于图像块位置感知Transformer的表情识别系统，其特征在于，所述特征块位置选定单元的迭代次数为N，N的值是介于4至10的整数；在每次迭代中，特征图F被划分成n×n个特征块，n的值在2、4、8中选取。

6.根据权利要求3所述的一种基于图像块位置感知Transformer的表情识别系统，其特征在于，所述视觉Transformer单元中L的值是介于

7.根据权利要求3所述的一种基于图像块位置感知Transformer的表情识别系统，其特征在于，所述该系统包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现根据权利要求1-2任一项所述的一种基于图像块位置感知Transformer的表情识别方法。

...

【技术特征摘要】

1.一种基于图像块位置感知transformer的表情识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于图像块位置感知transformer的表情识别方法，其特征在于，所述步骤1包括特征块位置选定单元以迭代渐进的不固定间隔来选定特征块的中心位置坐标，具体步骤如下：

3.一种基于图像块位置感知transformer的表情识别系统，其特征在于，包括：

4.根据权利要求3所述的一种基于图像块位置感知transformer的表情识别系统，其特征在于，所述初始特征提取单元输出的特征图为其中w、h和c分别代表特征图的宽度、高度和通道维数。

5.根据权利要求3所述的一种基于图像块位置感知transformer的表情识别系统，其特征在于，所述特征块位置选定单元的迭代次数为n，n的值是介于4至10的整数；在每次迭代中，特征图f被划分成n×n个特征块，n的值在2、4、8中选取。

6....

【专利技术属性】
技术研发人员：卢峻禾，卢官明，倪晓军，杨海根，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人