System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于图像块位置感知Transformer的表情识别方法及系统技术方案_技高网

一种基于图像块位置感知Transformer的表情识别方法及系统技术方案

技术编号:41259955 阅读:1 留言:0更新日期:2024-05-11 09:18
本发明专利技术公开了一种基于图像块位置感知Transformer的表情识别方法及系统,该方法包括以下步骤:构建一个基于图像块位置感知Transformer的表情识别模型,该模型由图像预处理单元、初始特征提取单元、特征块位置选定单元、视觉Transformer单元和分类器构成;使用人脸表情图像库中的样本对表情识别模型进行训练;将待测试的人脸图像输入到训练好的表情识别模型进行表情识别。本发明专利技术以迭代渐进的不固定间隔来选定特征块的位置,排除对表情识别有干扰的特征块,强化对表情识别起关键作用的特征块,从而使得表情识别模型能够提取更具鉴别力的表情特征,增强模型对面部被遮挡、头部姿态变化、光照不均匀的鲁棒性,有效提升表情识别的准确率和泛化性能。

【技术实现步骤摘要】

本专利技术涉及一种基于图像块位置感知transformer的表情识别方法及系统,属于表情识别及人工智能。


技术介绍

1、面部表情是人类在日常生活中交流情感的重要方式,通过分析人的面部表情可以推测人的内心情感状态。近年来,随着人工智能技术的发展,人们对机器的“智能”也提出了更高的要求。赋予机器情感认知,能让机器更智能友好地服务于人,如人机互交中实现更人性化的互动,医疗诊断中辅助判断病人状态,娱乐游戏中提升玩家体验等。自动人脸表情识别作为情感计算的一个研究分支,是实现人机交互的基础,已成为计算机视觉领域的研究热点。人脸表情识别技术在社交机器人、教育、医疗诊断、疲劳驾驶监测等人机交互领域有着广阔的商业应用前景。

2、现有的人脸表情识别模型在受控的实验室环境下取得了良好的性能。然而,在非受控的真实世界环境下,由于存在面部被遮挡、头部姿态变化以及人物个体差异等干扰因素,使得现有的表情识别模型的性能急剧下降,给人脸表情识别带来了巨大挑战。如何提高人脸表情识别模型的准确率、鲁棒性和泛化性能是亟待解决的关键问题。

3、生活中,人们只需通过观察部分面部即可以判定他人表情或情绪。关注人脸局部特征有助于解决自然场景下的人脸遮挡、姿态变化等问题。诸多研究者通过引入注意力机制使模型更关注人脸图像中与表情密切相关的区域,抑制与表情无关的面部区域。

4、卷积神经网络(cnn)具有平移不变性和局部敏感性等归纳偏置能力,可以很好地捕捉图像细粒度特征和局部信息,在图像分类、表情识别领域表现出良好的性能。然而,cnn感受野有限,仅关注小范围内的局部特征,不具备获取全局特征的能力,且网络权重固定,无法动态适应输入的变化。2017年,google研究团队基于自注意力机制提出了transformer架构,随后在自然语言处理(nlp)领域的序列建模和机器翻译等任务上显示出了巨大优势。transformer凭借自注意力机制可以从长序列数据中学习到丰富的特征,并捕获数据之间的长距离特征依赖关系,解决了cnn感受野有限的问题。受nlp领域中transformer的启发,有研究者将transformer直接应用到视觉领域,提出了视觉transformer(vit)模型。vit模型首先将输入图像切分为互不重叠、固定位置和大小的图块(patches),并将其重新排列展平成一维向量,然后对其进行线性映射后加入位置编码,输入到多个级联的标准transformer编码器进行注意力计算和特征提取。这样,在进行自注意力计算时,模型就能够区分不同位置的图块信息,并更好地理解序列中的上下文关系。此外,为了实现分类任务,在图块的嵌入序列中添加一个额外的可学习的类别token。vit模型可以很好地学习图像中不同位置图块之间的特征依赖关系,但是vit将输入图像简单地切分为互不重叠、固定位置和大小的图块(patches),破坏了图像内部固有的结构信息,特别是图块的边缘信息,也没有考虑人脸被遮挡、头部姿态变化等干扰因素对表情识别模型的影响。


技术实现思路

1、本专利技术目的在于针对上述现有技术的缺陷和不足,提出了一种基于图像块位置感知transformer的表情识别方法,通过以迭代渐进的不固定间隔来选定特征块的中心位置,通过位置感知的视觉transformer来提取人脸图像中未被遮挡的重要区域的更具鉴别力的表情特征,以增强模型对面部被遮挡、头部姿态变化、光照不均匀的鲁棒性,有效提升表情识别的准确率和泛化性能。

2、本专利技术为解决其技术问题所采用的技术方案是:一种基于图像块位置感知transformer的表情识别方法,该方法包括如下步骤:

3、步骤1:构建一个基于图像块位置感知transformer的表情识别模型;

4、步骤2:使用人脸表情图像库中的样本对构建的表情识别模型进行训练,通过误差反向传播算法调整表情识别模型的参数至最优;

5、步骤3:将待测试的人脸图像输入到训练好的表情识别模型进行表情识别。

6、进一步地,所述步骤1包括特征块位置选定单元以迭代渐进的不固定间隔来选定特征块的中心位置坐标,具体步骤如下:

7、步骤1-1:对于第1次迭代,与采用常规的视觉transformer模型一样,将特征图f划分成互不重叠的n×n个特征块,其中第i个特征块的中心位置坐标为:

8、

9、其中,i表示特征块的序号索引,i=0,1,2,…,n×n-1,ix和iy分别表示第i个特征块的行索引和列索引,表示向下取整操作,ix=i-iy*n,sw=w/n,sh=h/n,w和h分别表示特征图的宽度和高度;所有n×n个特征块的中心位置坐标序列为

10、步骤1-2:对于第1次迭代,设第i个特征块对应的token为所有n×n个特征块对应的token序列为将n×n个特征块的中心位置坐标序列映射到一个嵌入空间,得到位置编码矩阵将p1与token序列t′1逐元素相加后输入transformer编码器,得到第1次迭代后输出的token序列其表达式为:

11、p1=w1p1

12、

13、t1=transformer(x1)

14、其中,是将特征块的中心位置坐标序列p1映射为位置编码矩阵p1的线性变换矩阵,表示逐元素相加,transformer(·)表示基于多头自注意力的transformer编码器;

15、步骤1-3:对于第1次迭代,将t1通过全连接层进行线性映射得到预测的坐标偏移量序列其表达式为:

16、o1=m1t1

17、其中,是可训练学习的线性变换矩阵;

18、步骤1-4:对于第t次迭代,t=2,3,…,n,n×n个特征块的中心位置坐标序列pt由第t-1次迭代时的中心位置坐标序列pt-1和第t-1次迭代时预测的坐标偏移量序列ot-1相加得到,其表达式为:

19、pt=pt-1+ot-1

20、步骤1-5:对于第t次迭代,t=2,3,…,n,设第i个特征块对应的token为所有n×n个特征块对应的token序列为将n×n个特征块的中心位置坐标序列映射到一个嵌入空间,得到位置编码矩阵将pt与token序列t′t和tt-1逐元素相加后输入transformer编码器,得到第t次迭代后输出的token序列其表达式为:

21、pt=wtpt

22、

23、tt=transformer(xt)

24、其中,是将特征块的中心位置坐标序列pt映射为位置编码矩阵pt的线性变换矩阵,表示逐元素相加,transformer(·)表示基于多头自注意力的transformer编码器;

25、步骤1-6:对于第t次迭代,t=2,3,…,n,将tt通过全连接层进行线性映射得到预测的坐标偏移量序列其表达式为:

26、ot=mttt

27、其中,是可训练学习的线性变换矩阵。

28、本专利技术还提供了一种基于图像本文档来自技高网...

【技术保护点】

1.一种基于图像块位置感知Transformer的表情识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于图像块位置感知Transformer的表情识别方法,其特征在于,所述步骤1包括特征块位置选定单元以迭代渐进的不固定间隔来选定特征块的中心位置坐标,具体步骤如下:

3.一种基于图像块位置感知Transformer的表情识别系统,其特征在于,包括:

4.根据权利要求3所述的一种基于图像块位置感知Transformer的表情识别系统,其特征在于,所述初始特征提取单元输出的特征图为其中W、H和C分别代表特征图的宽度、高度和通道维数。

5.根据权利要求3所述的一种基于图像块位置感知Transformer的表情识别系统,其特征在于,所述特征块位置选定单元的迭代次数为N,N的值是介于4至10的整数;在每次迭代中,特征图F被划分成n×n个特征块,n的值在2、4、8中选取。

6.根据权利要求3所述的一种基于图像块位置感知Transformer的表情识别系统,其特征在于,所述视觉Transformer单元中L的值是介于4至6的整数,设在经过N次迭代后n×n个特征块对应的token序列为其中,C为特征维数,在token序列TN上拼接一个可训练学习的类别token向量得到拼接后的token序列T=[Tcls,TN],将T输入到视觉Transformer单元进行特征提取,经过L个Transformer编码器后输出token序列从中取出经过训练学习后的类别token向量作为分类器的输入。

7.根据权利要求3所述的一种基于图像块位置感知Transformer的表情识别系统,其特征在于,所述该系统包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据权利要求1-2任一项所述的一种基于图像块位置感知Transformer的表情识别方法。

...

【技术特征摘要】

1.一种基于图像块位置感知transformer的表情识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于图像块位置感知transformer的表情识别方法,其特征在于,所述步骤1包括特征块位置选定单元以迭代渐进的不固定间隔来选定特征块的中心位置坐标,具体步骤如下:

3.一种基于图像块位置感知transformer的表情识别系统,其特征在于,包括:

4.根据权利要求3所述的一种基于图像块位置感知transformer的表情识别系统,其特征在于,所述初始特征提取单元输出的特征图为其中w、h和c分别代表特征图的宽度、高度和通道维数。

5.根据权利要求3所述的一种基于图像块位置感知transformer的表情识别系统,其特征在于,所述特征块位置选定单元的迭代次数为n,n的值是介于4至10的整数;在每次迭代中,特征图f被划分成n×n个特征块,n的值在2、4、8中选取。

6....

【专利技术属性】
技术研发人员:卢峻禾卢官明倪晓军杨海根
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1