一种基于长短期时序感知的视频人脸表情识别方法及系统技术方案

技术编号：40054095 阅读：4 留言：0更新日期：2024-01-16 21:39

本发明专利技术涉及图像处理与计算机视觉技术领域，特别涉及一种基于长短期时序感知的视频人脸表情识别方法及系统，包括：S1，在通道和空间维度上设计通道空间特征增强的深度卷积神经网络，通过分别显式建模卷积网络特征通道和空间之间的相互依赖关系，获得增强的卷积网络特征；S2，在时间维度上设计长短期时序感知的自注意力变换网络，通过编码视频人脸各帧之间的相互依赖关系，获得长短期时序感知的人脸表情特征。使用结合了短期和长期两种时序信息的神经网络进行人脸表情识别的方法进一步提高识别结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理与计算机视觉，特别涉及一种基于长短期时序感知的视频人脸表情识别方法及系统。

技术介绍

1、面部表情是人类表达自我情绪的一种最自然、最直接的方式，因此弄清人类情绪状态是许多计算机视觉任务的基本前提，这些任务包括人机交互、驾驶员疲劳监测和医疗保健等等。虽然视频人脸表情识别方法因深度学习的兴起已取得较大进展，但目前基于深度学习的视频人脸表情识别方法主要是基于三维卷积网络、循环神经网络、自注意力变换网络来进行的。

2、然而，现有的视频人脸表情识别模型在时序建模上没有同时考虑到人脸视频序列中帧与帧之间的短期和长期时序的重要性，从而导致模型提取到的时序特征不够全面。另外，考虑到在开放环境下，人脸表情通常伴随着光照变化、遮挡等干扰因素，因此还需要设计模块对每帧人脸表情提取更为鲁棒的深度网络特征，从而进一步提高识别结果的准确性。

技术实现思路

1、本专利技术的目的在于克服现有技术中所存在的视频人脸表情识别模型提取到的时序特征不够全面，导致识别的准确性不高的问题，提供一种基于长短期时序感知的视频人脸表情识别方法及系统，其设计了通道空间特征增强模块并结合了短期和长期两种时序信息来对人脸视频序列进行处理，从而获得增强的卷积网络特征和长短期时序感知的人脸表情特征，提高了识别的准确性。

2、为了实现上述专利技术目的，本专利技术提供了以下技术方案：

3、s1，在通道和空间维度上设计通道空间特征增强的深度卷积神经网络，通过分别显式建模卷积网络特征通道和空

4、s2，在时间维度上设计长短期时序感知的自注意力变换网络，通过编码视频人脸各帧之间的相互依赖关系，获得长短期时序感知的人脸表情特征。

5、具体的，所述s1中的通道空间特征增强的深度卷积神经网络包括一个卷积头，m个深度残差网络块和一个全局平均池化层；其中，所述卷积头主要包括一个卷积层和一个最大池化层，每一个所述深度残差网络块包括一个通道空间特征增强模块和两个卷积层。

6、进一步的，所述s1中的通道空间特征增强的深度卷积神经网络的设计步骤包括：

7、s11：输入一段人脸视频，首先将该视频分成u个片段，然后从每个片段中随机采样v帧，最后将采样得到的t＝u×v帧视频序列输入到人脸检测器中检测并裁剪人脸区域，从而得到t帧人脸序列x；

8、s12：输入t帧人脸序列x至所述深度卷积神经网络的卷积头，提取初步的特征图，包括：

9、x′＝maxpool(relu(batchnorm(conv(x)))) (1)

10、其中，x′为所述深度卷积神经网络的卷积头输出的特征图；conv为从人脸序列中提取特征的卷积层；batchnorm为批归一化；relu为线性修正单元激活函数；maxpool为最大池化层；

11、s13：所述网络包含m个深度残差网络块，第l-1个残差块的输出xl-1(当l＝1时，有x0＝x′)输入至第l个残差块，然后第l个残差块的输出xl可由一个通道空间特征增强模块和两个卷积层依次对xl-1进行处理，再加上残差xl-1得到，可由如下操作计算：

12、

13、

14、

15、

16、

17、

18、

19、其中，为所述通道空间特征增强模块输出的特征图；reshape和transpose分别为特征图形状的重塑和转置操作，主要用于矩阵乘法前对特征图形状的预处理和矩阵乘法后对特征图形状的还原；softmax为归一化指数函数；为矩阵乘法。迭代进行本步骤直至l＝m；

20、s14：对最后一个残差块输出的特征图xm进行全局平均池化，可由以下操作计算：

21、xfinal＝gap(xm) (9)

22、其中，xfinal为所述通道空间特征增强的深度卷积神经网络最后输出的特征图；gap为全局平均池化操作。

23、进一步的，所述s2中的所述长短期时序感知的自注意力变换网络包括n个长短期时序编码器、一个时间平均池化层和一个全连接层；其中，每个所述编码器包括时间维度上的多头自注意力模块和前向传播网络模块，所述前向传播网络模块包括一个一维时间卷积和两个线性层。

24、所述s2中的长短期时序感知的自注意力变换网络包含以下步骤：

25、s21：所述深度卷积神经网络包含n个长短期时序编码器，第j-1个编码器的输出yj-1(当j＝1时，有y0＝xfinal)输入至第j个编码器，然后第j个编码器的输出yj可由多头自注意力模块和前向传播网络模块依次对yj-1进行处理，可由如下操作计算：

26、

27、

28、

29、

30、其中，mhsa为所述多头自注意力模块；layernorm为层归一化；和分别为对特征通道进行升维和降维的两个线性层；其中，所述多头自注意力模块用于长期时序感知，所述一维时间卷积用于短期时序感知。1dconv为时间维度上的一维时间卷积层；为矩阵乘法。迭代进行本步骤直至j＝n；

31、s22：对最后一个时序编码器输出的特征图yn进行时间平均池化，可由以下操作计算：

32、yfinal＝tap(yn) (9)

33、其中，yfinal为所述长短期时序感知的自注意力变换网络最后输出的特征图；tap为时间平均池化操作；

34、s23：最终的表情识别结果由一个全连接层获得，可由以下操作计算：

35、p＝fc(yfinial) (10)

36、其中，p为网络对人脸序列所属表情的分类结果；fc为全连接层。

37、一种基于长短期时序感知的视频人脸表情识别系统，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求上述的方法。

38、与现有技术相比，本专利技术的有益效果：。

39、1、通过通道空间特征增强的深度卷积神经网络获得增强的卷积网络特征对开放环境下的光照变化、遮挡等干扰因素具有鲁棒性；

40、2、通过长短期时序感知的自注意力变换网络得到的时序特征能够更全面地感知人脸表情的时序上下文信息，从而有效地提高识别性能，进一步提高识别结果的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于长短期时序感知的视频人脸表情识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于长短期时序感知的视频人脸表情识别方法，其特征在于：所述S1中的通道空间特征增强的深度卷积神经网络包括一个卷积头，M个深度残差网络块和一个全局平均池化层；其中，所述卷积头主要包括一个卷积层和一个最大池化层，每一个所述深度残差网络块包括一个通道空间特征增强模块和两个卷积层。

3.根据权利要求1所述的一种基于长短期时序感知的视频人脸表情识别方法，其特征在于：所述S1中的通道空间特征增强的深度卷积神经网络的设计步骤包括：

4.根据权利要求1所述的一种基于长短期时序感知的视频人脸表情识别方法，其特征在于：所述S2中的所述长短期时序感知的自注意力变换网络包括N个长短期时序编码器、一个时间平均池化层和一个全连接层；其中，每个所述编码器包括时间维度上的多头自注意力模块和前向传播网络模块，所述前向传播网络模块包括一个一维时间卷积和两个线性层；其中，所述多头自注意力模块用于长期时序感知，所述一维时间卷积用于短期时序感知。

5.根据权利要求1所述的一种基

6.一种基于长短期时序感知的视频人脸表情识别系统，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述的方法。

...

【技术特征摘要】

1.一种基于长短期时序感知的视频人脸表情识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于长短期时序感知的视频人脸表情识别方法，其特征在于：所述s1中的通道空间特征增强的深度卷积神经网络包括一个卷积头，m个深度残差网络块和一个全局平均池化层；其中，所述卷积头主要包括一个卷积层和一个最大池化层，每一个所述深度残差网络块包括一个通道空间特征增强模块和两个卷积层。

3.根据权利要求1所述的一种基于长短期时序感知的视频人脸表情识别方法，其特征在于：所述s1中的通道空间特征增强的深度卷积神经网络的设计步骤包括：

4.根据权利要求1所述的一种基于长短期时序感知的视频人脸表情识别方法，其特征在于：所述s2中的所述长短期时序感知的自注意力变换网络包括n个长短期时序编码器、一个时间平均池化层和一个全连接层；其中，每个所述编码器包括时间维度上的多头自注意力模块和前向传播网络模块，...

【专利技术属性】
技术研发人员：章超，傅可人，卢诚城，
申请(专利权)人：四川警察学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人