基于可变形关键点注意力的轻量化视频连续情感识别方法技术

技术编号:37989814 阅读:7 留言:0更新日期:2023-06-30 10:04
本发明专利技术公开了一种基于可变形关键点注意力的轻量化视频连续情感识别方法,通过采样视频数据集的面部参考点构建可变形关键点注意力和轻量化的视频连续情感识别模型,采用引入可变形关键点注意力的空间编码器进行单帧情感特征提取;采用轻量化的时间编码器对特征序列进行情感时序建模;采用均方误差损失对模型训练约束;采用反向传播算法,迭代更新优化网络参数,直至模型损失趋于收敛;将待检测的视频数据输入所得模型获得检测结果。本发明专利技术充分利用了Transformer具有全局感受野和捕捉长时序依赖的优势,并提出基于面部关键点的可变形注意力充分挖掘面部局部关键区域的作用,同时改善了现有的全Transformer模型参数规模过大的问题,使得模型轻量化,提高了识别效率。提高了识别效率。提高了识别效率。

【技术实现步骤摘要】
基于可变形关键点注意力的轻量化视频连续情感识别方法


[0001]本专利技术属于视频处理
,具体涉及一种基于可变形关键点注意力的轻量化视频连续情感识别方法。

技术介绍

[0002]情感是人对客观事物的态度体验以及相应的行为反应。如今人工智能越来越朝着理解人类、服务人类、以人类为中心的方向发展,准确地识别人类的情感是实现以人为中心的人工智能的目标之一。通过获取人类的情感,越来越多的现实应用走进了大众的视野,如在医疗领域通过分析情感可以实现对抑郁等精神疾病的筛查、实现更智能和人性化的人机交互等。连续情感是在连续的维度上通过几种指标编码每一种情感强度的微小变化,可以更加精细和准确的表述人类的情感。两个最常用的指标为唤醒程度(Arousal)和效价值(Valence)。唤醒程度反映了情感的激动或平静程度,效价值反映了情感的积极或消极程度。
[0003]视频中包含丰富的情感线索。一般而言,视频连续情感识别方法包含两个阶段。在第一阶段,空间编码器从视频的每帧中提取出单帧情感表征;在第二阶段,时间编码器对不同帧情感表征之间的时序依赖进行建模以细化每一帧的情感表征。传统的空间情感表征提取方法主要基于手工设计,比如局部二值模式(LBP)、三个正交面板的局部二值模式(LBP

TOP)、非负矩阵分解(Nonnegative Matrix Factorization)等。这些方法基本依赖于先验知识,并且鲁棒性很差,尤其在长时序范围内难以获取复杂的情感变化。最近基于深度识别的方法在情感识别的性能上取得了突破性的进展。卷积神经网络(CNNs)因其卓越的特征提取能力成为目前的主流方法,例如VGG、ResNet、DenseNet等。现有的方法大多将整张人脸图像作为模型的输入,忽略了人类情感主要依赖于局部面部关键区域这一先验知识。Yong Li等人在2018年提出基于面部关键点从人脸图像中裁剪出局部区域,然后对这些局部区域的特征进行聚合得到人脸的表征,但是这些方法依赖于人脸关键点检测器,而它的性能容易受到光照变化、遮挡等因素的影响。如何精准的定位出面部关键区域并在全局范围内建立不同局部区域之间的依赖关系仍然是个亟待解决的问题。
[0004]另外,在时序建模阶段,循环神经网络(RNNs)和时序卷积神经网络(TCNs)体现了它们在建模时序依赖方面的能力。然而RNNs受着梯度消失等问题的干扰,TCNs理论上可以通过膨胀卷积或下采样扩大时序感受野,但其实际感受野远低于理论感受野。这些因素限制了它们在建模长时序依赖方面的能力。近年来,transformer凭借其更强的远距离建模能力逐渐成为视频理解任务的新趋势,Anurag Arnab等人在2021年提出了ViViT,GedasBertasius等人在同年提出了Timesformer,它们在视频理解任务上表现出了超越以往方法的性能。但是这些方法的参数规模往往过于庞大,在小规模的视频数据集上很容易出现过拟合的问题。因此,在提高长时序依赖建模能力的同时如何使模型轻量化以适应小规模数据集成为提升情感识别性能的关键。

技术实现思路

[0005]针对上述视频连续情感识别方法中存在的技术缺陷,本专利技术的目的在于提出一种视频连续情感识别方法,特别涉及一种基于可变形关键点注意力的空间域情感表征提取方法和基于Transformer的轻量化长时序依赖特征提取方法。基于现有视频连续情感识别方法对与情感有关的面部关键区域定位不准确,无法良好的建立不同区域之间的依赖关系,以及在小规模的视频情感数据集上的过拟合问题,本专利技术充分发挥面部关键区域对情感识别的作用,使提取的情感表征更加鲁棒,且能够防止过拟合问题,使得模型轻量化,由此提高了识别效率。
[0006]本专利技术提供的一种基于可变形关键点注意力的轻量化视频连续情感识别方法,具体步骤包括:
[0007]获取带有连续情感标签的视频数据集;视频数据集包括训练视频数据集;
[0008]基于训练视频数据集采样面部参考点;
[0009]构建轻量化视频连续情感识别模型;视频连续情感识别模型包括空间编码器和时序编码器;输入按时序排列的多帧人脸图像到空间编码器,空间编码器提取每帧人脸图像的浅层情感特征和高层情感特征;将所有人脸图像的高层情感特征按时序输入到时序编码器中建立时序依赖获得人脸情感表征序列;将人脸情感表征序列输入推理子网获取每帧人脸图像的情感预测值;
[0010]基于训练视频数据集训练轻量化视频连续情感识别模型;
[0011]使用训练后的轻量化视频连续情感识别模型进行视频连续情感识别。
[0012]可选地,基于训练视频数据集采样面部参考点的具体步骤包括:获取训练视频数据集中每帧人脸图像的面部关键点;基于面部关键点选取候选点;基于候选点生成二维高斯激活热图;使用二维高斯激活热图中每个像素点的像素值作为其被采样的权重值;从该热图的所有像素点中进行采样,被采样的点为面部参考点。
[0013]可选地,对二维高斯激活热图的所有像素点进行两次采样,分别获得两次采样的多个面部参考点。
[0014]可选地,二维高斯激活热图中的像素点被采样概率和该像素点的像素值成正比时,采样该像素点为面部参考点。
[0015]可选地,基于Swin Transformer构建空间编码器,具体步骤为:将输入的每帧人脸图像划分为若干个相互不重叠的区域;将每个区域展平为区域特征嵌入序列;将每帧人脸图像的每个区域特征嵌入序列输入Swin Transformer提取该帧人脸图像的浅层情感特征图;基于浅层情感特征图通过可变形关键点注意力法提取高层情感特征。
[0016]可选地,基于浅层情感特征图通过可变形关键点注意力提取高层情感特征的具体步骤为:获取浅层情感特征图的网格点N
×
N,N
×
N为浅层情感特征图的网格点总数;将第一次采样获得的多个面部参考点投影到浅层情感特征图的网格点N
×
N上进行可变形注意力处理获得二次处理特征图和第一高层情感特征;将第二次采样获得的多个面部参考点投影到二次处理特征图的网格点M
×
M上进行可变形注意力处理获得第二高层情感特征,M
×
M为二次处理特征图的网格点总数。
[0017]可选地,可变形注意力处理的操作步骤为:
[0018]将面部参考点投影到对应的特征图上,通过双线性插值法获取各个面部参考点的
情感表征:
[0019][0020]其中,表示双线性插值;p表示面部参考点的位置坐标,r表示空间编码器提取图像的高层语义特征时使用的特征图,r

表示面部参考点的情感特征。
[0021]可选地,将面部参考点的情感特征r

输入偏移子网中,获得每个面部参考点在x轴和y轴方向上的偏移量;基于面部参考点的位置坐标和偏移量,获取各个面部参考点偏移后的坐标:
[0022]△
p=θ(r

);
[0023]p
...

【技术保护点】

【技术特征摘要】
1.一种基于可变形关键点注意力的轻量化视频连续情感识别方法,其特征在于,具体步骤包括:获取带有连续情感标签的视频数据集;视频数据集包括训练视频数据集;基于训练视频数据集采样面部参考点;构建轻量化视频连续情感识别模型;视频连续情感识别模型包括空间编码器和时序编码器;输入按时序排列的多帧人脸图像到空间编码器,空间编码器提取每帧人脸图像的浅层情感特征和高层情感特征;将所有人脸图像的高层情感特征按时序输入到时序编码器中建立时序依赖获得人脸情感表征序列;将人脸情感表征序列输入推理子网获取每帧人脸图像的情感预测值;基于训练视频数据集训练轻量化视频连续情感识别模型;使用训练后的轻量化视频连续情感识别模型进行视频连续情感识别。2.根据权利要求1所述的轻量化视频连续情感识别方法,其特征在于,基于训练视频数据集采样面部参考点的具体步骤包括:获取训练视频数据集中每帧人脸图像的面部关键点;基于面部关键点选取候选点;基于候选点生成二维高斯激活热图;使用二维高斯激活热图中每个像素点的像素值作为其被采样的权重值;从该热图的所有像素点中进行采样,被采样的点为面部参考点。3.根据权利要求2所述的轻量化视频连续情感识别方法,其特征在于,对二维高斯激活热图的所有像素点进行两次采样,分别获得两次采样的多个面部参考点。4.根据权利要求3所述的轻量化视频连续情感识别方法,其特征在于,二维高斯激活热图中的像素点被采样概率和该像素点的像素值成正比时,采样该像素点为面部参考点。5.根据权利要求4所述的轻量化视频连续情感识别方法,其特征在于,基于Swin Transformer构建空间编码器,具体步骤为:将输入的每帧人脸图像划分为若干个相互不重叠的区域;将每个区域展平为区域特征嵌入序列;将每帧人脸图像的每个区域特征嵌入序列输入Swin Transformer提取该帧人脸图像的浅层情感特征图;基于浅层情感特征图通过可变形关键点注意力法提取高层情感特征。6.根据权利要求5所述的轻量化视频连续情感识别方法,其特征在于,基于浅层情感特征图通过可变形关键点注意力提取高层情感特征的具体步骤为:获取浅层情感特征图的网格点N
×
N,N
×
N为浅层情感特征图的网格点总数;将第一次采样获得的多个面部参考点投影到浅层情感特征图的网格点N
×
N上进行可变形注意力处理获得二次处理特征图和第一高层情感特征;将第二次采样获得的多个面部参考点投影到二次处理特征图的网格点M
×
M上进行可变形注意力处理获得第二高层情感特征,M
×
M为二次处理特征图的网格点总数。7.根据权利要求6所述的轻量化视频连续情感识别方法,其特征在于,可变形注意力处理的操作步骤为:将面部参考点投影到对应的特征图上,通过双线性插值法获取各个面部参考点的情感表征:其中,表示双线性插值...

【专利技术属性】
技术研发人员:李伟欣孟祥景黄迪王蕴红
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1