基于可变形关键点注意力的轻量化视频连续情感识别方法技术

技术编号：37989814 阅读：7 留言：0更新日期：2023-06-30 10:04

本发明专利技术公开了一种基于可变形关键点注意力的轻量化视频连续情感识别方法，通过采样视频数据集的面部参考点构建可变形关键点注意力和轻量化的视频连续情感识别模型，采用引入可变形关键点注意力的空间编码器进行单帧情感特征提取；采用轻量化的时间编码器对特征序列进行情感时序建模；采用均方误差损失对模型训练约束；采用反向传播算法，迭代更新优化网络参数，直至模型损失趋于收敛；将待检测的视频数据输入所得模型获得检测结果。本发明专利技术充分利用了Transformer具有全局感受野和捕捉长时序依赖的优势，并提出基于面部关键点的可变形注意力充分挖掘面部局部关键区域的作用，同时改善了现有的全Transformer模型参数规模过大的问题，使得模型轻量化，提高了识别效率。提高了识别效率。提高了识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于可变形关键点注意力的轻量化视频连续情感识别方法

[0001]本专利技术属于视频处理
，具体涉及一种基于可变形关键点注意力的轻量化视频连续情感识别方法。

技术介绍

[0002]情感是人对客观事物的态度体验以及相应的行为反应。如今人工智能越来越朝着理解人类、服务人类、以人类为中心的方向发展，准确地识别人类的情感是实现以人为中心的人工智能的目标之一。通过获取人类的情感，越来越多的现实应用走进了大众的视野，如在医疗领域通过分析情感可以实现对抑郁等精神疾病的筛查、实现更智能和人性化的人机交互等。连续情感是在连续的维度上通过几种指标编码每一种情感强度的微小变化，可以更加精细和准确的表述人类的情感。两个最常用的指标为唤醒程度(Arousal)和效价值(Valence)。唤醒程度反映了情感的激动或平静程度，效价值反映了情感的积极或消极程度。
[0003]视频中包含丰富的情感线索。一般而言，视频连续情感识别方法包含两个阶段。在第一阶段，空间编码器从视频的每帧中提取出单帧情感表征；在第二阶段，时间编码器对不同帧情感表征之间的时序依赖进行建模以细化每一帧的情感表征。传统的空间情感表征提取方法主要基于手工设计，比如局部二值模式(LBP)、三个正交面板的局部二值模式(LBP
‑
TOP)、非负矩阵分解(Nonnegative Matrix Factorization)等。这些方法基本依赖于先验知识，并且鲁棒性很差，尤其在长时序范围内难以获取复杂的情感变化。最近基于深度识别的方法在情感识别的性能上取得了突破性的

【技术保护点】

【技术特征摘要】
1.一种基于可变形关键点注意力的轻量化视频连续情感识别方法，其特征在于，具体步骤包括：获取带有连续情感标签的视频数据集；视频数据集包括训练视频数据集；基于训练视频数据集采样面部参考点；构建轻量化视频连续情感识别模型；视频连续情感识别模型包括空间编码器和时序编码器；输入按时序排列的多帧人脸图像到空间编码器，空间编码器提取每帧人脸图像的浅层情感特征和高层情感特征；将所有人脸图像的高层情感特征按时序输入到时序编码器中建立时序依赖获得人脸情感表征序列；将人脸情感表征序列输入推理子网获取每帧人脸图像的情感预测值；基于训练视频数据集训练轻量化视频连续情感识别模型；使用训练后的轻量化视频连续情感识别模型进行视频连续情感识别。2.根据权利要求1所述的轻量化视频连续情感识别方法，其特征在于，基于训练视频数据集采样面部参考点的具体步骤包括：获取训练视频数据集中每帧人脸图像的面部关键点；基于面部关键点选取候选点；基于候选点生成二维高斯激活热图；使用二维高斯激活热图中每个像素点的像素值作为其被采样的权重值；从该热图的所有像素点中进行采样，被采样的点为面部参考点。3.根据权利要求2所述的轻量化视频连续情感识别方法，其特征在于，对二维高斯激活热图的所有像素点进行两次采样，分别获得两次采样的多个面部参考点。4.根据权利要求3所述的轻量化视频连续情感识别方法，其特征在于，二维高斯激活热图中的像素点被采样概率和该像素点的像素值成正比时，采样该像素点为面部参考点。5.根据权利要求4所述的轻量化视频连续情感识别方法，其特征在于，基于Swin Transformer构建空间编码器，具体步骤为：将输入的每帧人脸图像划分为若干个相互不重叠的区域；将每个区域展平为区域特征嵌入序列；将每帧人脸图像的每个区域特征嵌入序列输入Swin Transformer提取该帧人脸图像的浅层情感特征图；基于浅层情感特征图通过可变形关键点注意力法提取高层情感特征。6.根据权利要求5所述的轻量化视频连续情感识别方法，其特征在于，基于浅层情感特征图通过可变形关键点注意力提取高层情感特征的具体步骤为：获取浅层情感特征图的网格点N
×
N，N
×
N为浅层情感特征图的网格点总数；将第一次采样获得的多个面部参考点投影到浅层情感特征图的网格点N
×
N上进行可变形注意力处理获得二次处理特征图和第一高层情感特征；将第二次采样获得的多个面部参考点投影到二次处理特征图的网格点M
×
M上进行可变形注意力处理获得第二高层情感特征，M
×
M为二次处理特征图的网格点总数。7.根据权利要求6所述的轻量化视频连续情感识别方法，其特征在于，可变形注意力处理的操作步骤为：将面部参考点投影到对应的特征图上，通过双线性插值法获取各个面部参考点的情感表征：其中，表示双线性插值...

【专利技术属性】
技术研发人员：李伟欣，孟祥景，黄迪，王蕴红，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人