一种表情检测方法、系统、装置及存储介质制造方法及图纸

技术编号：38760442 阅读：13 留言：0更新日期：2023-09-10 10:33

本发明专利技术公开一种表情检测方法、系统、装置及存储介质，涉及计算机技术领域。其中，表情检测方法包括获取待检测视频；提取所述待检测视频的光流特征；将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到视频中所有帧的第一表情检测值；将大于第一阈值的第一表情检测值对应的帧作为候选帧；根据所有所述候选帧的第一表情检测值确定多个极大值点；根据两个极大值点对应的帧的帧距离确定表情幅度最大的帧，并根据表情幅度最大的帧确定存在表情的帧区间。本申请能够提高视频表情检测的准确性。高视频表情检测的准确性。高视频表情检测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种表情检测方法、系统、装置及存储介质

[0001]本专利技术涉及计算机
，尤其涉及一种表情检测方法、系统、装置及存储介质。

技术介绍

[0002]面部表情、肢体语言、语音等能够反应人类的真实情感，其中面部表情是人类情感的重要表达方式之一。面部表情分为宏表情和微表情。宏表情是主动发生的，是可以伪造的，有着较大的运动幅度。微表情持续时间短，运动幅度较小，是下意识发生的，是一个人在尝试抑制真实情感时的一种情感泄露，可以揭示人类的真实情感，分析微表情能够发现潜在的心理活动。
[0003]视频表情分析包括检测和识别两个部分，表情检测是在表情视频中判断是否存在表情，并定位时间位置。在表情检测中，特别是微表情检测，由于微表情运动幅度小、变化快，导致人工分析难度较大，开发一个可靠的自动化微表情分析系统是十分必要的。随着计算机视觉技术的发展，学者们结合相关算法，捕捉表情运动变化特征，用于表情检测。随着卷积神经网络(Convolutional Neural Networks，CNN)在各个领域有着优异表现，许多研究者将其应用于表情检测。研究者首先对表情图像数据进行预处理，提取出特征，并将表情检测转换为图像分类问题，使用卷积神经网络对每一帧的图像特征进行分类，最终定位表情发生的区间。卷积神经网络的感受野较为受限，每一层卷积神经网络考虑的更多是局部特征，对全局特征、局部与局部之间的特征、局部与全局之间的特征的考虑有所欠缺。由于目前用于训练的表情数据较少，过深的网络模型容易造成过拟合，而且由于卷积神经网络会在卷积层之间插入池化...

【技术保护点】

【技术特征摘要】
1.一种表情检测方法，其特征在于，包括以下步骤：获取待检测视频；提取所述待检测视频的光流特征；将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到视频中所有帧的第一表情检测值；将大于第一阈值的第一表情检测值对应的帧作为候选帧；根据所有所述候选帧的第一表情检测值确定多个极大值点；根据两个极大值点对应的帧之间的帧距离确定表情幅度最大的帧，并根据表情幅度最大的帧确定存在表情的帧区间。2.根据权利要求1所述的表情检测方法，其特征在于，所述表情检测模型包括第一模块和多个第二模块，所述第一模块和多个所述第二模块依次连接，所述第一模块包括依次连接的Shifted Patch Tokenization和L Swin Transformer Block，所述第二模块包括依次连接的Patch Merging和L Swin Transformer Block，所述L Swin Transformer Block表示采用局部自注意力机制的Swin Transformer模块。3.根据权利要求2所述的表情检测方法，其特征在于，所述表情检测模型通过以下步骤获得：根据训练集的表情区间标签确定平均一次表情持续的帧数的二分之一，记为k；采用OpenCV算法计算训练集中视频第i帧与第i+k帧之间的光流特征；根据预设的特征点选取视频中的感兴趣区域，并将感兴趣区域中的眼睛区域涂黑；根据k重新划定训练集的表情窗口得到新的表情区间标签；将所述训练集输入表情检测模型，并根据损失函数和优化器算法优化所述表情检测模型。4.根据权利要求1所述的表情检测方法，其特征在于，所述第一阈值通过以下步骤获得：根据所有帧的第一表情检测值确定表情检测最大值和表情检测平均值；将所述表情检测最大值减去所述表情检测平均值得到表情检测差值；将所述表情检测差值乘以预设系数后加上所述表情检测平均值得到第一阈值。5.根据权利要求1所述的表情检测方法，其特征在于，所述将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到视频中所有帧的第一表情检测值包括以下步骤：将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到所有帧的第二表情检测值；对所述第二表情检测值进行增强得到第一表情检测值，其中，增强过程如下：其中，s和分别表示视频中所有帧的第二表情检测值和第一表情检测值，和s
j
表示第i帧的第一表情检测值和...

【专利技术属性】
技术研发人员：钟清华，何尔恒，游丽锋，陈俞秀，赖嘉烨，余晖，黄俊淇，黄楷童，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人