一种表情检测方法、系统、装置及存储介质制造方法及图纸

技术编号:38760442 阅读:13 留言:0更新日期:2023-09-10 10:33
本发明专利技术公开一种表情检测方法、系统、装置及存储介质,涉及计算机技术领域。其中,表情检测方法包括获取待检测视频;提取所述待检测视频的光流特征;将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到视频中所有帧的第一表情检测值;将大于第一阈值的第一表情检测值对应的帧作为候选帧;根据所有所述候选帧的第一表情检测值确定多个极大值点;根据两个极大值点对应的帧的帧距离确定表情幅度最大的帧,并根据表情幅度最大的帧确定存在表情的帧区间。本申请能够提高视频表情检测的准确性。高视频表情检测的准确性。高视频表情检测的准确性。

【技术实现步骤摘要】
一种表情检测方法、系统、装置及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种表情检测方法、系统、装置及存储介质。

技术介绍

[0002]面部表情、肢体语言、语音等能够反应人类的真实情感,其中面部表情是人类情感的重要表达方式之一。面部表情分为宏表情和微表情。宏表情是主动发生的,是可以伪造的,有着较大的运动幅度。微表情持续时间短,运动幅度较小,是下意识发生的,是一个人在尝试抑制真实情感时的一种情感泄露,可以揭示人类的真实情感,分析微表情能够发现潜在的心理活动。
[0003]视频表情分析包括检测和识别两个部分,表情检测是在表情视频中判断是否存在表情,并定位时间位置。在表情检测中,特别是微表情检测,由于微表情运动幅度小、变化快,导致人工分析难度较大,开发一个可靠的自动化微表情分析系统是十分必要的。随着计算机视觉技术的发展,学者们结合相关算法,捕捉表情运动变化特征,用于表情检测。随着卷积神经网络(Convolutional Neural Networks,CNN)在各个领域有着优异表现,许多研究者将其应用于表情检测。研究者首先对表情图像数据进行预处理,提取出特征,并将表情检测转换为图像分类问题,使用卷积神经网络对每一帧的图像特征进行分类,最终定位表情发生的区间。卷积神经网络的感受野较为受限,每一层卷积神经网络考虑的更多是局部特征,对全局特征、局部与局部之间的特征、局部与全局之间的特征的考虑有所欠缺。由于目前用于训练的表情数据较少,过深的网络模型容易造成过拟合,而且由于卷积神经网络会在卷积层之间插入池化层,容易导致表情特征,特别是微表情的微小特征在网络中向前传递的过程中丢失,所以目前研究者们使用的模型不能太深。Transformer因能够发现图像全局依赖关系,且能在深层次网络中传递特征,所以有研究者将Transformer与卷积神经网络结合,用于表情检测。但是由于Transformer需要大量数据进行训练,而目前的表情数据库数据量较少,所以应用Transformer的网络往往不能达到理想的效果。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种表情检测方法、系统、装置及存储介质,能够提高视频表情检测的准确性。
[0005]一方面,本专利技术实施例提供了一种表情检测方法,包括以下步骤:
[0006]获取待检测视频;
[0007]提取所述待检测视频的光流特征;
[0008]将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到视频中所有帧的第一表情检测值;
[0009]将大于第一阈值的第一表情检测值对应的帧作为候选帧;
[0010]根据所有所述候选帧的第一表情检测值确定多个极大值点;
[0011]根据两个极大值点对应的帧之间的帧距离确定表情幅度最大的帧,并根据表情幅度最大的帧确定存在表情的帧区间。
[0012]根据本专利技术一些实施例,所述表情检测模型包括第一模块和多个第二模块,所述第一模块和多个所述第二模块依次连接,所述第一模块包括依次连接的Shifted Patch Tokenization和L Swin Transformer Block,所述第二模块包括依次连接的Patch Merging和L Swin Transformer Block,所述L Swin Transformer Block表示采用局部自注意力机制的Swin Transformer模块。
[0013]根据本专利技术一些实施例,所述表情检测模型通过以下步骤获得:
[0014]根据训练集的表情区间标签确定平均一次表情持续的帧数的二分之一,记为k;
[0015]采用OpenCV算法计算训练集中视频第i帧与第i+k帧之间的光流特征;
[0016]根据预设的特征点选取视频中的感兴趣区域,并将感兴趣区域中的眼睛区域涂黑;
[0017]根据k重新划定训练集的表情窗口得到新的表情区间标签;
[0018]将所述训练集输入表情检测模型,并根据损失函数和优化器算法优化所述表情检测模型。
[0019]根据本专利技术一些实施例,所述第一阈值通过以下步骤获得:
[0020]根据所有帧的第一表情检测值确定表情检测最大值和表情检测平均值;
[0021]将所述表情检测最大值减去所述表情检测平均值得到表情检测差值;
[0022]将所述表情检测差值乘以预设系数后加上所述表情检测平均值得到第一阈值。
[0023]根据本专利技术一些实施例,所述将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到视频中所有帧的第一表情检测值包括以下步骤:
[0024]将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到所有帧的第二表情检测值;
[0025]对所述第二表情检测值进行增强得到第一表情检测值,其中,增强过程如下:
[0026][0027]其中,s和分别表示视频中所有帧的第二表情检测值和第一表情检测值,和s
j
表示第i帧的第一表情检测值和第j帧的第二表情检测值,i=F1+k表示i为第(1+k)帧的索引,i=F
end

k表示i为结束前第k帧的索引。
[0028]根据本专利技术一些实施例,所述L Swin Transformer Block包括依次连接的W

MLSA层、第一MLP层、SW

MLSA层和第二MLP层;
[0029]MLP为多层感知器,用于对输入进行非线性分类;
[0030]W

MLSA为基于滑动窗口的多头局部自注意力机制,W

MLSA层用于采用移动窗口在输入特征矩阵中移动并计算窗口的局部自注意力;
[0031]SW

MLSA为偏移的W

MLSA,SW

MLSA层的输入为W

MLSA层的输出特征矩阵,SW

MLSA层用于计算输入特征矩阵中偏移后的窗口内的局部自注意力。
[0032]根据本专利技术一些实施例,所述Shifted Patch Tokenization用于将光流特征矩阵分别向左上、右上、左下和右下四个方向偏移若干个像素;将偏移后的光流特征矩阵裁剪至
与原本的光流特征矩阵相同大小,并进行拼接;对拼接得到的矩阵进行分割、展平得到特征矩阵序列。
[0033]另一方面,本专利技术实施例还提供一种表情检测系统,包括:
[0034]第一模块,用于获取待检测视频;
[0035]第二模块,用于提取所述待检测视频的光流特征;
[0036]第三模块,用于将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到视频中所有帧的第一表情检测值;
[0037]第四模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表情检测方法,其特征在于,包括以下步骤:获取待检测视频;提取所述待检测视频的光流特征;将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到视频中所有帧的第一表情检测值;将大于第一阈值的第一表情检测值对应的帧作为候选帧;根据所有所述候选帧的第一表情检测值确定多个极大值点;根据两个极大值点对应的帧之间的帧距离确定表情幅度最大的帧,并根据表情幅度最大的帧确定存在表情的帧区间。2.根据权利要求1所述的表情检测方法,其特征在于,所述表情检测模型包括第一模块和多个第二模块,所述第一模块和多个所述第二模块依次连接,所述第一模块包括依次连接的Shifted Patch Tokenization和L Swin Transformer Block,所述第二模块包括依次连接的Patch Merging和L Swin Transformer Block,所述L Swin Transformer Block表示采用局部自注意力机制的Swin Transformer模块。3.根据权利要求2所述的表情检测方法,其特征在于,所述表情检测模型通过以下步骤获得:根据训练集的表情区间标签确定平均一次表情持续的帧数的二分之一,记为k;采用OpenCV算法计算训练集中视频第i帧与第i+k帧之间的光流特征;根据预设的特征点选取视频中的感兴趣区域,并将感兴趣区域中的眼睛区域涂黑;根据k重新划定训练集的表情窗口得到新的表情区间标签;将所述训练集输入表情检测模型,并根据损失函数和优化器算法优化所述表情检测模型。4.根据权利要求1所述的表情检测方法,其特征在于,所述第一阈值通过以下步骤获得:根据所有帧的第一表情检测值确定表情检测最大值和表情检测平均值;将所述表情检测最大值减去所述表情检测平均值得到表情检测差值;将所述表情检测差值乘以预设系数后加上所述表情检测平均值得到第一阈值。5.根据权利要求1所述的表情检测方法,其特征在于,所述将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到视频中所有帧的第一表情检测值包括以下步骤:将所述待检测视频的光流特征输入基于Swin Transformer网络搭建的表情检测模型得到所有帧的第二表情检测值;对所述第二表情检测值进行增强得到第一表情检测值,其中,增强过程如下:其中,s和分别表示视频中所有帧的第二表情检测值和第一表情检测值,和s
j
表示第i帧的第一表情检测值和...

【专利技术属性】
技术研发人员:钟清华何尔恒游丽锋陈俞秀赖嘉烨余晖黄俊淇黄楷童
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1