【技术实现步骤摘要】
基于时空运动增强网络的动态表情识别方法及系统
[0001]本专利技术涉及计算机视觉
,具体涉及基于时空运动增强网络的动态表情识别方法及系统。
技术介绍
[0002]随着人脸表情识别理论的不断完善和人工智能技术的发展,人脸表情识别领域受到了广泛的关注。表情识别主要分成两种方法:基于静态图像的表情识别方法和基于动态视频的表情识别方法。在基于动态视频的表情识别方法中,由于人脸的光照、遮挡和头部姿态与自然环境类似,如果表情识别模型能够关注到人脸表情的局部运动细节并突出这些运动细节特征,无疑能够提高视频表情识别的准确性。而在视频中这些局部运动细节表现为上下帧之间的运动区域,如何利用视频中的运动特性表征人脸表情的连续性成为了动态表情识别的重点与难点。
技术实现思路
[0003]针对现有技术的不足,本专利技术的目的在于提供一种基于时空运动增强网络的动态表情识别方法及系统,以解决现有技术中存在的视频表情识别模型忽略了表情视频的运动特性的问题。
[0004]为达到上述目的,本专利技术所采用的技术方案是:
[0005]一种动态表情识别方法,包括以下步骤:
[0006]获取含有表情图像的视频序列;
[0007]将所述视频序列输入至Resnet
‑
Emotion网络中,得到表情的空间特征;
[0008]将所述空间特征输入至递归精炼单元网络,得到表情的运动特征;
[0009]将所述运动特征输入至门控循环单元网络,得到表情的时间特征,完成动态表情的识别。r/>[0010]进一步的,所述运动特征的获取过程如下:
[0011]获取视频序列中当前帧的原始空间特征、上一帧的原始空间特征及上一帧经递归精炼单元网络输出的运动特征;
[0012]将当前帧的原始空间特征、上一帧的原始空间特征及上一帧经递归精炼单元网络输出的运动特征同时输入至递归精炼单元网络,经递归精炼单元网络中的更新门模型处理后,得到整体注意力图;
[0013]将所述整体注意力图输入至sigmoid函数,由递归精炼单元网络输出当前帧的运动特征。
[0014]进一步的,所述更新门模型包括过渡层、空间注意力模型和通道注意力模型;所述空间注意力模型、通道注意力模型均与过渡层连接。
[0015]进一步的,所述更新门模型的处理过程如下:
[0016]将当前帧的原始空间特征、上一帧的原始空间特征及上一帧经递归精炼单元网络
输出的运动特征同时输入至过渡层,经过渡层产生第一空间特征;
[0017]将所述第一空间特征输入至空间注意力模型,经空间注意力模型得到空间注意图;
[0018]将所述第一空间特征输入至通道注意力模型,经通道注意力模型得到通道注意图;
[0019]将所述空间注意图与通道注意图相乘得到整体注意力图。
[0020]进一步的,所述过渡层包括依次设置的卷积层、批归一化层和ReLU激活函数;所述空间注意力模型包括依次设置的全局跨通道平均池层、第一全连接层、第二全连接层;所述通道注意力模型包括依次设置的全局空间平均池层和全连接层。
[0021]进一步的,所述空间注意图为:
[0022][0023]其中,Z
s
为空间注意图,和分别为第一全连接层、第二全连接层的参数,Relu为Relu激活函数,为经全局跨通道平均池层后的空间特征;
[0024]所述通道注意图为:
[0025][0026]其中,Z
c
为通道注意图;W
c
为全连接层的参数;为经全局空间平均池层后的空间特征。
[0027]进一步的,所述门控循环单元网络包括依次设置的更新门、重置门、候选状态和输出门。
[0028]进一步的,所述更新门为:
[0029]z
t
=σ(W
z
·
[h
t
‑1,x
t
])
[0030]所述重置门为:
[0031]r
t
=σ(W
r
·
[h
t
‑1,x
t
])
[0032]其中,z
t
,r
t
分别表示为更新门和重置门;h
t
‑1表示上一时刻的输出,x
t
表示当前时刻的输入,W
r
表示重置门参数权重,σ表示sigmoid函数。
[0033]一种动态表情识别系统,所述系统包括:
[0034]获取模块:用于获取含有表情图像的视频序列;
[0035]第一输入模块:用于将所述视频序列输入至Resnet
‑
Emotion网络中,得到表情的空间特征;
[0036]第二输入模块:用于将所述空间特征输入至递归精炼单元网络,得到表情的运动特征;
[0037]第三输入模块:用于将所述运动特征输入至门控循环单元网络,得到表情的时间特征,完成动态表情的识别。
[0038]一种动态表情识别系统,所述系统包括处理器和存储介质;
[0039]所述存储介质用于存储指令;
[0040]所述处理器用于根据所述指令进行操作以执行上述所述方法的步骤。
[0041]与现有技术相比,本专利技术所达到的有益效果是:
[0042]本专利技术使用基于迁移学习的预训练残差网络Resnet
‑
Emotion,并在此基础上输入连续帧视频序列,将静态人脸表情识别技术迁移到动态表情识别技术,结合递归精炼单元利用注意力模型,增强每个视频帧的表情运动特征,解决了动态表情识别模型忽略了表情视频的运动特性的问题;通过使用循环神经网络从表情序列中获得时序信息,能够有效地帮助网络对表情序列进行时序建模。
附图说明
[0043]图1为本专利技术的流程图;
[0044]图2为时空运动增强网络结构示意图;
[0045]图3为递归精炼单元结构示意图。
具体实施方式
[0046]下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。
[0047]如图1、图2所示,基于时空运动增强网络的动态表情识别方法,首先使用经过表情数据集预训练的Resnet
‑
Emotion网络提取人脸表情的空间特征,然后使用递归精炼单元(Refining Recurrent Unit,RRU)增强每个视频帧的表情运动特征,最后利用GRU挖掘表情的时间信息。具体包括以下步骤:
[0048]S1,使用基于迁移学习的预训练Resnet
‑
Emotion网络从视频序列中提取表情的空间信息:
[0049]获取视频序列中表情的空间特征,包括以下过程:
[0050]S11,构建一组拥有多张表情图像的视频序列;
[0051]由于每个视频中检测出的表情帧个数本文档来自技高网...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种动态表情识别方法,其特征在于,包括以下步骤:获取含有表情图像的视频序列;将所述视频序列输入至Resnet
‑
Emotion网络中,得到表情的空间特征;将所述空间特征输入至递归精炼单元网络,得到表情的运动特征;将所述运动特征输入至门控循环单元网络,得到表情的时间特征,完成动态表情的识别。2.根据权利要求1所述的一种动态表情识别方法,其特征在于,所述运动特征的获取过程如下:获取视频序列中当前帧的原始空间特征、上一帧的原始空间特征及上一帧经递归精炼单元网络输出的运动特征;将当前帧的原始空间特征、上一帧的原始空间特征及上一帧经递归精炼单元网络输出的运动特征同时输入至递归精炼单元网络,经递归精炼单元网络中的更新门模型处理后,得到整体注意力图;将所述整体注意力图输入至sigmoid函数,由递归精炼单元网络输出当前帧的运动特征。3.根据权利要求2所述的一种动态表情识别方法,其特征在于,所述更新门模型包括过渡层、空间注意力模型和通道注意力模型;所述空间注意力模型、通道注意力模型均与过渡层连接。4.根据权利要求3所述的一种动态表情识别方法,其特征在于,所述更新门模型的处理过程如下:将当前帧的原始空间特征、上一帧的原始空间特征及上一帧经递归精炼单元网络输出的运动特征同时输入至过渡层,经过渡层产生第一空间特征;将所述第一空间特征输入至空间注意力模型,经空间注意力模型得到空间注意图;将所述第一空间特征输入至通道注意力模型,经通道注意力模型得到通道注意图;将所述空间注意图与通道注意图相乘得到整体注意力图。5.根据权利要求3所述的一种动态表情识别方法,其特征在于,所述过渡层包括依次设置的卷积层、批归一化层和ReLU激活函数;所述空间注意力模型包括依次设置的全局跨通道平均池层、第一全连接层、第二全连接层;所述通道注意力模型包括依次设置的全局空间平均池层和全连接层。6.根据权利要求5所述的一种动态表情识别方法,其特征在于,所述空间注意图为:其中,Z
s
为空间注意图,W
技术研发人员:冯全,吕修旺,姚潇,
申请(专利权)人:常州码库数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。