动作识别方法、装置及存储介质制造方法及图纸

技术编号:28505146 阅读:22 留言:0更新日期:2021-05-19 22:57
本申请涉及一种动作识别方法、装置及存储介质,属于动作识别技术领域,该方法包括:获取图像帧序列;将图像帧序列输入预先训练的分类网络,得到图像帧序列对应的动作分类;分类网络包括运动特征增强结构,运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差;图像帧序列对应的动作分类结合前向运动特征差和后向运动特征差计算得到;可以解决仅考虑单向时序运动且仅考虑通道维度的增强时,动作识别方法的准确性和鲁棒性不高的问题;通过充分利用时序的双向运动信息,并加入到网络结构中,可促使网络提取到更强的运动特征,提高动作识别的准确性。提高动作识别的准确性。提高动作识别的准确性。

【技术实现步骤摘要】
动作识别方法、装置及存储介质


[0001]本申请涉及一种动作识别方法、装置及存储介质,属于动作识别


技术介绍

[0002]近些年来,互联网上的视频数据爆炸式地增长,这为视频理解任务带来了很大的难点,包括如何高精度地理解视频内容以及较低可接受的时间复杂度。而随着深度神经网络技术在计算机视觉各个领域的飞速发展,使用深度学习网络技术进行基于视频的动作识别任务已然十分普遍。具体的应用方式大体上分为三种。
[0003]第一种应用方式是使用三维卷积层进行基于视频的动作识别任务,三维卷积神经网络可以共同学习时间和空间特征,近些年也有一些十分出色的工作。例如一些技术使用VGG模型的三维卷积神经网络来学习视频帧序列的时空特征,一些技术提出了对二维卷积层进行扩展,将Inception V1模型扩展为三维卷积层,并取得了不错的效果。但是使用三维卷积神经网络会导致计算量大、部署困难以及容易过拟合的问题,总体来说,这种方式的特点是精度高但时间复杂度高。
[0004]第二种应用方式是使用二维卷积层进行基于视频的动作识别,例如一些技术使用了一种双流二维卷积分别对时间和空间建模的动作识别方法,时间敏感网络(Time

Sensitive Networking,TSN)利用二维卷积层提取空间信息,而后使用平均池化的方式来融合各段信息得到最终结果,总的来说,这种方式的特点是时间复杂度低但精确度不高。
[0005]第三种应用方式是多种卷积形式的混合来同时对视频段空间和时间信息进行建模,以期望达到高精度低时间复杂度。近些年也出现了许多比较出色的工作,例如一些人探索了二维卷积同三维卷积的融合,首先使用三维卷积而后使用二维卷积以及先使用二维卷积后使用三维卷积的方式。存在一些工作为了减少计算量将三维卷积分解为二维空间卷积和一维时间卷积。存在工作基于二维卷积并只使用原始RGB图像的特征偏移方式(Temporal Shift Module,TSM),以达到二维卷积的低时间复杂度和三维卷积的高精度。用于时序建模的轻量级行为识别模型(Temporal Excitation and Aggregation for Action Recognition,TEA)在时序特征偏移操作的基础上,使用单向帧间特征差来在通道维度增强原始特征,在若干的公开数据集中取得了显著的效果。
[0006]然而,现有的基于运动特征增强的动作分类方法,仅考虑单向时序运动且仅考虑通道维度的增强,因此不能充分利用时序前后帧之间的运动特征,并且忽略了运动特征在空间维度上的分布强弱,即空间上哪些特征应当增强,哪些特征不应当增强,从而导致动作识别方法不具备良好的准确性和鲁棒性的问题。

技术实现思路

[0007]本申请提供了一种动作识别方法、装置及存储介质,可以通过充分利用时序的双向运动信息,并加入到网络结构中,可促使网络提取到更强的运动特征,提高动作识别的准确性。本申请提供如下技术方案:
[0008]第一方面,提供一种动作识别方法,获取图像帧序列;
[0009]将所述图像帧序列输入预先训练的分类网络,得到所述图像帧序列对应的动作分类;
[0010]其中,所述分类网络包括运动特征增强结构,所述运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差;所述图像帧序列对应的动作分类结合所述前向运动特征差和所述后向运动特征差计算得到。
[0011]可选地,所述前向运动特征差为:第i帧图像帧的第一维度的图像特征与第i+1帧图像帧的平滑后的图像特征之差;
[0012]所述后向运动特征差为:第i帧图像帧的平滑后的图像特征与第i+1帧图像帧的第一维度的图像特征之差;
[0013]其中,所述平滑后的图像特征是对第一维度的图像特征进行运动平滑后得到的图像特征;所述i为正整数,且i的值小于所述图像帧序列的帧总数。
[0014]可选地,所述运动特征增强结构包括二维的卷积层,所述二维的卷积层的输入通道数和输出通道数相同,并用于对所述第一维度的图像特征进行运动平滑。
[0015]可选地,所述运动特征增强结构包括时空信息计算结构;
[0016]其中,所述时空信息计算结构在接收到所述第i帧图像帧对应的前向运动特征差和后向运动特征差后,计算所述前向运动特征差对应的时空概率图和所述后向运动特征差对应的时空概率图;基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强,得到增强后的运动特征;
[0017]相应地,所述图像帧序列对应的动作分类基于所述增强后的运动特征计算得到。
[0018]可选地,所述基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强,得到增强后的运动特征,包括:
[0019]将所述前向运动特征差对应的时空概率图和所述后向运动特征差对应的时空概率图转换为第二维度,所述第二维度是所述原始通道特征的通道数;
[0020]计算所述变换后的时空概率图的平均值;
[0021]将所述平均值与所述原始通道特征进行点乘,得到所述增强后的运动特征。
[0022]可选地,所述基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强,得到增强后的运动特征之后,还用于:
[0023]对所述增强后的运动特征进行时序融合,得到时序融合的图像帧特征;
[0024]将所述原始通道特征与所述时序融合的图像帧特征求取平均,得到所述第i帧图像帧的背景信息补偿,所述背景信息补偿用于供所述分类网络计算所述动作分类。
[0025]可选地,所述运动特征增强结构还包括降维结构,所述降维结构用于将输入的图像特征从第二维度降维至第一维度,得到所述第一维度的图像特征。
[0026]可选地,所述分类网络还包括基础网络,所述基础网络包括第一阶段结构和第二阶段结构,所述第一阶段结构用于提取图像的浅层特征,所述第二阶段结构用于提取图像的深层特征;所述运动特征增强结构位于所述第一阶段结构和所述第二阶段结构之间。
[0027]可选地,所述将所述图像帧序列输入预先训练的分类网络,得到所述图像帧序列对应的动作分类,包括:
[0028]通过所述第一阶段网络提取所述图像帧序列的图像特征,得到第二维度的图像特
征;
[0029]通过所述运动特征增强结构对所述第二维度的图像特征进行处理,计算所述前向运动特征差和所述后向运动特征差;根据所述前向运动特征差和所述后向运动特征差计算得到增强后的特征信息;
[0030]通过所述第二阶段网络基于所述增强后的特征信息计算得到所述动作分类。
[0031]可选地,所述通过所述第二阶段网络基于所述增强后的特征信息计算得到所述动作分类,包括:
[0032]将所述增强后的特征信息输入所述第二阶段网络后,在时序维度上对网络输出结果求取平均,得到序列特征;
[0033]将所述序列特征依次输入全连接层以及逻辑回归层,得到所述图像帧序列的类别概率分布;
[0034]将所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动作识别方法,其特征在于,所述方法包括:获取图像帧序列;将所述图像帧序列输入预先训练的分类网络,得到所述图像帧序列对应的动作分类;其中,所述分类网络包括运动特征增强结构,所述运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差;所述图像帧序列对应的动作分类结合所述前向运动特征差和所述后向运动特征差计算得到。2.根据权利要求1所述的方法,其特征在于,所述前向运动特征差为:第i帧图像帧的第一维度的图像特征与第i+1帧图像帧的平滑后的图像特征之差;所述后向运动特征差为:第i帧图像帧的平滑后的图像特征与第i+1帧图像帧的第一维度的图像特征之差;其中,所述平滑后的图像特征是对第一维度的图像特征进行运动平滑后得到的图像特征;所述i为正整数,且i的值小于所述图像帧序列的帧总数。3.根据权利要求2所述的方法,其特征在于,所述运动特征增强结构包括二维的卷积层,所述二维的卷积层的输入通道数和输出通道数相同,并用于对所述第一维度的图像特征进行运动平滑。4.根据权利要求2所述的方法,其特征在于,所述运动特征增强结构包括时空信息计算结构;其中,所述时空信息计算结构在接收到所述第i帧图像帧对应的前向运动特征差和后向运动特征差后,计算所述前向运动特征差对应的时空概率图和所述后向运动特征差对应的时空概率图;基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强,得到增强后的运动特征;相应地,所述图像帧序列对应的动作分类基于所述增强后的运动特征计算得到。5.根据权利要求4所述的方法,其特征在于,所述基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强,得到增强后的运动特征,包括:将所述前向运动特征差对应的时空概率图和所述后向运动特征差对应的时空概率图转换为第二维度,所述第二维度是所述原始通道特征的通道数;计算所述变换后的时空概率图的平均值;将所述平均值与所述原始通道特征进行点乘,得到所述增强后的运动特征。6.根据权利要求4所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:纪彬尹泽强孙新熊超章勇曹李军陈卫东
申请(专利权)人:苏州科达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1