动作识别方法、装置及存储介质制造方法及图纸

技术编号：28505146 阅读：22 留言：0更新日期：2021-05-19 22:57

本申请涉及一种动作识别方法、装置及存储介质，属于动作识别技术领域，该方法包括：获取图像帧序列；将图像帧序列输入预先训练的分类网络，得到图像帧序列对应的动作分类；分类网络包括运动特征增强结构，运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差；图像帧序列对应的动作分类结合前向运动特征差和后向运动特征差计算得到；可以解决仅考虑单向时序运动且仅考虑通道维度的增强时，动作识别方法的准确性和鲁棒性不高的问题；通过充分利用时序的双向运动信息，并加入到网络结构中，可促使网络提取到更强的运动特征，提高动作识别的准确性。提高动作识别的准确性。提高动作识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
动作识别方法、装置及存储介质

[0001]本申请涉及一种动作识别方法、装置及存储介质，属于动作识别

技术介绍

[0002]近些年来，互联网上的视频数据爆炸式地增长，这为视频理解任务带来了很大的难点，包括如何高精度地理解视频内容以及较低可接受的时间复杂度。而随着深度神经网络技术在计算机视觉各个领域的飞速发展，使用深度学习网络技术进行基于视频的动作识别任务已然十分普遍。具体的应用方式大体上分为三种。
[0003]第一种应用方式是使用三维卷积层进行基于视频的动作识别任务，三维卷积神经网络可以共同学习时间和空间特征，近些年也有一些十分出色的工作。例如一些技术使用VGG模型的三维卷积神经网络来学习视频帧序列的时空特征，一些技术提出了对二维卷积层进行扩展，将Inception V1模型扩展为三维卷积层，并取得了不错的效果。但是使用三维卷积神经网络会导致计算量大、部署困难以及容易过拟合的问题，总体来说，这种方式的特点是精度高但时间复杂度高。
[0004]第二种应用方式是使用二维卷积层进行基于视频的动作识别，例如一些技术使用了一种双流二维卷积分别对时间和空间建模的动作识别方法，时间敏感网络(Time
‑
Sensitive Networking，TSN)利用二维卷积层提取空间信息，而后使用平均池化的方式来融合各段信息得到最终结果，总的来说，这种方式的特点是时间复杂度低但精确度不高。
[0005]第三种应用方式是多种卷积形式的混合来同时对视频段空间和时间信息进行建模，以期望达到高精度低...

【技术保护点】

【技术特征摘要】
1.一种动作识别方法，其特征在于，所述方法包括：获取图像帧序列；将所述图像帧序列输入预先训练的分类网络，得到所述图像帧序列对应的动作分类；其中，所述分类网络包括运动特征增强结构，所述运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差；所述图像帧序列对应的动作分类结合所述前向运动特征差和所述后向运动特征差计算得到。2.根据权利要求1所述的方法，其特征在于，所述前向运动特征差为：第i帧图像帧的第一维度的图像特征与第i+1帧图像帧的平滑后的图像特征之差；所述后向运动特征差为：第i帧图像帧的平滑后的图像特征与第i+1帧图像帧的第一维度的图像特征之差；其中，所述平滑后的图像特征是对第一维度的图像特征进行运动平滑后得到的图像特征；所述i为正整数，且i的值小于所述图像帧序列的帧总数。3.根据权利要求2所述的方法，其特征在于，所述运动特征增强结构包括二维的卷积层，所述二维的卷积层的输入通道数和输出通道数相同，并用于对所述第一维度的图像特征进行运动平滑。4.根据权利要求2所述的方法，其特征在于，所述运动特征增强结构包括时空信息计算结构；其中，所述时空信息计算结构在接收到所述第i帧图像帧对应的前向运动特征差和后向运动特征差后，计算所述前向运动特征差对应的时空概率图和所述后向运动特征差对应的时空概率图；基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征；相应地，所述图像帧序列对应的动作分类基于所述增强后的运动特征计算得到。5.根据权利要求4所述的方法，其特征在于，所述基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征，包括：将所述前向运动特征差对应的时空概率图和所述后向运动特征差对应的时空概率图转换为第二维度，所述第二维度是所述原始通道特征的通道数；计算所述变换后的时空概率图的平均值；将所述平均值与所述原始通道特征进行点乘，得到所述增强后的运动特征。6.根据权利要求4所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：纪彬，尹泽强，孙新，熊超，章勇，曹李军，陈卫东，
申请(专利权)人：苏州科达科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人