基于多尺度自注意力机制的解耦的3D网络的动作识别方法技术

技术编号：39302524 阅读：13 留言：0更新日期：2023-11-12 15:52

本发明专利技术公开了一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法。方法包括：将带有动作类别标签的动作视频进行预处理后构成动作训练集；建立多尺度自注意力机制的解耦的3D网络，将动作训练集输入训练；采集待检测的动作视频并输入，输出待检测的动作视频的动作类别，完成动作识别。本发明专利技术方法能够关注到多尺度特征图上的全局时空特征，可以在空间和时间维度上实现更好的平衡，能够充分的利用特征信息，更全面地建模视频数据的时空特性，提高对视频数据的表达能力，提高对视频内容的理解和解释能力，提高了视频动作分类的性能。提高了视频动作分类的性能。提高了视频动作分类的性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于多尺度自注意力机制的解耦的3D网络的动作识别方法

[0001]本专利技术涉及了一种动作识别方法，涉及深度学习的动作识别
，具体涉及一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法。

技术介绍

[0002]随着深度学习的技术不断发展以及动作识别应用场景不断增加，目前在动作识别领域，基于深度学习的动作识别技术逐渐称为一个关键领域。
[0003]动作识别技术是计算机视觉的一个重要的研究领域，在人机方面应用较为广泛，动作识别技术在最近几年来已经逐渐成为计算机视觉领域的主要研究内容。动作识别的研究方法总体上可以分为两种，基于传统机器学习手动提取特征的方法和基于深度网络学习特征的识别方法。
[0004]针对于传统机器学习手动提取特征的方法主要是通过采用传统机器学习算法对视频进行预处理，提取视频特征，对特征进行向量化，训练模型，预测动作分类。但是视频动作识别存在光照、背景变化、视频帧之间存在联系等因素的影响，无法充分提取手势特征，鲁棒性较差。
[0005]针对于深度学习的动作识别方法，相比于二维图像，增加了时序信息，因此深度学习的动作识别方法不仅可以学习空间序列信息，还可以识别时间序列特征信息。例如Simonyan首先提出了经典的双流CNN，分别时使用空间流网络和时间流网络学习空间特征和时间特征，最后将两者融合，这种方法弥补了在传统机器学习方法上在时间序列上特征信息的丢失。又如Tran等人提出了C3D模型来提取视频时空特征，但是该方法存在参数过多，计算量较大等因素。并且，传统的卷积网络对于...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法，其特征在于，包括：步骤1)将带有动作类别标签的若干动作类别的动作视频进行预处理后构成动作训练集；步骤2)建立多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet，将动作训练集输入多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中，多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet进行训练，获得训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet；步骤3)采集待检测的动作视频并输入至训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中，多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet输出待检测的动作视频的动作类别，完成动作识别。2.根据权利要求1所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法，其特征在于：所述的步骤1)中，将带有动作类别标签的若干动作类别的动作视频进行预处理，针对每个带有动作类别标签的动作视频，将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列，然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理，最终将预处理后的各个动作视频构成动作训练集。3.根据权利要求1所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法，其特征在于：所述的步骤2)中，多尺度自注意力机制的解耦的3D网络MSA_(2+1)D Net包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器；(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块，四个注意力机制模块和四个(2+1)D Residual残差模块相互交错并依次连接构成(2+1)D注意力模块组，(2+1)D注意力模块组中的第一个模块为注意力机...

【专利技术属性】
技术研发人员：田秋红，缪伟伦，李赛伟，潘豪，
申请(专利权)人：浙江理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人