基于多尺度自注意力机制的解耦的3D网络的动作识别方法技术

技术编号:39302524 阅读:13 留言:0更新日期:2023-11-12 15:52
本发明专利技术公开了一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法。方法包括:将带有动作类别标签的动作视频进行预处理后构成动作训练集;建立多尺度自注意力机制的解耦的3D网络,将动作训练集输入训练;采集待检测的动作视频并输入,输出待检测的动作视频的动作类别,完成动作识别。本发明专利技术方法能够关注到多尺度特征图上的全局时空特征,可以在空间和时间维度上实现更好的平衡,能够充分的利用特征信息,更全面地建模视频数据的时空特性,提高对视频数据的表达能力,提高对视频内容的理解和解释能力,提高了视频动作分类的性能。提高了视频动作分类的性能。提高了视频动作分类的性能。

【技术实现步骤摘要】
基于多尺度自注意力机制的解耦的3D网络的动作识别方法


[0001]本专利技术涉及了一种动作识别方法,涉及深度学习的动作识别
,具体涉及一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法。

技术介绍

[0002]随着深度学习的技术不断发展以及动作识别应用场景不断增加,目前在动作识别领域,基于深度学习的动作识别技术逐渐称为一个关键领域。
[0003]动作识别技术是计算机视觉的一个重要的研究领域,在人机方面应用较为广泛,动作识别技术在最近几年来已经逐渐成为计算机视觉领域的主要研究内容。动作识别的研究方法总体上可以分为两种,基于传统机器学习手动提取特征的方法和基于深度网络学习特征的识别方法。
[0004]针对于传统机器学习手动提取特征的方法主要是通过采用传统机器学习算法对视频进行预处理,提取视频特征,对特征进行向量化,训练模型,预测动作分类。但是视频动作识别存在光照、背景变化、视频帧之间存在联系等因素的影响,无法充分提取手势特征,鲁棒性较差。
[0005]针对于深度学习的动作识别方法,相比于二维图像,增加了时序信息,因此深度学习的动作识别方法不仅可以学习空间序列信息,还可以识别时间序列特征信息。例如Simonyan首先提出了经典的双流CNN,分别时使用空间流网络和时间流网络学习空间特征和时间特征,最后将两者融合,这种方法弥补了在传统机器学习方法上在时间序列上特征信息的丢失。又如Tran等人提出了C3D模型来提取视频时空特征,但是该方法存在参数过多,计算量较大等因素。并且,传统的卷积网络对于长期依赖关系的建模能力相对有限,难以捕捉到视频序列中更长时间跨度的语义信息。

技术实现思路

[0006]为了解决
技术介绍
中存在的问题,本专利技术所提供一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法(Decoupled 3D network using multi

scale self attention mechanism,MSA_(2+1)DNet)。方法具体针对复杂特征难以有效提取、传统的三维卷积神经网络计算量参数较大,以及无法同时兼顾长期和短期的时空信息等问题。3DCNN网络结构虽能较好的捕捉视频信息的时空特征,但其存在网络参数量较大的问题。针对此问题采用(2+1)D网络模型,通过将3D卷积核拆分为在空间维度上的二维卷积以及在时间维度上的一维卷积,该方法能够有效的减少参数的计算量。此外,设计出一种Attention

Mechnism模型,该模型通过将动作视频分为相同大小的视频块,并且引入了时空编码使得视频块在原始视频中的位置信息以及时间信息得以保留,通过视频块与视频块之间自注意力计算得到动作视频的全局时空信息,并且该注意力机制适用于卷积产生的多种尺度的特征图。并且设计的(2+1)D Residual Module模块不仅融合了注意力机制得到的全局时空特征,更进一步提取视频动作的局部时空特征,使得网络能够有效的兼顾长期和短期时空特
征。
[0007]本专利技术采用的技术方案是:
[0008]本专利技术的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,包括:
[0009]步骤1)将带有动作类别标签的若干动作类别的动作视频进行预处理后构成动作训练集,实际操作时按照预设比例划分为训练集和测试集。
[0010]步骤2)建立多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet,将动作训练集输入多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet进行训练,获得训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet。
[0011]步骤3)采集待检测的动作视频并输入至训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet输出待检测的动作视频的动作类别,完成动作识别。
[0012]所述的步骤1)中,将带有动作类别标签的若干动作类别的动作视频进行预处理,针对每个带有动作类别标签的动作视频,将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列,然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理,最终将预处理后的各个动作视频构成动作训练集。
[0013]所述的步骤2)中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)D Net包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器;(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块,四个注意力机制模块和四个(2+1)D Residual残差模块相互交错并依次连接构成(2+1)D注意力模块组,(2+1)D注意力模块组中的第一个模块为注意力机制模块。
[0014](2+1)D stem模块的输入为视频帧序列,视频帧序列经第一卷积层后提取到低层有关空间信息的特征图,然后输入第二卷积层,对经过第二卷积层的特征图采用时间维度上的一维卷积操作后得到有关低层时空信息的特征图。
[0015](2+1)D Residual模块包含两个残差模块:在第一残差模块中,将输入的特征图经过两层三维卷积层提取局部时空特征,并且将得到的局部时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出,并将此融合特征进行下采样,使通道数提升以及降低特征图的高和宽;在第二残差模块中,以第一残差模块的输出作为输入,输入的特征图经过两层三维卷积层后进一步提取局部的时空特征,与第二残差模块输入的特征进行Add操作得到第二残差模块的输出。
[0016](2+1)D Residual Module提取的时空特征经过一个全局平均池化层进一步提取高层全局时空特征,再经Flatten操作将多维特征进行一维化,之后经过一个全连接层并且采用SoftMax分类器进行动作分类,最后得到MSA_(2+1)DNet模型的动作分类结果。
[0017]所述的注意力机制模块包括切割块patch_embedding操作、第一向量相加Add操作、时空编码生成操作、神经元随机失活Dropout操作、第二线性全连接层MLP、第三线性全连接层MLP、第四线性全连接层MLP、第一矩阵乘法Multiply操作、指数函数softmax归一化操作、向量除法Divide操作、第二矩阵乘法Multiply操作、上采样操作和第二向量相加Add操作。
[0018]注意力机制模块的输入首先进行切割块patch_embedding操作后获得特征图,特征图经过时空编码生成操作后获得特征图的可学习参数,可学习参数和特征图共同进行第一向量相加Add操作后再进行神经元随机失活Dropout操作,然后分别输入至第二线性全连接层MLP、第三线性全连接层MLP和第四线性全连接层MLP中进行处理,第二线性全连接层MLP本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于,包括:步骤1)将带有动作类别标签的若干动作类别的动作视频进行预处理后构成动作训练集;步骤2)建立多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet,将动作训练集输入多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet进行训练,获得训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet;步骤3)采集待检测的动作视频并输入至训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet输出待检测的动作视频的动作类别,完成动作识别。2.根据权利要求1所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述的步骤1)中,将带有动作类别标签的若干动作类别的动作视频进行预处理,针对每个带有动作类别标签的动作视频,将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列,然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理,最终将预处理后的各个动作视频构成动作训练集。3.根据权利要求1所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述的步骤2)中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)D Net包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器;(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块,四个注意力机制模块和四个(2+1)D Residual残差模块相互交错并依次连接构成(2+1)D注意力模块组,(2+1)D注意力模块组中的第一个模块为注意力机...

【专利技术属性】
技术研发人员:田秋红缪伟伦李赛伟潘豪
申请(专利权)人:浙江理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1