基于三维卷积神经网络的人体动作识别方法及系统技术方案

技术编号：41327432 阅读：7 留言：0更新日期：2024-05-13 15:05

本发明专利技术公开了一种基于三维卷积网络识别的动作识别方法及系统，属于计算机视觉领域，首先重构三维卷积网络模型；建立多层特征模块并采用残差式连接，使各特征模块之间顺序直连，根据各特征模块的数量改变网络模型的深度，各特征模块包括卷积层、批标准化层和池化层；在两层特征模块的卷积层采用并行多尺度3D卷积方式，用于捕获不同尺度的空间和时间信息，其它特征模块的卷积层采用时空分离卷积方式，通过时空分离卷积层获取输入特征图中的时间和空间信息并进行有效地结合；根据训练数据集对重构三维卷积网络模型进行训练，根据训练后的三维卷积网络模型进行动作识别，本发明专利技术提出的动作识别模型具有更好的准确率，更强的鲁棒性以及良好的模型泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，具体为基于三维卷积神经网络的人体动作识别方法及系统

技术介绍

1、动作识别作为计算机视觉领域的研究热点，一直受到国内外研究人员的关注。而以卷积神经网络为代表的深度学习方法是动作识别的一大主要方法。卷积神经网络(cnn)是一种深度学习模型，主要用于处理图像数据。它通过卷积操作提取图像中的空间特征，然后通过池化操作降低数据的维度。在动作识别中，cnn可以用于提取视频帧中的空间特征。

2、三维卷积是一种用于处理视频序列等时间序列数据的卷积操作。它将卷积核从二维扩展到三维，以便同时考虑时间和空间维度的特征。使用三维卷积来提取视频序列中的时间和空间特征，这种方法可以捕捉到视频序列中的运动信息，从而进行动作的有效识别，但是现有的三维卷积神经网络对于动作识别存在的网络结构较浅，特征提取不够充分，难以有效地捕获多尺度的空间和时间信息等问题。

技术实现思路

1、针对现有技术中存在的问题，本专利技术提供一种基于三维卷积神经网络的人体动作识别方法及系统，有效提升模型捕获不同尺度的时空信息的能力，提高模型的鲁棒性。

2、本专利技术是通过以下技术方案来实现：

3、一种基于三维卷积网络识别的动作识别方法，包括以下步骤：

4、步骤1、重构三维卷积网络模型；

5、建立多层特征模块并采用残差式连接，使各特征模块之间顺序直连，根据各特征模块的数量改变网络模型的深度，各特征模块包括卷积层、批标准化层和池化层；

6、在两

7、步骤2、根据训练数据集对重构三维卷积网络模型进行训练，根据训练后的三维卷积网络模型进行动作识别。

8、优选的，步骤1中所述多尺度3d卷积方式在卷积层中并入2×2×2以及5×5×5不同尺度的卷积核，每个卷积层都会在其输入上并行操作，并产生一组特征图，使用一个1×1×1的卷积层来减少特征图的数量，得到最终的特征图。

9、优选的，所述时空分离卷积包括2d空间卷积和1d时间卷积，d空间卷积的输出作为1d时间卷积的输入；

10、将3d特征图作为2d空间卷积的输入图像，选取3×3的卷积核来处理输入图像，通过取原始3d特征图上的所有时间帧的平均值将3d特征图展平为2d图像；

11、将选定的3×3卷积核在特征图上滑动并计算每个位置的加权和，得到2d特征图；

12、将3d特征图作为1d空间卷积的输入序列，选取尺度为3的卷积核来处理输入序列，将所有空间位置的对应值连接起来，把特征图“展平”为1d序列；

13、将选定的卷积核在特征图上滑动并计算每个位置的加权和，得到1d特征图。

14、优选的，使用恒等映射indentity mapping作为特征模块原始输入xn-1，与特征模块输出的和作为新的输出yn；

15、yn＝r*(xn-1,w)+xn-1

16、其中，w表示残差模块中的可训练参数，r*为残差映射r*。

17、优选的，第一层特征模块的池化层采用二维卷积，第二层特征模块的池化层采用三维卷积。

18、优选的，所述最下层特征模块通过两个全连接层与分类器连接，通过分类器得到动作分类结果。

19、优选的，所述重构三维卷积网络模型的结构如下：

20、第一层和第二层特征模块包括并行的多尺度的卷积层、bn层和池化层组成；第一层特征模块的池化层采用二维卷积，第二层特征模块的池化层采用三维卷积；

21、第三层特征模块、第四层特征模块、第五层特征模块和第六层特征模块的结构相同，包括两个时空分离卷积层、bn层和三维池化层；

22、第六层特征模块连接两层全连接层以及一个softmax分类层。

23、一种基于三维卷积网络识别的动作识别方法的系统，包括：

24、三维卷积网络模型重构模块，用于建立多层特征模块并采用残差式连接，使各特征模块之间顺序直连，根据各特征模块的数量改变网络模型的深度，各特征模块包括卷积层、批标准化层和池化层；

25、在两层特征模块的卷积层采用并行多尺度3d卷积方式，用于捕获不同尺度的空间和时间信息，其它特征模块的卷积层采用时空分离卷积方式，通过时空分离卷积层获取输入特征图中的时间和空间信息并进行有效地结合；

26、动作识别模块，用于根据训练数据集对重构三维卷积网络模型进行训练，根据训练后的三维卷积网络模型进行动作识别。

27、与现有技术相比，本专利技术具有以下有益的技术效果：

28、本专利技术提出了一种基于三维卷积神经网络的动作识别方法，该方法将网络结构中的3d卷积方式替换为时空分离的卷积方式，提高了网络结构的表示复杂性，减少过拟合现象的发生；在最后增加了一层时空卷积层和一层3d池化层，加深了网络结构，使网络可以学习内容更丰富的视频信息；通过在每一层卷积层之后加入bn层，避免了由于网络结构加深产生的梯度消失或者梯度爆炸等问题；通过引入并行多尺度3d卷积，提高了网络对不同尺度时空信息的捕获能力；通过引入残差连接缓解了梯度消失问题，可以训练更深的网络，同时使得网络更加容易学习恒等映射，提高了模型的性能。通过上述改进，本专利技术提出的动作识别模型具有更好的准确率，更强的鲁棒性以及良好的模型泛化能力。

本文档来自技高网...

【技术保护点】

1.一种基于三维卷积网络识别的动作识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于三维卷积网络识别的动作识别方法，其特征在于，步骤1中所述多尺度3D卷积方式在卷积层中并入2×2×2以及5×5×5不同尺度的卷积核，每个卷积层都会在其输入上并行操作，并产生一组特征图，使用一个1×1×1的卷积层来减少特征图的数量，得到最终的特征图。

3.根据权利要求1所述的一种基于三维卷积网络识别的动作识别方法，其特征在于，所述时空分离卷积包括2D空间卷积和1D时间卷积，D空间卷积的输出作为1D时间卷积的输入；

4.根据权利要求1所述的一种基于三维卷积网络识别的动作识别方法，其特征在于，使用恒等映射Indentity mapping作为特征模块原始输入xn-1，与特征模块输出的和作为新的输出yn；

5.根据权利要求1所述的一种基于三维卷积网络识别的动作识别方法，其特征在于，第一层特征模块的池化层采用二维卷积，第二层特征模块的池化层采用三维卷积。

6.根据权利要求1所述的一种基于三维卷积网络识别的动作识别方法，其特征在于，

7.根据权利要求1所述的一种基于三维卷积网络识别的动作识别方法，其特征在于，所述重构三维卷积网络模型的结构如下：

8.一种权利要求1-7任一项所述的一种基于三维卷积网络识别的动作识别方法的系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于三维卷积网络识别的动作识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于三维卷积网络识别的动作识别方法，其特征在于，步骤1中所述多尺度3d卷积方式在卷积层中并入2×2×2以及5×5×5不同尺度的卷积核，每个卷积层都会在其输入上并行操作，并产生一组特征图，使用一个1×1×1的卷积层来减少特征图的数量，得到最终的特征图。

3.根据权利要求1所述的一种基于三维卷积网络识别的动作识别方法，其特征在于，所述时空分离卷积包括2d空间卷积和1d时间卷积，d空间卷积的输出作为1d时间卷积的输入；

4.根据权利要求1所述的一种基于三维卷积网络识别的动作识别方法，其特征在于，使用恒等映射indent...

【专利技术属性】
技术研发人员：刘晟，孙晗，亓黎明，田程，曹霆，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人