一种高效且准确识别视频动作信息的方法技术

技术编号：40348721 阅读：2 留言：0更新日期：2024-02-09 14:33

本发明专利技术公开了一种高效且准确识别视频动作信息的方法，包括如下步骤：步骤一、采集视频数据并对其进行预处理，获得输入数据；步骤二、建立二维卷积神经网络，包括依次连接的六个阶段，第一阶段包括依次连接的卷积批池化层、最大化池化层和通道迁移层，第二阶段到第五阶段均为瓶颈层构成，且每个阶段的瓶颈层的具体数量为[3,4,6,3]，每个阶段的第一层瓶颈层为优化瓶颈层，其余瓶颈层均为原始瓶颈层，第六阶段包括依次连接的全局平均池化层和全连接层；步骤三、将输入数据输入所述二维卷积神经网络中，获得概率最大值对应的动作标签即为识别出的视频动作信息。本发明专利技术具有提高动作识别的准确性和识别效率的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉的视频理解，更具体的是，本专利技术涉及一种高效且准确识别视频动作信息的方法。

技术介绍

1、动作识别是计算机视觉领域中视频理解的重要课题之一，识别视频的动作信息为复杂的大模型提供技术的基础，动作识别推动视频理解中各种课题的发展，例如姿势识别、状态评估等，是计算机科学研究的基础问题之一。

2、视频数据的爆炸增长带来对高准确度和低成本计算的视频理解挑战，由于关于视频数据的识别，不仅要关注静态空间信息的分布，而且要关注动态时间信息的变化，视频数据在时间上内容的变化也影响着空间物体的分布，因此两个维度的信息还需要综合的考虑。常规的图像视觉模型在成本上是相对廉价的，但其无法捕获时间维度的关系，实现视频动作识别的模型在计算成本上相对较高。

3、在视频理解的动作识别模型中，计算过程不可避免会产生冗余或无用的信息，这些信息对最终的识别结果造成负面的影响，注意力机制对此问题有着妥善的解决方案，通过优化模型的计算过程，突出关键的部分并减少不必要的计算，其相关方法得到广泛的认可。在动作识别中，注意力机制需要根据模型的工作方式进一步调整，以适应视频数据的特征。

4、实现视频动作识别的模型主要分为两类：基于卷积神经网络的视频动作识别和基于transformer的视频动作识别。

5、在基于卷积神经网络的视频动作识别模型中，通过卷积层的计算来获得时间和空间的信息，从而实现动作的识别，不论是卷积的堆叠(二维卷积神经网络)还是维度的扩张(三维卷积神经网络)，卷积层采样时空信息的技术在视频理解

6、在基于transformer的视频动作识别模型中，通过多头注意力模块的计算按照时间的顺序获得空间的信息，它序列化的输入与视频的时间特征契合，运行过程中关注全局的空间信息使两个维度的信息有效结合，通过注意力模块的处理突出运动过程的关键信息，这类模型对于数据的完整性要求较高，实际生活生产的数据质量大多存在干扰，信息的缺省导致模型在准确度的表现不及预期，同时，多头的注意力模块的计算方式使成本也呈指数级的提高，不适用于日常的使用，庞大的模型参数量使其占用和计算需要的成本都很高。

技术实现思路

1、本专利技术的目的是设计开发了一种高效且准确识别视频动作信息的方法，通过通道迁移结合时空注意力模块，优化全局空间信息的分布，降低运算能耗，实现高效且准确的动作识别。

2、本专利技术提供的技术方案为：

3、一种高效且准确识别视频动作信息的方法，包括如下步骤：

4、步骤一、采集视频数据并对所述视频数据进行预处理，获得输入数据；

5、步骤二、建立二维卷积神经网络：

6、所述二维卷积神经网络包括依次连接的六个阶段，第一阶段包括依次连接的卷积批池化层、最大化池化层和通道迁移层，第二阶段到第五阶段均为瓶颈层构成，且每个阶段的瓶颈层的具体数量为[3,4,6,3]，每个阶段的第一层瓶颈层为优化瓶颈层，其余瓶颈层均为原始瓶颈层，第六阶段包括依次连接的全局平均池化层和全连接层；

7、其中，所述优化瓶颈层包括依次连接的1×1的卷积池化层、3×3的卷积池化层、1×1的卷积池化层和时空注意力模块，所述时空注意力模块包括依次连接的空间信息处理层、通道全连接层、批归一化层、激活层和对齐操作层；

8、步骤三、将输入数据输入所述二维卷积神经网络中，获得概率最大值对应的动作标签即为识别出的视频动作信息。

9、优选的是，所述预处理包括：

10、对所述视频数据进行分段处理，每段为8帧，将每段视频数据按照时间顺序进行排序后在每段视频中随机抽取一帧组成输入数据。

11、优选的是，所述视频数据分段后，若有某一段视频不足8帧，则将不足部分填充空白帧进行补齐。

12、优选的是，所述通道迁移层满足：

13、将不同时刻的前后帧进行上下移动，具体迁移比例为0.125。

14、优选的是，所述原始瓶颈层包括依次连接的1×1卷积池化层、3×3卷积池化层和1×1卷积池化层。

15、优选的是，所述空间信息处理层满足：

16、

17、

18、式中，μn*c为空间信息矩阵中所有参数的均值，σn*c为空间信息矩阵中所有参数的方差，χn*c*h*w为输入数据的每一帧视频数据，n为输入数据中帧的数量，c为每一帧视频数据的通道数，h为每一帧视频数据的高度，w为每一帧视频数据的宽度。

19、优选的是，所述时空注意力模块的通道全连接层满足：

20、tn*c＝[μn*c,σn*c]；

21、

22、式中，tn*c为聚合通道矩阵，ωc为通道维度的权重分配，γn*c为第一中间参数，βn*c为第二中间参数，zn*c为第一通道矩阵。

23、优选的是，所述时空注意力模块的批归一化层满足：

24、

25、

26、式中，μc为第一通道矩阵中所有参数的均值，σc为第一通道矩阵所有参数的方差。

27、优选的是，所述时空注意力模块的激活层满足：

28、

29、式中，为第二通道矩阵，γc为第三中间参数，βc为第四中间参数。

30、优选的是，所述时空注意力模块的对齐操作层满足：

31、

32、

33、式中，gn*c′为注意力矩阵，xn*c′为时空注意力模块的输入矩阵，为优化特征矩阵。

34、本专利技术所述的有益效果：

35、本专利技术设计开发的一种高效且准确识别视频动作信息的方法，基于二维卷积神经网络的模型，利用其在计算成本上的优势，优化模型的计算过程，以不增加计算成本的方式实现高准确度的视频动作识别，主要使用地址指针迁移的方式使输入数据包含视频的时间和空间信息，设计相关的时空注意力模块，优化全局空间信息的分布，并关注动作变化的关键部分，实现识别准确度的提高，减少识别过程的计算成本和计算消耗，并降低整体的运行能耗，实现高效且准确的动作识别。

本文档来自技高网...

【技术保护点】

1.一种高效且准确识别视频动作信息的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的高效且准确识别视频动作信息的方法，其特征在于，所述预处理包括：

3.如权利要求2所述的高效且准确识别视频动作信息的方法，其特征在于，所述视频数据分段后，若有某一段视频不足8帧，则将不足部分填充空白帧进行补齐。

4.如权利要求3所述的高效且准确识别视频动作信息的方法，其特征在于，所述通道迁移层满足：

5.如权利要求4所述的高效且准确识别视频动作信息的方法，其特征在于，所述原始瓶颈层包括依次连接的1×1卷积池化层、3×3卷积池化层和1×1卷积池化层。

6.如权利要求5所述的高效且准确识别视频动作信息的方法，其特征在于，所述空间信息处理层满足：

7.如权利要求6所述的高效且准确识别视频动作信息的方法，其特征在于，所述时空注意力模块的通道全连接层满足：

8.如权利要求7所述的高效且准确识别视频动作信息的方法，其特征在于，所述时空注意力模块的批归一化层满足：

9.如权利要求8所述的高效且准确识别视频动作信

10.如权利要求9所述的高效且准确识别视频动作信息的方法，其特征在于，所述时空注意力模块的对齐操作层满足：

...

【技术特征摘要】

1.一种高效且准确识别视频动作信息的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的高效且准确识别视频动作信息的方法，其特征在于，所述预处理包括：

4.如权利要求3所述的高效且准确识别视频动作信息的方法，其特征在于，所述通道迁移层满足：

5.如权利要求4所述的高效且准确识别视频动作信息的方法，其特征在于，所述原始瓶颈层包括依次连接的1×1卷积池化层、3×3卷积池化层和1×1卷积池...

【专利技术属性】
技术研发人员：王兴旺，陈仕霖，于美铭，孙亚峰，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人