一种视频动作定位识别方法、设备、介质及产品技术

技术编号：41289517 阅读：9 留言：0更新日期：2024-05-11 09:38

本发明专利技术公开一种视频动作定位识别方法、设备、介质及产品，涉及视频定位技术领域，方法包括：获得待定位视频的RGB数据和光流数据；将待定位视频的RGB数据和光流数据输入视频动作定位模型，得到动作定位结果；视频动作定位模型是采用训练集对神经网络进行训练得到的；训练集中样本数据包括输入数据和标签数据，输入数据包括样本视频的RGB数据和光流数据，标签数据包括动作类别；神经网络用于分别对RGB数据和光流数据进行特征提取，得到RGB特征和光流特征；对RGB特征和光流特征进行聚合增强，得到聚合增强特征；对聚合增强特征进行分类，得到动作定位结果。本发明专利技术提高了动作定位的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频定位，特别是涉及一种视频动作定位识别方法、设备、介质及产品。

技术介绍

1、在当前快速发展的互联网时代，网络信息呈现极高的泛滥，尤其是视频数据正经历爆炸式增长。相较于图像数据，视频数据包含更多的时序信息，也更适合进行高层次语义的分析和理解，例如人类的状态和动作的获取等。如何充分发掘这些视频数据，并在海量视频中快速定位感兴趣的内容成为亟待解决的问题。传统的视频分析方法需要大量人力投入，导致效率低、成本高，难以满足当前实际需求。因此，迫切需要引入自动化和智能化的视频分析技术，以更好地适应不断增长的实际需求。

2、随着计算机视觉技术的不断进步，基于深度学习的视频分析技术成为解决先前所提问题的重要方向，引起学术界和工业界的广泛关注。近年来，涌现出大量基于深度学习的视频分析技术，涵盖了视频行为识别、异常行为识别、视频特效制作等领域，为相关应用系统带来了革命性变革。作为智能视频分析的关键技术之一，视频时序动作定位(temporalaction localization，tal)能够准确找到视频中感兴趣动作的起始时间和结束时间，并对其进行分类。视频时序动作定位在体育赛事解读、智能监控、视频自动化剪辑等系统中具有重要的应用价值。

3、基于深度学习的全监督动作定位能得到准确度高的定位结果，但是需要人工标注出每一个动作实例的类别，开始时间以及结束时间，这些工作非常耗时并且很容易出现标注错误。因此对于一些时间长，规模大的视频，只能采用弱监督方式进行动作定位。

4、全监督视频时序动作定位可以获得较高

技术实现思路

1、本专利技术的目的是提供一种视频动作定位识别方法、设备、介质及产品，提高了动作定位的准确性。

2、为实现上述目的，本专利技术提供了如下方案：

3、一种视频动作定位识别方法，包括：

4、获得待定位视频的rgb数据和光流数据；

5、将待定位视频的rgb数据和光流数据输入所述视频动作定位模型，得到动作定位结果；所述视频动作定位模型是采用训练集对神经网络进行训练得到的；

6、所述训练集中样本数据包括输入数据和标签数据，所述输入数据包括样本视频的rgb数据和光流数据，所述标签数据包括动作类别；

7、所述神经网络用于分别对rgb数据和光流数据进行特征提取，得到rgb特征和光流特征；对所述rgb特征和所述光流特征进行聚合增强，得到聚合增强特征；对聚合增强特征进行分类，得到动作定位结果，所述动作定位结果包括动作的动作类别、开始时间和结束时间。

8、可选地，获得待定位视频的rgb数据和光流数据，具体包括：

9、对所述待定位视频进行采样，得到初始rgb数据；

10、对所述初始rgb数据采用tvl1算法生成初始光流数据；

11、采用固定帧数的滑动窗口对所述初始rgb数据进行分割，得到多个连续的非重叠rgb数据片段；

12、采用固定帧数的滑动窗口对所述初始光流数据数据进行分割，得到多个连续的非重叠光流数据片段；

13、对所述非重叠rgb数据片段进行采样，得到待定位视频的所述rgb数据；

14、对所述非重叠光流数据片段进行采样，得到待定位视频的所述光流数据。

15、可选地，所述神经网络包括视频特征获取模块，所述视频特征获取模块包括i3d网络和拼接单元；

16、所述i3d网络用于对待定位视频的rgb数据进行特征提取，得到所述rgb特征，对待定位视频的光流数据进行特征提取，得到所述光流特征；

17、所述拼接单元用于对所述rgb特征和所述光流特征沿通道维度进行级联拼接，得到片段级别特征表示。

18、可选地，所述神经网络还包括时序特征增强模块；所述时序特征增强模块包括一个特征嵌入层和l个串联的特征编码块；

19、所述特征嵌入层用于片段级别特征表示进行一维卷积后输入relu非线性激活函数，得到嵌入特征；

20、l个串联的特征编码块用于对所述嵌入特征进行特征编码，得到所述聚合增强特征。

21、可选地，各特征编码块均包括依次连接的多头自注意力模块、第一残差连接和层规范化、前反馈神经网络、以及第二残差连接和层规范化。

22、可选地，所述神经网络还包括分类定位层；所述分类定位层包括分类分支和注意力分支；

23、所述分类分支包括第一全连接层，所述第一全连接层用于输入所述聚合增强特征，输出类激活序列；

24、所述注意力分支包括第二全连接层、背景注意力、上下文注意力和动作注意力，所述第二全连接层的输出分别与所述背景注意力、所述上下文注意力和所述动作注意力的输入连接；

25、所述分类定位层用于根据所述类激活序列和所述动作注意力的权重值确定动作类别。

26、可选地，所述背景注意力用于输出背景类别激活序列，所述上下文注意力用于输出上下文类别激活序列，所述动作注意力用于输出动作类别激活序列；

27、所述所述分类分支还用于根据背景类别激活序列采用多实例学习机制获得背景概率分布；根据上下文类别激活序列采用多实例学习机制获得上下文概率分布；根据动作类别激活序列采用多实例学习机制获得视频级动作概率分布；

28、采用训练集对神经网络进行训练时的损失包括动作分类损失、背景分类损失和上下文分类损失；

29、所述动作分类损失根据所述视频级动作概率分布和视频级动作标签确定；所述背景分类损失根据所述背景概率分布和视频级背景标签确定；所述上下文分类损失根据所述上下文概率分布和视频级上下文标签确定。

30、一种计算机设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序以实现所述视频动作定位识别方法的步骤。

31、一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述视频动作定位识别方法的步骤。

32、一种计算机程序产品，包括计算机程序，该计算机程本文档来自技高网...

【技术保护点】

1.一种视频动作定位识别方法，其特征在于，包括：

2.根据权利要求1所述的视频动作定位识别方法，其特征在于，获得待定位视频的RGB数据和光流数据，具体包括：

3.根据权利要求1所述的视频动作定位识别方法，其特征在于，所述神经网络包括视频特征获取模块，所述视频特征获取模块包括I3D网络和拼接单元；

4.根据权利要求1所述的视频动作定位识别方法，其特征在于，所述神经网络还包括时序特征增强模块；所述时序特征增强模块包括一个特征嵌入层和L个串联的特征编码块；

5.根据权利要求4所述的视频动作定位识别方法，其特征在于，各特征编码块均包括依次连接的多头自注意力模块、第一残差连接和层规范化、前反馈神经网络、以及第二残差连接和层规范化。

6.根据权利要求1所述的视频动作定位识别方法，其特征在于，所述神经网络还包括分类定位层；所述分类定位层包括分类分支和注意力分支；

7.根据权利要求6所述的视频动作定位识别方法，其特征在于，所述背景注意力用于输出背景类别激活序列，所述上下文注意力用于输出上下文类别激活序列，所述动作注意力用于输出动作类别激活序列；

8.一种计算机设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述的视频动作定位识别方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任一项所述的视频动作定位识别方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任一项所述的视频动作定位识别方法的步骤。

...

【技术特征摘要】

1.一种视频动作定位识别方法，其特征在于，包括：

2.根据权利要求1所述的视频动作定位识别方法，其特征在于，获得待定位视频的rgb数据和光流数据，具体包括：

3.根据权利要求1所述的视频动作定位识别方法，其特征在于，所述神经网络包括视频特征获取模块，所述视频特征获取模块包括i3d网络和拼接单元；

4.根据权利要求1所述的视频动作定位识别方法，其特征在于，所述神经网络还包括时序特征增强模块；所述时序特征增强模块包括一个特征嵌入层和l个串联的特征编码块；

6.根据权利要求1所述的视频动作定位识别方法，其特征在于，所述神经网络还包括分...

【专利技术属性】
技术研发人员：程渤，马嘉蒙，吴志君，陈俊亮，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人