System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种视频动作定位识别方法、设备、介质及产品技术_技高网

一种视频动作定位识别方法、设备、介质及产品技术

技术编号:41289517 阅读:7 留言:0更新日期:2024-05-11 09:38
本发明专利技术公开一种视频动作定位识别方法、设备、介质及产品,涉及视频定位技术领域,方法包括:获得待定位视频的RGB数据和光流数据;将待定位视频的RGB数据和光流数据输入视频动作定位模型,得到动作定位结果;视频动作定位模型是采用训练集对神经网络进行训练得到的;训练集中样本数据包括输入数据和标签数据,输入数据包括样本视频的RGB数据和光流数据,标签数据包括动作类别;神经网络用于分别对RGB数据和光流数据进行特征提取,得到RGB特征和光流特征;对RGB特征和光流特征进行聚合增强,得到聚合增强特征;对聚合增强特征进行分类,得到动作定位结果。本发明专利技术提高了动作定位的准确性。

【技术实现步骤摘要】

本专利技术涉及视频定位,特别是涉及一种视频动作定位识别方法、设备、介质及产品


技术介绍

1、在当前快速发展的互联网时代,网络信息呈现极高的泛滥,尤其是视频数据正经历爆炸式增长。相较于图像数据,视频数据包含更多的时序信息,也更适合进行高层次语义的分析和理解,例如人类的状态和动作的获取等。如何充分发掘这些视频数据,并在海量视频中快速定位感兴趣的内容成为亟待解决的问题。传统的视频分析方法需要大量人力投入,导致效率低、成本高,难以满足当前实际需求。因此,迫切需要引入自动化和智能化的视频分析技术,以更好地适应不断增长的实际需求。

2、随着计算机视觉技术的不断进步,基于深度学习的视频分析技术成为解决先前所提问题的重要方向,引起学术界和工业界的广泛关注。近年来,涌现出大量基于深度学习的视频分析技术,涵盖了视频行为识别、异常行为识别、视频特效制作等领域,为相关应用系统带来了革命性变革。作为智能视频分析的关键技术之一,视频时序动作定位(temporalaction localization,tal)能够准确找到视频中感兴趣动作的起始时间和结束时间,并对其进行分类。视频时序动作定位在体育赛事解读、智能监控、视频自动化剪辑等系统中具有重要的应用价值。

3、基于深度学习的全监督动作定位能得到准确度高的定位结果,但是需要人工标注出每一个动作实例的类别,开始时间以及结束时间,这些工作非常耗时并且很容易出现标注错误。因此对于一些时间长,规模大的视频,只能采用弱监督方式进行动作定位。

4、全监督视频时序动作定位可以获得较高准确度的定位结果,但需要对每个动作实例进行人工标注,包括动作类别、开始时间和结束时间。这一过程非常耗时,也很容易出现标注错误。因此,对于一些时间较长、规模较大的视频,采用弱监督方式进行动作定位成为一种有效的选择。视频弱监督时序动作定位(weakly supervised temporal actionlocalization,wtal)是当下视频分析领域的一个研究热点,该任务仅需要提供视频的动作类别标签即可完成训练,极大地减轻了标注的人力成本。然而,由于缺乏帧级别的分类标签,弱监督的视频动作定位方法容易出现动作帧的识别错误或未被识别的情况。目前的弱监督算法主要通过多实例学习获得初步的分类结果,然后利用这些结果来预测潜在的动作片段。然而,这种初步分类往往只关注视频中最具判别性的片段,而忽略了其他与动作相关的片段,导致动作定位结果不完整,无法满足视频动作定位模型对应用准确性的要求。


技术实现思路

1、本专利技术的目的是提供一种视频动作定位识别方法、设备、介质及产品,提高了动作定位的准确性。

2、为实现上述目的,本专利技术提供了如下方案:

3、一种视频动作定位识别方法,包括:

4、获得待定位视频的rgb数据和光流数据;

5、将待定位视频的rgb数据和光流数据输入所述视频动作定位模型,得到动作定位结果;所述视频动作定位模型是采用训练集对神经网络进行训练得到的;

6、所述训练集中样本数据包括输入数据和标签数据,所述输入数据包括样本视频的rgb数据和光流数据,所述标签数据包括动作类别;

7、所述神经网络用于分别对rgb数据和光流数据进行特征提取,得到rgb特征和光流特征;对所述rgb特征和所述光流特征进行聚合增强,得到聚合增强特征;对聚合增强特征进行分类,得到动作定位结果,所述动作定位结果包括动作的动作类别、开始时间和结束时间。

8、可选地,获得待定位视频的rgb数据和光流数据,具体包括:

9、对所述待定位视频进行采样,得到初始rgb数据;

10、对所述初始rgb数据采用tvl1算法生成初始光流数据;

11、采用固定帧数的滑动窗口对所述初始rgb数据进行分割,得到多个连续的非重叠rgb数据片段;

12、采用固定帧数的滑动窗口对所述初始光流数据数据进行分割,得到多个连续的非重叠光流数据片段;

13、对所述非重叠rgb数据片段进行采样,得到待定位视频的所述rgb数据;

14、对所述非重叠光流数据片段进行采样,得到待定位视频的所述光流数据。

15、可选地,所述神经网络包括视频特征获取模块,所述视频特征获取模块包括i3d网络和拼接单元;

16、所述i3d网络用于对待定位视频的rgb数据进行特征提取,得到所述rgb特征,对待定位视频的光流数据进行特征提取,得到所述光流特征;

17、所述拼接单元用于对所述rgb特征和所述光流特征沿通道维度进行级联拼接,得到片段级别特征表示。

18、可选地,所述神经网络还包括时序特征增强模块;所述时序特征增强模块包括一个特征嵌入层和l个串联的特征编码块;

19、所述特征嵌入层用于片段级别特征表示进行一维卷积后输入relu非线性激活函数,得到嵌入特征;

20、l个串联的特征编码块用于对所述嵌入特征进行特征编码,得到所述聚合增强特征。

21、可选地,各特征编码块均包括依次连接的多头自注意力模块、第一残差连接和层规范化、前反馈神经网络、以及第二残差连接和层规范化。

22、可选地,所述神经网络还包括分类定位层;所述分类定位层包括分类分支和注意力分支;

23、所述分类分支包括第一全连接层,所述第一全连接层用于输入所述聚合增强特征,输出类激活序列;

24、所述注意力分支包括第二全连接层、背景注意力、上下文注意力和动作注意力,所述第二全连接层的输出分别与所述背景注意力、所述上下文注意力和所述动作注意力的输入连接;

25、所述分类定位层用于根据所述类激活序列和所述动作注意力的权重值确定动作类别。

26、可选地,所述背景注意力用于输出背景类别激活序列,所述上下文注意力用于输出上下文类别激活序列,所述动作注意力用于输出动作类别激活序列;

27、所述所述分类分支还用于根据背景类别激活序列采用多实例学习机制获得背景概率分布;根据上下文类别激活序列采用多实例学习机制获得上下文概率分布;根据动作类别激活序列采用多实例学习机制获得视频级动作概率分布;

28、采用训练集对神经网络进行训练时的损失包括动作分类损失、背景分类损失和上下文分类损失;

29、所述动作分类损失根据所述视频级动作概率分布和视频级动作标签确定;所述背景分类损失根据所述背景概率分布和视频级背景标签确定;所述上下文分类损失根据所述上下文概率分布和视频级上下文标签确定。

30、一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现所述视频动作定位识别方法的步骤。

31、一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述视频动作定位识别方法的步骤。

32、一种计算机程序产品,包括计算机程序,该计算机程本文档来自技高网...

【技术保护点】

1.一种视频动作定位识别方法,其特征在于,包括:

2.根据权利要求1所述的视频动作定位识别方法,其特征在于,获得待定位视频的RGB数据和光流数据,具体包括:

3.根据权利要求1所述的视频动作定位识别方法,其特征在于,所述神经网络包括视频特征获取模块,所述视频特征获取模块包括I3D网络和拼接单元;

4.根据权利要求1所述的视频动作定位识别方法,其特征在于,所述神经网络还包括时序特征增强模块;所述时序特征增强模块包括一个特征嵌入层和L个串联的特征编码块;

5.根据权利要求4所述的视频动作定位识别方法,其特征在于,各特征编码块均包括依次连接的多头自注意力模块、第一残差连接和层规范化、前反馈神经网络、以及第二残差连接和层规范化。

6.根据权利要求1所述的视频动作定位识别方法,其特征在于,所述神经网络还包括分类定位层;所述分类定位层包括分类分支和注意力分支;

7.根据权利要求6所述的视频动作定位识别方法,其特征在于,所述背景注意力用于输出背景类别激活序列,所述上下文注意力用于输出上下文类别激活序列,所述动作注意力用于输出动作类别激活序列;

8.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述的视频动作定位识别方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的视频动作定位识别方法的步骤。

10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的视频动作定位识别方法的步骤。

...

【技术特征摘要】

1.一种视频动作定位识别方法,其特征在于,包括:

2.根据权利要求1所述的视频动作定位识别方法,其特征在于,获得待定位视频的rgb数据和光流数据,具体包括:

3.根据权利要求1所述的视频动作定位识别方法,其特征在于,所述神经网络包括视频特征获取模块,所述视频特征获取模块包括i3d网络和拼接单元;

4.根据权利要求1所述的视频动作定位识别方法,其特征在于,所述神经网络还包括时序特征增强模块;所述时序特征增强模块包括一个特征嵌入层和l个串联的特征编码块;

5.根据权利要求4所述的视频动作定位识别方法,其特征在于,各特征编码块均包括依次连接的多头自注意力模块、第一残差连接和层规范化、前反馈神经网络、以及第二残差连接和层规范化。

6.根据权利要求1所述的视频动作定位识别方法,其特征在于,所述神经网络还包括分...

【专利技术属性】
技术研发人员:程渤马嘉蒙吴志君陈俊亮
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1