一种视频动作定位方法和装置制造方法及图纸

技术编号:34403573 阅读:21 留言:0更新日期:2022-08-03 21:46
本发明专利技术公开了一种视频动作定位方法和装置,涉及计算机视觉技术领域。该方法的一具体实施方式包括:将待处理视频的视频序列输入预先训练好的视频动作定位模型;通过视频动作定位模型从视频序列中提取出视频特征参数;基于视频特征参数和视频动作定位模型包括的分类分支子模型,确定待处理视频包括的动作类型;基于视频特征参数和视频动作定位模型包括的定位分支子模型,对待处理视频包括的动作类型进行定位;根据分类分支子模型确定出的动作类型,对定位的结果进行调整。该实施方式有效地提高动作分类以及定位的准确性。提高动作分类以及定位的准确性。提高动作分类以及定位的准确性。

【技术实现步骤摘要】
一种视频动作定位方法和装置


[0001]本专利技术涉及计算机视觉
,尤其涉及一种视频动作定位方法和装置。

技术介绍

[0002]视频动作定位是指从一段比较长的视频中定位特定动作或特定动作片段的技术,例如,从自动驾驶的监控摄像头拍摄到的视频中定位行走的行人或者移动的车辆,又比如,从一段完整视频中定位出吃饭、打球上篮等动作片段。
[0003]目前,视频动作定位模型由于要兼顾动作分类和动作定位,而动作分类与动作定位之间存在高纯度冲突,导致不完全定位或定位错误的问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种视频动作定位方法和装置,能够有效地提高动作分类以及定位的准确性。
[0005]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种视频动作定位方法,包括:
[0006]将待处理视频的视频序列输入预先训练好的视频动作定位模型;
[0007]通过所述视频动作定位模型从所述视频序列中提取出视频特征参数;
[0008]基于所述视频特征参数和所述视频动作定位模型包括的分类分支子模型,确定所述待处理视频包括的动作类型;
[0009]基于所述视频特征参数和所述视频动作定位模型包括的定位分支子模型,对所述待处理视频包括的动作类型进行定位;
[0010]根据所述分类分支子模型确定出的所述动作类型,对定位的结果进行调整。
[0011]可选地,所述分类分支子模型包括:训练出的第一卷积神经网络以及训练出的重要性注意机制;
[0012]所述确定所述待处理视频包括的动作类型,包括:
[0013]将所述视频特征参数输入所述第一卷积神经网络,并将所述卷积神经网络输出的调整后的第一视频特征参数,输入所述重要性注意机制;
[0014]所述重要性注意机制基于所述第一视频特征参数,计算所述待处理视频包括的动作属于预设的动作类型的分数;
[0015]根据计算的结果,确定所述待处理视频包括的动作所属的动作类型。
[0016]可选地,所述定位分支子模型包括:训练出的第二卷积神经网络、训练出的特征统一子模块以及训练出的重要性注意机制;
[0017]所述对所述待处理视频包括的动作类型进行定位,包括:
[0018]将所述视频特征参数输入所述第二卷积神经网络,并将输出的调整后的第二视频特征参数,输入所述特征统一子模块;
[0019]所述特征统一子模块将所述第二视频特征参数包括的多个相似特征合并为矫正
特征,将所述矫正特征输入所述重要性注意机制;
[0020]所述重要性注意机制基于所述矫正特征,计算所述待处理视频包括的动作属于预设的动作类型分数;
[0021]根据计算的结果,确定所述待处理视频包括的动作所属的动作类型,并对所述动作进行定位。
[0022]可选地,所述对定位的结果进行调整,包括:
[0023]将所述分类分支子模型确定出的所述动作类型和所述定位分支子模型的定位的结果叠加到所述视频序列;
[0024]根据叠加后的结果,修正定位的结果。
[0025]可选地,所述计算所述待处理视频包括的动作属于预设的动作类型分数,包括:
[0026]针对所述待处理视频包括的每一个时间步视频片段,执行计算所述时间步视频片段包括的动作属于预设的每一种动作类型的概率;
[0027]针对预设的每一种动作类型,执行根据每一个所述时间步视频片段属于所述动作类型的概率,计算所述待处理视频包括的动作属于所述动作类型的分数。
[0028]可选地,所述将所述第二视频特征参数包括的多个相似特征合并为矫正特征,包括:
[0029]计算所述第二视频特征参数包括的多个特征中的每两个所述特征之间的相似度;
[0030]根据每两个所述特征之间的相似度,计算每两个所述特征的相似权重;
[0031]根据每两个所述特征的相似度以及相似权重,计算矫正特征。
[0032]可选地,所述确定所述待处理视频包括的动作所属的动作类型,并对所述动作进行定位,包括:
[0033]根据计算出的所述待处理视频包括的动作属于预设的动作类型的分数,计算所述待处理视频包括的动作属于预设的动作类型的分类置信度;
[0034]根据计算出的所述分类置信度,确定所述待处理视频包括的动作所属的动作类型;
[0035]根据所述待处理视频包括的动作在所述视频序列中的位置,对所述动作进行定位。
[0036]可选地,上述视频动作定位方法,还包括:
[0037]针对每一个迭代训练周期,执行:
[0038]将训练用样本输入上一个迭代周期调整后的卷积神经网络;
[0039]将卷积神经网络的输出结果,输入到上一个迭代周期调整后的特征统一子模块;
[0040]将所述特征统一子模块的输出结果,输入到上一个迭代周期调整后的重要性注意机制;
[0041]根据所述重要性注意机制输出的结果,判断所述重要性注意机制输出的结果或者迭代周期是否满足停止迭代的条件,如果是,则结束迭代,否则,调整所述卷积神经网络、所述特征统一子模块以及所述重要性注意机制。
[0042]可选地,上述视频动作定位方法,还包括:
[0043]将训练好的卷积神经网络以及训练好的重要性注意机制封装成所述分类分支子模型;
[0044]将训练好的卷积神经网络、训练好的特征统一子模块以及训练好的重要性注意机制封装成所述定位分支子模型。
[0045]第二方面,本专利技术实施例提供一种视频动作定位装置,包括:输入模块以及视频处理模块,其中,
[0046]所述输入模块,用于将待处理视频的视频序列输入所述视频处理模块中的预先训练好的视频动作定位模型;
[0047]所述视频处理模块,用于通过所述视频动作定位模型从所述视频序列中提取出视频特征参数;基于所述视频特征参数和所述视频动作定位模型包括的分类分支子模型,确定所述待处理视频包括的动作类型;基于所述视频特征参数和所述视频动作定位模型包括的定位分支子模型,对所述待处理视频包括的动作类型进行定位;根据所述分类分支子模型确定出的所述动作类型,对定位的结果进行调整。
[0048]上述专利技术中的一个实施例具有如下优点或有益效果:因为本申请通过视频动作定位模型包括的分类分支子模型确定待处理视频包括的动作类型,通过视频动作定位模型包括的定位分支子模型对待处理视频包括的动作类型进行定位,实现动作分类以及动作定位分开完成,解除了动作分类与动作定位之间的冲突,使分类分支子模型能够准确的分类,定位子模型能够准确的定位,然后通过分类分支子模型确定出待处理视频包括的动作类型,对定位的结果进行调整,以提高定位的结果中分类的准确性,从而有效地提高视频分类以及定位的准确性。
[0049]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0050]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频动作定位方法,其特征在于,包括:将待处理视频的视频序列输入预先训练好的视频动作定位模型;通过所述视频动作定位模型从所述视频序列中提取出视频特征参数;基于所述视频特征参数和所述视频动作定位模型包括的分类分支子模型,确定所述待处理视频包括的动作类型;基于所述视频特征参数和所述视频动作定位模型包括的定位分支子模型,对所述待处理视频包括的动作类型进行定位;根据所述分类分支子模型确定出的所述动作类型,对定位的结果进行调整。2.根据权利要求1所述的视频动作定位方法,其特征在于,所述分类分支子模型包括:训练出的第一卷积神经网络以及训练出的重要性注意机制;所述确定所述待处理视频包括的动作类型,包括:将所述视频特征参数输入所述第一卷积神经网络,并将所述卷积神经网络输出的调整后的第一视频特征参数,输入所述重要性注意机制;所述重要性注意机制基于所述第一视频特征参数,计算所述待处理视频包括的动作属于预设的动作类型的分数;根据计算的结果,确定所述待处理视频包括的动作所属的动作类型。3.根据权利要求1所述的视频动作定位方法,其特征在于,所述定位分支子模型包括:训练出的第二卷积神经网络、训练出的特征统一子模块以及训练出的重要性注意机制;所述对所述待处理视频包括的动作类型进行定位,包括:将所述视频特征参数输入所述第二卷积神经网络,并将输出的调整后的第二视频特征参数,输入所述特征统一子模块;所述特征统一子模块将所述第二视频特征参数包括的多个相似特征合并为矫正特征,将所述矫正特征输入所述重要性注意机制;所述重要性注意机制基于所述矫正特征,计算所述待处理视频包括的动作属于预设的动作类型分数;根据计算的结果,确定所述待处理视频包括的动作所属的动作类型,并对所述动作进行定位。4.根据权利要求1所述的视频动作定位方法,其特征在于,所述对定位的结果进行调整,包括:将所述分类分支子模型确定出的所述动作类型和所述定位分支子模型的定位的结果叠加到所述视频序列;根据叠加后的结果,修正定位的结果。5.根据权利要求2或3所述的视频动作定位方法,其特征在于,所述计算所述待处理视频包括的动作属于预设的动作类型分数,包括:针对所述待处理视频包括的每一个时间步视频片段,执行计算所述时间步视频片段包括的动作属于预设的每一种动作类型的概率;针对预设的每一种动作类型,执行根据每一个所述时间步视频片段属于所述动作类型
的概率,计算所述待处理视频包括的动作属于所述动作类型的分数。6.根据权利要求3所述的视频动作定位方法,其特征在于,所述将所述第二视频特征参数包括的多个相似特征合并为矫正特征,包括:计算所述第二视频特征...

【专利技术属性】
技术研发人员:何凤翔
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1