时空动作检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38195024 阅读:20 留言:0更新日期:2023-07-20 21:15
本申请实施例涉及计算机视觉与深度学习领域,公开了一种时空动作检测方法、装置、电子设备及存储介质,方法包括:对连续视频帧中的各人物进行定位,得到每一视频帧中的各人物的位置信息,并对每一视频帧中的各人物的位置信息进行缓存;根据缓存的预设长度序列的视频帧中的人物位置信息,识别每一视频帧的人物动作,得到连续视频帧中每一视频帧的各人物的人物动作,实现了对长视频中的不同人物、不同动作进行准确定位与识别。作进行准确定位与识别。作进行准确定位与识别。

【技术实现步骤摘要】
时空动作检测方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机视觉与深度学习领域,尤其涉及一种时空动作检测方法、装置、电子设备及存储介质。

技术介绍

[0002]时空动作检测,是指对给定的未修剪视频,对其中的不同人物进行位置定位,并对定位到的人物进行动作分析,输出不同人物的动作类型。与动作识别相比,时空动作检测需要对每个人物进行动作建模,而动作识别是对整个视频进行动作建模,通常情况下,在分析视频中存在多个人物,不同人物的动作行为也不一致,对整个视频进行动作建模显然不合适。
[0003]时空动作检测包含空间域人物定位及时序动作分析两个子任务。现有的时空动作检测方法可以分为两阶段和单阶段的。然而,无论是两阶段还是单阶段,当前动作识别绝大部分是以时序片段作为整体进行动作建模,对该片段输出一个动作类别,存在采样策略选取不合适、采样长度选取过长、无法准确定位动作帧以及时序特征表述差,从而导致不能对长视频中的不同人物,不同动作进行准确定位与识别的问题。

技术实现思路

[0004]本专利技术的目的在于解决上述问题,提供一种时空动作检测方法、装置、电子设备及存储介质,解决了采样策略选取不合适、采样长度选取过长、无法准确定位动作帧以及时序特征表述差的问题,实现了对长视频中的不同人物,不同动作进行准确定位与识别的目的。
[0005]为解决上述问题,本申请的实施例提供了一种时空动作检测方法,方法包括:对连续视频帧中的各人物进行定位,得到每一视频帧中的各人物的位置信息,并对每一视频帧中的各人物的位置信息进行缓存;根据缓存的预设长度序列的视频帧中的人物位置信息,识别每一视频帧的人物动作,得到连续视频帧中每一视频帧的各人物的人物动作。
[0006]为解决上述问题,本申请的实施例提供了一种时空动作检测装置,方法包括:位置识别模块,用于对连续视频帧中的各人物进行定位,得到每一视频帧中的各人物的位置信息,并对每一视频帧中的各人物的位置信息进行缓存;动作识别模块,用于根据缓存的预设长度序列的视频帧中的人物位置信息,识别每一视频帧的人物动作,得到连续视频帧中每一视频帧的各人物的人物动作。
[0007]为解决上述问题,本申请的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述时空动作检测方法。
[0008]为解决上述问题,本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述时空动作检测方法。
[0009]在本申请实施例中,首先对人物进行定位获取位置信息,并对获取的各人物的位
置信息进行缓存,再根据缓存的预设长度序列的视频帧中的人物位置信息,识别每一视频帧的人物动作,得到连续视频帧中每一视频帧的各人物的人物动作,解决了采样策略、采样长度选取的问题,对每个视频帧进行动作判别,可以区分视频帧序列的背景与动作前景信息,增强了网络模型的时序特征表述能力。实现了对长视频中的不同人物、不同动作进行准确定位与识别。
附图说明
[0010]一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
[0011]图1是本申请一实施例提供的时空动作检测方法的流程图;
[0012]图2是本申请一实施例提供的网络模型集成推理的流程图;
[0013]图3是本申请一实施例提供时的空动作检测装置的结构示意图;
[0014]图4是本申请一实施例提供的电子设备的结构示意图。
具体实施方式
[0015]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
[0016]本申请的一实施例涉及一种时空动作检测方法,通过先对人物进行定位获取位置信息,并对获取的各人物的位置信息进行缓存,再根据缓存的预设长度序列的视频帧中的人物位置信息,识别每一视频帧的人物动作,得到连续视频帧中每一视频帧的各人物的人物动作,解决了采样策略、采样长度选取的问题,对每个视频帧进行动作判别,可以区分视频帧序列的背景与动作前景信息,增强了网络模型的时序特征表述能力。实现了对长视频中的不同人物、不同动作进行准确定位与识别。
[0017]在一个例子中,可以通过预先训练好的目标跟踪网络模型,对连续视频帧中的各人物进行定位;其中,目标跟踪网络模型用于对每一视频帧中的各人物的位置信息进行检测。将目标跟踪网络模型输出的各人物的位置信息存储在缓冲矩阵中,缓冲矩阵的每一个元素表示j个人物在第i帧中的位置信息,j表示元素所在的行,i表示元素所在的列。将缓冲矩阵中存储的各人物的位置信息输入预先训练好的动作识别模型,根据动作识别模型的输出结果,得到连续视频帧中每一视频帧的各人物的人物动作;其中,动作识别模型用于根据预设长度序列的视频帧中的人物位置信息,识别每一视频帧的人物动作。
[0018]因此,在一个例子中,时空动作检测方法可以包含两个阶段:网络模型训练阶段和网络模型推理阶段。具体说明如下:
[0019]在网络模型训练阶段中,包括目标跟踪网络模型的训练和动作识别模型的训练,其中,目标跟踪网络模型训练的基本步骤如下:
[0020](1)网络模型设计:目标跟踪网络模型是对视频中的人物进行定位并进行时序关联,常用的多目标跟踪网络,如DeepSORT、CenterTrack、FairMOT等均可使用;
[0021](2)样本标注:使用单类别目标标签,根据不同人物不同目标id来对视频中人物进行矩形框标注;
[0022](3)模型训练:使用标注的人物样本进行模型训练,训练迭代到一定次数后得到人物目标跟踪模型文件。
[0023]动作识别模型训练的基本步骤如下:
[0024](1)整个网络模型包括时序特征提取主干、密集预测动作分类头;其中,任何时序网络模型均可作为本专利技术的主干,如3D卷积网路、双流卷积网络等;
[0025]a.密集预测动作分类头用来判别单个视频帧所属的动作类别,假定包含背景的动作类别数为N,主干网络输出的特征维度为B
×
C
×
L
×
H
×
W,其中B表示批处理数,C表示通道数,L表示视频序列长度,H表示特征高度,W表示特征宽度,进行如下处理:
[0026]b.对主干网络输出特征按H、W维度进行全局平均池化操作,,即头处理过程,输出维度B
×
C
×
L
×1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时空动作检测方法,其特征在于,包括:对连续视频帧中的各人物进行定位,得到每一视频帧中的各人物的位置信息,并对所述每一视频帧中的各人物的位置信息进行缓存;根据缓存的预设长度序列的视频帧中的人物位置信息,识别每一视频帧的人物动作,得到所述连续视频帧中每一视频帧的各人物的人物动作。2.根据权利要求1所述的时空动作检测方法,其特征在于,所述对连续视频帧中的各人物进行定位,得到每一视频帧中的各人物的位置信息,包括:通过预先训练好的目标跟踪网络模型,对连续视频帧中的各人物进行定位;其中,所述目标跟踪网络模型用于对每一视频帧中的各人物的位置信息进行检测;所述对所述每一视频帧中的各人物的位置信息进行缓存,包括:将所述目标跟踪网络模型输出的各所述人物的位置信息存储在缓冲矩阵中,所述缓冲矩阵的每一个元素S
ij
表示j个人物在第i帧中的位置信息,所述j表示所述元素所在的行,所述i表示所述元素所在的列;所述根据缓存的预设长度序列的视频帧中的人物位置信息,识别每一视频帧的人物动作,得到所述连续视频帧中每一视频帧的各人物的人物动作,包括:将所述缓冲矩阵中存储的各所述人物的位置信息输入预先训练好的动作识别模型,根据所述动作识别模型的输出结果,得到所述连续视频帧中每一视频帧的各人物的人物动作;其中,所述动作识别模型用于根据预设长度序列的视频帧中的人物位置信息,识别每一视频帧的人物动作。3.根据权利要求2所述的时空动作检测方法,其特征在于,所述将所述缓冲矩阵中存储的各所述人物的位置信息输入预先训练好的动作识别模型,包括:对所述缓冲矩阵中每一行的长度进行检测,确定长度大于或等于所述预设长度序列的第一目标行;将所述第一目标行的前L个行数据输入所述预先训练好的动作识别模型,所述L为所述预设长度序列。4.根据权利要求3所述的时空动作检测方法,其特征在于,在所述对所述缓冲矩阵中每一行的长度进行检测后,还包括:获取所述缓冲矩阵中长度小于所述预设长度序列的第二目标行;将所述第二目标行对应的人物的上一次检测到的人物动作,作为当前视频帧的人物动作。5.根据权利要求2所述的时空动作检测方法,其特征在于,所述将所述目标跟踪网络模型输出的各所述人物的位置信息存储在缓冲矩阵中,包括:在所述目标跟踪网络模型输出的当前视频帧中的人物不存在于所述缓冲矩阵的情况下,在所述缓冲矩阵中增加与所述人物对应的行,并将所述人物在当前视频帧中的位置信息更新在所述缓冲矩阵中;在所述目标跟踪网络模型输出的当前视频帧中的人物存在于所述缓冲矩阵的情况下,将所述人物在当前视频帧中的位置信息更新在所述缓冲矩阵中;在所述缓冲矩阵中的行所对应的人物未包括在所述目标跟踪网络模型输出的在当前
视频帧中检测到的人物的情况下,删除所述未包括的人物所对应的行数据。6.根据权利要求2至4中任一项所述的时空动作检测方法,其特征在于,所述将所述缓冲矩阵中存储的各所述人物的位置信息输入预先训练好的动作识别模型,包括:将连续的L个视频帧中的目标人物的位置信息输入所述预先训练好的动作识别模型,得到所述目标人...

【专利技术属性】
技术研发人员:葛成伟童俊文关涛李健
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1