基于步态的行为识别方法、装置、终端设备及存储介质制造方法及图纸

技术编号:34354746 阅读:19 留言:0更新日期:2022-07-31 06:22
本申请适用于设备管理技术领域,提供了一种基于步态的行为识别方法、装置、终端设备及存储介质,方法包括:接收待识别的目标视频数据;将所述目标视频数据导入预设的帧间动作提取网络,得到帧间动作特征数据;将所述帧间动作特征数据导入池化融合网络,输出所述目标视频数据对应的融合特征数据;将所述目标视频数据导入上下文注意力网络,确定所述目标视频数据中目标对象的步态行为数据;根据所述步态行为数据以及所述融合特征数据,得到所述目标对象的行为类别。采用上述方法能够大大降低了视频数据在进行行为识别过程中的计算成本,继而提高了运算效率。提高了运算效率。提高了运算效率。

【技术实现步骤摘要】
基于步态的行为识别方法、装置、终端设备及存储介质


[0001]本申请属于数据处理
,尤其涉及基于步态的行为识别方法、装置、终端设备及存储介质。

技术介绍

[0002]随着人工智能技术的不断发展,计算机能够协助用户执行多种类型的识别操作,以提高用户的处理效率。例如,在用户对视频数据进行解析时,可以通过人工智能算法确定该视频数据中目标人物的行为类型,从而能够方便用户对目标人物进行分析,例如在对目标人物进行行为追踪,抑或在重点区域对危险动作进行监控时,人工智能的行为识别会大大降低用户的工作量,从而提高了分析效率。
[0003]现有的行为识别技术,往往是使用光流信息以确定目标对象在视频中的时间信息和空间信息,从而确定该目标对象的行为类型,但是逐帧提取光流从而构建整个视频数据的光流信息则需要较大的计算量,从而大大提高了运算设备的计算成本,以及降低了运算效率。

技术实现思路

[0004]本申请实施例提供了一种基于步态的行为识别方法、装置、终端设备及存储介质,可以解决现有的行为识别技术,往往是使用光流信息以确定目标对象在视频中的时间信息和空间信息,从而确定该目标对象的行为类型,但是逐帧提取光流从而构建整个视频数据的光流信息则需要较大的计算量,从而大大提高了运算设备的计算成本,以及降低了运算效率的问题。
[0005]第一方面,本申请实施例提供了一种基于步态的行为识别方法,包括:接收待识别的目标视频数据;将所述目标视频数据导入预设的帧间动作提取网络,得到帧间动作特征数据;所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息;将所述帧间动作特征数据导入池化融合网络,输出所述目标视频数据对应的融合特征数据;将所述目标视频数据导入上下文注意力网络,确定所述目标视频数据中目标对象的步态行为数据;所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系;根据所述步态行为数据以及所述融合特征数据,得到所述目标对象的行为类别。
[0006]在第一方面的一种可能的实现方式中,所述将所述目标视频数据导入预设的帧间动作提取网络,得到帧间动作特征数据,包括:确定所述目标视频数据内任意两个连续的视频图像帧的图像张量;根据所述目标对象在所述视频图像帧的关键位置,确定多个特征点坐标;所述特
征点坐标是根据所述目标对象的步态行为确定的;在所述图像张量中确定各个特征点坐标的张量表达,并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量;根据所述任意两个连续的视频图像帧的所述特征向量,构建位移相关矩阵;所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数;根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离,并基于所有所述最大位移距离确定所述目标对象的位移矩阵;将所述位移矩阵导入到预设的特征变换模型,生成所述任意两个连续的视频图像帧的动作特征子数据;基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。
[0007]在第一方面的一种可能的实现方式中,所述根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离,并基于所有所述最大位移距离确定所述目标对象的位移矩阵,包括:在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组;从所述位移相关数组中确定相关系数最大的参数值作为所述特征点坐标的所述最大位移距离;根据所有所述特征点坐标的所述最大位移距离构建所述目标对象在二维空间上的位移场;通过激活函数softmax将所述位移场进行池化降维,得到一维置信度张量;将所述位移场以及所述一维置信度张量进行融合,构建用于表达三维空间的位移矩阵。
[0008]在第一方面的一种可能的实现方式中,在所述接收待识别的目标视频数据之前,还包括:获取用于对行为识别模块进行训练的样本视频数据;所述行为识别模块包括所述帧间动作提取网络、所述池化融合网络以及所述上下文注意力网络;根据所述样本视频数据生成正样本数据以及负样本数据;所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的;所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的;通过所述正样本数据生成第一空间信息以及第一光流信息,以及通过所述负样本数据生成第二空间信息以及第二光流信息;根据所述第一空间信息以及所述第二空间信息得到空间增强信息;根据所述第二光流信息以及所述第一光流信息得到光流增强信息;将所述空间增强信息以及所述光流增强信息导入所述行为识别模块,得到所述样本视频数据的训练识别结果;基于所有所述样本视频数据的所述训练识别结果对初始识别模块内的位置学习参量进行预训练,得到所述行为识别模块。
[0009]在第一方面的一种可能的实现方式中,所述根据所述样本视频数据生成正样本数据以及负样本数据,包括:
标记出所述样本视频数据的各个样本视频帧中的样本对象,并将除所述样本对象外的其他区域识别为背景区域;通过预设的薄板样条对所述背景区域进行插值处理,得到空间干扰图像帧;根据各个空间干扰图像帧在所述样本视频数据中的帧序号进行封装,得到所述正样本数据。
[0010]在第一方面的一种可能的实现方式中,所述根据所述样本视频数据生成正样本数据以及负样本数据,包括:根据预设的动作时间时长,将所述样本视频数据划分为多个视频段;每个所述视频段的段落时长不大于所述动作时间时长;根据预设的乱序处理算法,分别更新各个所述视频段内的所述样本视频帧的帧序号;基于更新后的帧序号对各个所述样本视频帧进行封装,得到所述负样本数据。
[0011]在第一方面的一种可能的实现方式中,所述将所述目标视频数据导入上下文注意力网络,确定所述目标视频数据中目标对象的步态行为数据,还包括:确定所述目标视频数据的各个视频图像帧内的目标对象以及至少一个环境对象;基于所有所述视频图像帧中的所述目标对象的各个关键特征点的第一位置坐标,确定第一上下文特征;所述关键特征点是与所述目标对象的步态相关的人体关键点;基于各个所述视频帧中所述目标对象与所述环境对象之间的相对位置关系,确定第二上下文特征;将所述第一上下文特征以及所述第二上下文特征导入所述上下文注意力网络,生成所述步态行为数据。
[0012]第二方面,本申请实施例提供了一种基于步态的行为识别装置,包括:目标视频数据接收单元,用于接收待识别的目标视频数据;帧间动作特征数据提取单元,用于将所述目标视频数据导入预设的帧间动作提取网络,得到帧间动作特征数据;所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息;融合特征数据单元,用于将所述帧间动作特征数据导入池化融合网络,输出所述目标视频数据对应的融合特征数据;步态行为数据识别单元,用于将所述目标视频数据导入上下文注意力网络,确定所述目标视频数据中目标对象的步态行为数据;所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系;行为识别单元,用于根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于步态的行为识别方法,其特征在于,包括:接收待识别的目标视频数据;将所述目标视频数据导入预设的帧间动作提取网络,得到帧间动作特征数据;所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息;将所述帧间动作特征数据导入池化融合网络,输出所述目标视频数据对应的融合特征数据;将所述目标视频数据导入上下文注意力网络,确定所述目标视频数据中目标对象的步态行为数据;所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系;根据所述步态行为数据以及所述融合特征数据,得到所述目标对象的行为类别。2.根据权利要求1所述的行为识别方法,其特征在于,所述将所述目标视频数据导入预设的帧间动作提取网络,得到帧间动作特征数据,包括:确定所述目标视频数据内任意两个连续的视频图像帧的图像张量;根据所述目标对象在所述视频图像帧的关键位置,确定多个特征点坐标;所述特征点坐标是根据所述目标对象的步态行为确定的;在所述图像张量中确定各个特征点坐标的张量表达,并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量;根据所述任意两个连续的视频图像帧的所述特征向量,构建位移相关矩阵;所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数;根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离,并基于所有所述最大位移距离确定所述目标对象的位移矩阵;将所述位移矩阵导入到预设的特征变换模型,生成所述任意两个连续的视频图像帧的动作特征子数据;基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。3.根据权利要求2所述的行为识别方法,其特征在于,所述根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离,并基于所有所述最大位移距离确定所述目标对象的位移矩阵,包括:在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组;从所述位移相关数组中确定相关系数最大的参数值作为所述特征点坐标的所述最大位移距离;根据所有所述特征点坐标的所述最大位移距离构建所述目标对象在二维空间上的位移场;通过激活函数softmax将所述位移场进行池化降维,得到一维置信度张量;将所述位移场以及所述一维置信度张量进行融合,构建用于表达三维空间的位移矩阵。4.根据权利要求1所述的行为识别方法,其特征在于,在所述接收待识别的目标视频数据之前,还包括:获取用于对行为识别模块进行训练的样本视频数据;所述行为识别模块包括所述帧间
动作提取网络、所述池化融合网络以及所述上下文注意力网络;根据所述样本视频数据生成正样本数据以及负样本数据;所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的;所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的;通过所述正样本数据生成第一空间信息以及第一光流信息,以及通过所述负样本数据生成第二空间信息以及第二光流信息;根据所述第一空间信息以及所述第二空间信息得到...

【专利技术属性】
技术研发人员:苏航刘海亮汤武惊张怡
申请(专利权)人:中山大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1