动作识别方法和装置制造方法及图纸

技术编号:29016227 阅读:22 留言:0更新日期:2021-06-26 05:16
本申请公开了动作识别方法和装置,涉及计算机技术领域。该方法包括:获取视频片段,并确定视频片段中的至少两个目标对象;针对至少两个目标对象中的每一个目标对象,连接该目标对象在视频片段的各个视频帧中的位置,构建该目标对象的时空图;将针对至少两个目标对象构建的至少两个时空图划分为多个时空图子集,并从多个时空图子集中确定出终选子集;将终选子集所包含的时空图之间的关系所指示的、目标对象之间的动作类别确定为视频片段所包含的动作的动作类别。采用该方法可以提高识别动作的准确性。确性。确性。

【技术实现步骤摘要】
动作识别方法和装置


[0001]本公开涉及计算机
,具体涉及动作识别方法和装置。

技术介绍

[0002]通过识别视频中的检测对象所发生的动作,有利于对视频进行分类或识别视频的特征等。现有的识别视频中的检测对象所发生的动作的方法,是采用基于深度学习方法训练的识别模型识别视频中的动作,或者是基于视频画面出现的动作的特征、与预设特征之间的相似度,识别视频中的动作。
[0003]然而,现有的识别视频中的动作的方法存在识别不准确的问题。

技术实现思路

[0004]本公开提供了一种动作识别方法、装置、电子设备以及计算机可读存储介质。
[0005]根据本公开的第一方面,提供了一种动作识别方法,包括:获取视频片段,并确定视频片段中的至少两个目标对象;针对至少两个目标对象中的每一个目标对象,连接该目标对象在视频片段的各个视频帧中的位置,构建该目标对象的时空图;将针对至少两个目标对象构建的至少两个时空图划分为多个时空图子集,并从多个时空图子集中确定出终选子集;将终选子集所包含的时空图之间的关系所指示的、目标对象之间的动作类别确定为视频片段所包含的动作的动作类别。
[0006]在一些实施例中,目标对象在视频片段的各个视频帧中的位置基于以下方法确定:获取目标对象在视频片段的起始帧中的位置,将起始帧作为当前帧,并通过多轮迭代操作确定目标对象在各个视频帧中的位置;迭代操作包括:将当前帧输入预先训练完成的预测模型,以预测目标对象在当前帧的下一帧中的位置,响应于确定当前帧的下一帧不是视频片段的终止帧,将本轮迭代操作中的当前帧的下一帧作为下一轮迭代操作的当前帧;响应于确定当前帧的下一帧是视频片段的终止帧,停止迭代操作。
[0007]在一些实施例中,连接该目标对象在视频片段的各个视频帧中的位置,包括:将目标对象在各个视频帧中以矩形框的形式表示;将各个视频帧中的矩形框依照各个视频帧的播放顺序进行连接。
[0008]在一些实施例中,将针对至少两个目标对象构建的至少两个时空图划分为多个时空图子集,包括:将至少两个时空图中、相邻的时空图划分为同一个时空图子集。
[0009]在一些实施例中,获取视频片段,包括:获取视频,并将视频截取为各个视频片段;方法包括:将相邻视频片段中,同一个目标对象的时空图划分为同一个时空图子集。
[0010]在一些实施例中,从多个时空图子集中确定出终选子集,包括:从多个时空图子集中确定出多个目标子集;基于多个时空图子集中的每一个时空图子集、与多个目标子集中每一个目标子集之间的相似度,从多个目标子集中确定出终选子集。
[0011]在一些实施例中,方法包括:获取时空图子集中、每一个时空图的特征向量;获取时空图子集中、多个时空图之间的关系特征;从多个时空图子集中确定出多个目标子集,包
括:基于时空图子集所包含的时空图的特征向量、以及所包含的时空图之间的关系特征,并利用高斯混合模型对多个时空图子集进行聚类,以及确定出用于表征每一类时空图子集的至少一个目标子集。
[0012]在一些实施例中,获取时空图子集中、每一个时空图的特征向量,包括:采用卷积神经网络获取时空图的空间特征、以及视觉特征。
[0013]在一些实施例中,获取时空图子集中、多个时空图之间的关系特征,包括:针对多个时空图中的每两个时空图,根据该两个时空图的视觉特征,确定该两个时空图之间的相似度;根据该两个特征图的空间特征,确定该两个时空图之间的位置变化特征。
[0014]在一些实施例中,基于多个时空图子集中的每一个时空图子集、与多个目标子集中每一个目标子集之间的相似度,从多个目标子集中确定出终选子集,包括:针对多个目标子集中的每一个目标子集,获取每一个时空图子集与该目标子集之间的相似度;将每一个时空图子集与该目标子集之间的相似度中、最大的相似度,确定为该目标子集的分值;将多个目标子集中分值最大的目标子集,确定为终选子集。
[0015]根据本公开的第二方面,提供了一种动作识别装置,包括:获取单元,被配置为获取视频片段,并确定视频片段中的至少两个目标对象;构建单元,被配置为针对至少两个目标对象中的每一个目标对象,连接该目标对象在视频片段的各个视频帧中的位置,构建该目标对象的时空图;第一确定单元。被配置为将针对至少两个目标对象构建的至少两个时空图划分为多个时空图子集,并从多个时空图子集中确定出终选子集;识别单元,被配置为将终选子集所包含的时空图之间的关系所指示的、目标对象之间的动作类别确定为视频片段所包含的动作的动作类别。
[0016]在一些实施例中,目标对象在视频片段的各个视频帧中的位置基于以下方法确定:获取目标对象在视频片段的起始帧中的位置,将起始帧作为当前帧,并通过多轮迭代操作确定目标对象在各个视频帧中的位置;迭代操作包括:将当前帧输入预先训练完成的预测模型,以预测目标对象在当前帧的下一帧中的位置,响应于确定当前帧的下一帧不是视频片段的终止帧,将本轮迭代操作中的当前帧的下一帧作为下一轮迭代操作的当前帧;响应于确定当前帧的下一帧是视频片段的终止帧,停止迭代操作。
[0017]在一些实施例中,构建单元,包括:构建模块,被配置为将目标对象在各个视频帧中以矩形框的形式表示;连接模块,被配置为将各个视频帧中的矩形框依照各个视频帧的播放顺序进行连接。
[0018]在一些实施例中,第一确定单元,包括:第一确定模块,被配置为将至少两个时空图中、相邻的时空图划分为同一个时空图子集。
[0019]在一些实施例中,获取单元,包括:第一获取模块,被配置为获取视频,并将视频截取为各个视频片段;装置包括:第二确定模块,被配置为将相邻视频片段中,同一个目标对象的时空图划分为同一个时空图子集。在一些实施例中,第一确定单元,包括:第一确定子单元,被配置为从多个时空图子集中确定出多个目标子集;第二确定单元,被配置为基于多个时空图子集中的每一个时空图子集、与多个目标子集中每一个目标子集之间的相似度,从多个目标子集中确定出终选子集。
[0020]在一些实施例中,动作识别装置包括:第二获取模块,被配置为获取时空图子集中、每一个时空图的特征向量;第三获取模块,被配置为获取时空图子集中、多个时空图之
间的关系特征;第一确定单元,包括:聚类模块,被配置为基于时空图子集所包含的时空图的特征向量、以及所包含的时空图之间的关系特征,并利用高斯混合模型对多个时空图子集进行聚类,以及确定出用于表征每一类时空图子集的至少一个目标子集。
[0021]在一些实施例中,第二获取模块,包括:卷积模块,被配置为采用卷积神经网络获取时空图的空间特征、以及视觉特征。
[0022]在一些实施例中,第三获取模块,包括:相似度计算模块,被配置为针对多个时空图中的每两个时空图,根据该两个时空图的视觉特征,确定该两个时空图之间的相似度;位置变化计算模块,被配置为根据该两个特征图的空间特征,确定该两个时空图之间的位置变化特征。
[0023]在一些实施例中,第二确定单元,包括:匹配模块,被配置为针对多个目标子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动作识别方法,包括:获取视频片段,并确定所述视频片段中的至少两个目标对象;针对所述至少两个目标对象中的每一个目标对象,连接该目标对象在所述视频片段的各个视频帧中的位置,构建该目标对象的时空图;将针对所述至少两个目标对象构建的至少两个时空图划分为多个时空图子集,并从所述多个时空图子集中确定出终选子集;将所述终选子集所包含的时空图之间的关系所指示的、目标对象之间的动作类别确定为所述视频片段所包含的动作的动作类别。2.根据权利要求1所述的方法,其中,所述目标对象在视频片段的各个视频帧中的位置基于以下方法确定:获取所述目标对象在所述视频片段的起始帧中的位置,将所述起始帧作为当前帧,并通过多轮迭代操作确定所述目标对象在所述各个视频帧中的位置;所述迭代操作包括:将所述当前帧输入预先训练完成的预测模型,以预测所述目标对象在所述当前帧的下一帧中的位置,响应于确定所述当前帧的下一帧不是所述视频片段的终止帧,将所述本轮迭代操作中的所述当前帧的下一帧作为下一轮迭代操作的当前帧;响应于确定所述当前帧的下一帧是所述视频片段的终止帧,停止所述迭代操作。3.根据权利要求1所述的方法,其中,所述连接该目标对象在所述视频片段的各个视频帧中的位置,包括:将所述目标对象在所述各个视频帧中以矩形框的形式表示;将所述各个视频帧中的矩形框依照所述各个视频帧的播放顺序进行连接。4.根据权利要求1所述的方法,其中,所述将针对所述至少两个目标对象构建的至少两个时空图划分为多个时空图子集,包括:将所述至少两个时空图中、相邻的时空图划分为同一个时空图子集。5.根据权利要求1所述的方法,其中,所述获取视频片段,包括:获取视频,并将所述视频截取为各个视频片段;所述方法包括:将相邻视频片段中,同一个目标对象的时空图划分为同一个时空图子集。6.根据权利要求1所述的方法,其中,所述从所述多个时空图子集中确定出终选子集,包括:从所述多个时空图子集中确定出多个目标子集;基于所述多个时空图子集中的每一个时空图子集、与所述多个目标子集中每一个目标子集之间的相似度,从所述多个目标子集中确定出终选子集。7.根据权利要求6所述的方法,其中,所述方法包括:获取所述时空图子集中、每一个时空图的特征向量;获取所述时空图子集中、多个时空图之间的关系特征;所述从所述多个时空图子集中确定出多个目标子集,包括:基于所述时空图子集所包含的时空图的特征向量、以及所包含的时空图之间的关系特征,并利用高斯混合模型对所述多个时空图子集进行聚类,以及确定出用于表征每一类时
空图子集的至少一个目标子集。8.根据权利要求7所述的方法,其中,所述获取所述时空图子集中、每一个时空图的特征向量,包括:采用卷积神经网络获取所述时空图的空间特征、以及视觉特征。9.根据权利要求7所述的方法,其中,所述获取所述时空图子集中、多个时空图之间的关系特征,包括:针对所述多个时空图中的每两个时空图,根据该两个时空图的视觉特征,确定该两个时空图之间的相似度;根据该两个特征图的空间特征,确定该两个时空图之间的位置变化特征。10.根据权利要求6所述的方法,其中,所述基于所述多个时空图子集中的每一个时空图子集、与所述多个目标子集中每一个目标子集之间的相似度,从所述多个目标子集中确定出终选子集,包括:针对所述多个目标子集中的每一个目标子集,获取每一个时空图子集与该目标子集之间的相似度;将每一个时空图子集与该目标子集之间的相似度中、最大的相似度,确定为该目标子集的分值;将所述多个目标子集中分值最大的目标子集,确定为所述终选子集。11.一种动作识别装置,包括:获取单元,被配置为获取视频片段,并确定所述视频片段中的至少两个目标对象;构建单元,被配置为针对所述至少两个目标对象中的每一个目标对象,连接该目标对象在所述视频片段的各个视频帧中的位置,构建该目标对象的时空图;第一确定单元,被配置为将针对所述至少两...

【专利技术属性】
技术研发人员:邱钊凡潘滢炜姚霆梅涛
申请(专利权)人:京东数字科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1