动作识别方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:38390229 阅读:16 留言:0更新日期:2023-08-05 17:43
本公开涉及一种动作识别方法、装置、存储介质以及电子设备,涉及计算机视觉应用技术领域,该方法包括:针对待识别视频中的每一帧视频图像,提取该视频图像的人体关键点,获得目标关键点序列;将目标关键点序列作为第一特征提取模型的输入,获得第一特征表示,其中,第一特征表示包括动作时域特征以及动作空域特征;将目标关键点序列作为第二特征提取模型的输入,获得动作时空域特征;融合第一特征表示以及动作时空域特征,获得第二特征表示;基于第二特征表示进行视频动作分类,获得待识别视频对应的动作识别结果。由此,可以在动作分类的过程中,关注待识别动作在全局空域以及全局时域上的特征,使得最终的动作分类结果更加准确。确。确。

【技术实现步骤摘要】
动作识别方法、装置、存储介质以及电子设备


[0001]本公开涉及计算机视觉应用
,具体地,涉及一种动作识别方法、装置、存储介质以及电子设备。

技术介绍

[0002]基于视频的动作识别,一直是计算机视觉的重要研究方向。相关技术中,一般基于图卷积神经网络进行视频动作分类。在图卷积神经网络中,各个人体关键点对最终的分类结果的影响是平等的。但是,对于不同动作而言,在动作的不同发展阶段,应该关注不同的人体关键点。因此,在相关技术中,缺乏对视频包含的全局空域信息以及时域信息的利用,导致能够获得视频动作分类性能受限。

技术实现思路

[0003]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面,本公开提供一种动作识别方法,包括:
[0005]针对待识别视频中的每一帧视频图像,提取该视频图像的人体关键点,获得目标关键点序列,其中,所述目标关键点序列包括每一帧所述视频图像的人体关键点;
[0006]将所述目标关键点序列作为第一特征提取模型的输入,获得第一特征表示,其中,所述第一特征表示包括动作时域特征以及动作空域特征;
[0007]将所述目标关键点序列作为第二特征提取模型的输入,获得动作时空域特征;
[0008]融合所述第一特征表示以及所述动作时空域特征,获得第二特征表示;
[0009]基于所述第二特征表示进行视频动作分类,获得所述待识别视频对应的动作识别结果。
[0010]第二方面,本公开提供一种动作识别装置,包括:
[0011]关键点提取模块,配置为针对待识别视频中的每一帧视频图像,提取该视频图像的人体关键点,获得目标关键点序列,其中,所述目标关键点序列包括每一帧所述视频图像的人体关键点;
[0012]第一特征提取模块,配置为将所述目标关键点序列作为第一特征提取模型的输入,获得第一特征表示,其中,所述第一特征表示包括动作时域特征以及动作空域特征;
[0013]第二特征提取模块,配置为将所述目标关键点序列作为第二特征提取模型的输入,获得动作时空域特征;
[0014]融合模块,配置为融合所述第一特征表示以及所述动作时空域特征,获得第二特征表示;
[0015]识别模块,配置为基于所述第二特征表示进行视频动作分类,获得所述待识别视频对应的动作识别结果。
[0016]第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面所述的动作识别方法的步骤。
[0017]第四方面,本公开提供一种电子设备,包括:
[0018]存储装置,其上存储有计算机程序;
[0019]处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面所述的动作识别方法的步骤。
[0020]基于上述技术方案,通过从待识别视频中提取包括每一帧视频图像的人体关键点的目标关键点序列,然后从目标关键点序列中分别提取动作时空域特征以及包含动作时域特征和动作空域特征的第一特征表示,并将第一特征表示与动作时空域特征进行融合,获得第二特征表示,进而基于第二特征表示进行视频动作分类。由此,通过具有动作时空域特征、动作时域特征和动作空域特征的第二特征表示进行视频动作分类,可以在动作分类的过程中,关注待识别动作在全局空域以及全局时域上的特征,使得最终的动作分类结果更加准确。
[0021]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0022]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
[0023]图1是根据一示例性实施例提出的一种动作识别方法的流程图;
[0024]图2是根据一示例性实施例提出的获得目标关键点序列的流程图;
[0025]图3是根据一示例性实施例提出的空域注意力权重的示意图;
[0026]图4是根据一示例性实施例提出的用于动作识别的模型的结构连接示意图;
[0027]图5是根据一示例性实施例提出的动作识别装置的模块连接示意图;
[0028]图6是根据一示例性实施例提出的电子设备的结构示意图。
具体实施方式
[0029]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0030]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0031]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0032]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单
元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0033]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0034]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0035]在相关技术中,基于人体关键点的动作识别算法,一般使用图卷积神经网络作为特征提取网络。当使用图卷积神经网络进行特征提取时,需要人工定义一些具有现实意义的边,其中,边的定义是指相邻人体关键点的连接。例如,手腕到胳膊肘、胳膊肘到肩部等。图卷积神经网络在进行矩阵运算时,将不同距离的人体关键点融合成不同通道的特征,之后使用卷积神经网络提取特征。
[0036]但是,很多动作的人体关键点在物理上是不相邻的,比如“嘘”这个动作,需要人手关键点和嘴部关键点相配合。但是,人手关键点和嘴部关键点在边的定义中是不相连的,即使找寻K个近邻点,也无法使人手关键点和嘴部关键点建立边的关系。此外,由于图卷积神经网络会以K=8对每个人体关键点从1至8的距离分别进行人体关键点的融合,这样会导致输入的通道数迅速上升,而因为网络初始层在时域维度上分辨率比较大,因此造成动作分类的计算量比较大,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动作识别方法,其特征在于,包括:针对待识别视频中的每一帧视频图像,提取该视频图像的人体关键点,获得目标关键点序列,其中,所述目标关键点序列包括每一帧所述视频图像的人体关键点;将所述目标关键点序列作为第一特征提取模型的输入,获得第一特征表示,其中,所述第一特征表示包括动作时域特征以及动作空域特征;将所述目标关键点序列作为第二特征提取模型的输入,获得动作时空域特征;融合所述第一特征表示以及所述动作时空域特征,获得第二特征表示;基于所述第二特征表示进行视频动作分类,获得所述待识别视频对应的动作识别结果。2.根据权利要求1所述的动作识别方法,其特征在于,所述针对待识别视频中的每一帧视频图像,提取该视频图像的人体关键点,获得目标关键点序列,包括:针对所述待识别视频中的每一帧视频图像,提取该视频图像的人体关键点,获得初始关键点序列;对所述初始关键点序列进行非线性变换运算,获得所述目标关键点序列,其中,所述非线性变换运算中的变换参数是通过所述动作识别结果进行反向传播而更新的。3.根据权利要求2所述的动作识别方法,其特征在于,所述对所述初始关键点序列进行非线性变换运算,获得所述目标关键点序列,包括:基于预设计算式对所述初始关键点序列进行非线性变换运算,获得所述目标关键点序列,其中,所述预设计算式为:其中,x为所述初始关键点序列,为所述目标关键点序列,w、b为所述变换参数。4.根据权利要求1至3中任一项所述的动作识别方法,其特征在于,所述将所述目标关键点序列作为第一特征提取模型的输入,获得第一特征表示,包括:将所述目标关键点序列作为空域注意力模型的输入,经由所述空域注意力模型提取的特征进入时域注意力模型,获得所述第一特征表示;其中,所述空域注意力模型用于在空间维度上为所述目标关键点序列中的每一个所述人体关键点分配不同的空域注意力权重,以提取所述动作空域特征,所述时域注意力模型用于在时间维度上为所述目标关键点序列中的每一帧所述视频图像分配不同的时域注意力权重,以提取所述动作时域特征。5.根据权利要求1至3中任一项所述的动作识别方法,其特征在于,所述将所述目标关键点序列作为第二特征提取模型的输入,获得动作时空域特征,包括:将所述目标关键点序列作为时空注意力模型的输入,获得所述动作时空域特征;其中,所述时空注...

【专利技术属性】
技术研发人员:沈辉万星宇
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1