用于动作识别的动作结构自注意力图卷积网络制造技术

技术编号:27777629 阅读:41 留言:0更新日期:2021-03-23 13:25
本申请描述了使用图卷积网络(GCN)来识别人体动作的方法、设备和非暂时性计算机可读存储介质。该方法包括通过设备获得多个关节点姿态。该设备包括存储有指令的存储器和与该存储器通信的处理器。该方法还包括:通过该设备对多个关节点姿态进行归一化以获得多个归一化的关节点姿态;通过该设备使用改进的时空图卷积网络(ST‑GCN)从多个归一化的关节点姿态中提取多个粗略特征;通过该设备降低多个粗略特征的特征维度以获得多个降维的特征;通过该设备基于自注意力模型对多个降维的特征进行优化,以获得多个优化特征;进而通过该设备根据多个优化特征来识别人体动作。

【技术实现步骤摘要】
【国外来华专利技术】用于动作识别的动作结构自注意力图卷积网络
本专利技术涉及用于人体动作识别的图卷积网络(graphconvolutionalnetwork,GCN),特别涉及具有自注意力模型(self-attentionmodel)的改进的时空图卷积网络。
技术介绍
近年来,由于人体动作(humanaction)识别在视频理解中起着重要作用,因此得到了积极的发展。通常,可以从外观、深度、光流、身体等多种模态中识别出人的动作。在这些模态中,动态的人体骨骼通常传达出重要信息,与其他模态形成互补。然而,传统的骨骼建模方法通常依赖于手工制作的特征或遍历规则,因此导致表达力有限,难以推广和/或应用。现有的通过骨骼建模来识别人体动作的方法存在许多问题和难题,例如但不限于识别效率低、识别速度慢和/或识别精度低。本申请描述了使用动作结构自注意力图卷积网络(GCN)来识别人体动作的方法、设备、系统和存储介质,其可以克服上述讨论的一些挑战和缺点,改善整体性能,提高识别速度,而不牺牲识别精度。
技术实现思路
本申请的实施例包括用于识别一个或多个动作的动作结构自注意力图卷积网络(GCN)系统的方法、设备和计算机可读介质。本申请描述了一种使用图卷积网络(GCN)识别人体动作的方法。该方法包括通过设备获得多个关节点姿态。该设备包括存储指令的存储器和与该存储器通信的处理器。该方法还包括通过该设备对多个关节点姿态进行归一化处理以获得多个归一化的关节点姿态;通过该设备使用改进的时空图卷积网络(spatial-temporalgraphconvolutionalnetworkST-GCN)从多个归一化的关节点姿态中提取多个粗略特征;通过该设备降低多个粗略特征的特征维度,以获得多个降维的特征;通过该设备基于自注意力模型对多个降维的特征进行优化,以获得多个优化特征;通过该设备基于多个优化特征识别人体动作。本申请描述了一种使用图卷积网络(GCN)识别人体动作的设备。该设备包括存储指令的存储器,以及与存储器通信的处理器。当处理器执行指令时,处理器被配置成使设备获得多个关节点姿态;对多个关节点姿态进行归一化以获得多个归一化的关节点姿态;使用改进的时空图卷积网络(ST-GCN)从多个归一化的关节点姿态中提取多个粗略特征;降低多个粗略特征的特征维度以获得多个降维的特征;基于自注意力模型,对多个降维的特征进行优化,得到多个优化特征;基于多个优化特征来识别人体动作。本申请描述了一种存储指令的非暂时性计算机可读存储介质。指令在由处理器执行时,使处理器执行获得多个关节点姿态;对多个关节点姿态进行归一化处理,以获得多个归一化的关节点姿态;使用改进的时空图卷积网络(ST-GCN)从多个归一化的关节点姿态中提取多个粗略特征;降低多个粗略特征的特征维度以获得多个降维的特征;基于自注意力模型,对多个降维的特征进行优化,得到多个优化特征;基于多个优化特征来识别人体动作。在附图、说明书和权利要求书中更详细地描述了上述和其他方面及其实施。附图说明下面描述的系统和方法可以参考以下附图和非限制性和非穷举性实施例的描述来更好地理解。附图中的组件不一定按比例绘制。而是强调说明申请的原理。图1显示了用于实现识别一个或多个动作的动作结构自注意力图卷积网络(GCN)系统的示例性电子通信环境。图2显示了可用于实施图1的电子通信环境的各种组件的电子设备。图3A显示了由动作结构自注意力GCN识别一个或多个动作的实施例的示意图。图3B显示了由时空图卷积网络(ST-GCN)识别一个或多个动作的实施例的工作流程。图4显示了由动作结构自注意力GCN识别一个或多个动作的实施例的流程图。图5A显示了具有关节点姿态估计和归一化的示例性图像。图5B显示了具有多个关节的示例性图像。图5C显示了对多个关节点姿态进行归一化处理以获得多个归一化的关节点姿态的实施例的流程图。图6A显示特征提取器的示意图。图6B显示特征提取器的示例图。图7A显示特征降维器的示意图。图7B显示了降低多个粗略特征的特征维度以获得多个降维的特征的实施例的流程图。图8A显示了特征优化器的示意图,该特征优化器包括类似变形编码器的自注意力层。图8B显示了特征优化器的示例图,其包括类似变形编码器的自注意力层。图9A显示了包括全连接层和softmax层的分类器的示意图。图9B显示了基于多个优化特征来识别人体动作的实施例的流程图。图9C显示了基于由动作结构自注意力GCN预测的人体动作来显示的示例性图像。图9D显示了基于由动作结构自注意力GCN预测的人体动作来显示的另一示例性图像。图10A显示了ST-GCN和动作结构自注意力GCN系统的五个评估时期的最高精度度量的图表。图10B显示了ST-GCN和图10A中使用的动作结构自注意力GCN系统的五个评估时期的前五位精度度量的图表。图11显示了本申请的实施例的示例性应用,显示了老人正在老人护理中心做运动。具体实施方式现在将参考附图来描述该方法,附图以说明的方式显示了具体的示例性实施例。然而,该方法可以以各种不同的形式体现,因此,所覆盖或要求保护的主题旨在被解释为不限于所阐述的任何示例性实施例。该方法可以体现为方法、装置、组件或系统。相应地,例如,实施例可以采取硬件、软件、固件或其任意组合的形式。在整个说明书和权利要求书中,术语可能具有超出明确陈述的含义的在上下文中暗示或暗含的细微含义。同样,本文使用的短语“在一个实施例中”或“在一些实施例中”不一定指同一实施例。本文使用的短语“在另一实施例”或“在其他实施例中”不一定指不同的实施例。本文使用的短语“在一个实施方式中”或“在某些实施方式中”不一定指相同的实施方式,本文使用的短语“在另一实施方式”或“在其他实施方式中”不一定指不同的实施方式。例如,旨在要求保护的主题包括全部或部分示例性实施例或实施方式的组合。通常,可以至少部分地根据上下文中的使用来理解术语。例如,本文使用的术语,诸如“和”、“或”或“和/或”,可以包括各种含义,其可以至少部分地取决于使用这些术语的上下文。通常,“或”如果用于关联一个列表,例如A、B或C,则意指A、B和C,在这里用于包容意义,以及A、B或C,在这里用于排他意义。另外,本文使用的术语“一个或多个”或“至少一个”,至少部分取决于上下文,可用于描述单数意义上的任何特征、结构或特性,或可用于描述复数意义上的特征、结构或特性的组合。类似地,诸如“一个”、“一种”或“该”之类的术语可以被理解为表达单数用法或表达复数用法,至少部分地取决于上下文。另外,术语“基于”或“由...确定”可以被理解为不一定意在表达一套排他性的因素,而是可能存在不一定明确描述的其他因素,同样,至少部分取决于上下文。本申请描述了使用具有自注意力模型的改进的时空图卷积网络(GCN)来识别一个或多个人类动作的方法、设备、系统和存储介质。人体本文档来自技高网...

【技术保护点】
1.一种使用图卷积网络(GCN)识别人体动作的方法,该方法包括:/n通过设备获得多个关节点姿态,所述设备包括存储有指令的存储器和与所述存储器通信的处理器;/n通过所述设备对所述多个关节点姿态进行归一化处理,以获得多个归一化的关节点姿态;/n通过所述设备使用改进的时空图卷积网络(ST-GCN)从所述多个归一化的关节点姿态中提取多个粗略特征;/n通过所述设备降低所述多个粗略特征的特征维度,以获得多个降维的特征;/n通过所述设备基于自注意力模型对所述多个降维的特征进行优化,以获得多个优化特征;/n通过所述设备根据所述多个优化特征,识别人体动作。/n

【技术特征摘要】
【国外来华专利技术】20201029 US 17/083,7381.一种使用图卷积网络(GCN)识别人体动作的方法,该方法包括:
通过设备获得多个关节点姿态,所述设备包括存储有指令的存储器和与所述存储器通信的处理器;
通过所述设备对所述多个关节点姿态进行归一化处理,以获得多个归一化的关节点姿态;
通过所述设备使用改进的时空图卷积网络(ST-GCN)从所述多个归一化的关节点姿态中提取多个粗略特征;
通过所述设备降低所述多个粗略特征的特征维度,以获得多个降维的特征;
通过所述设备基于自注意力模型对所述多个降维的特征进行优化,以获得多个优化特征;
通过所述设备根据所述多个优化特征,识别人体动作。


2.根据权利要求1所述的方法,其中通过所述设备对所述多个关节点姿态进行归一化处理以获得所述多个归一化的关节点姿态包括:
通过所述设备获得所述多个关节点姿态中的每个关节点姿态的躯干长度;
通过所述设备根据所述获得的躯干长度,对所述多个关节点姿态中的每个关节点姿态进行归一化处理,以获得所述多个归一化的关节点姿态。


3.根据权利要求1所述的方法,其中:所述改进的ST-GCN比标准ST-GCN包含更少的时空图卷积模块。


4.根据权利要求3所述的方法,其中:所述改进的ST-GCN包含7个时空图卷积模块。


5.根据权利要求1所述的方法,其中通过所述设备降低所述多个粗略特征的特征维度以获得所述多个降维的特征包括:
通过所述设备对所述多个粗略特征进行卷积,以降低所述多个粗略特征的特征维度,获得与多个关键关节相关联的所述多个降维的特征。


6.根据权利要求5所述的方法,其中:所述自注意力模型包括变形编码器,所述变形编码器包括预定数量的多头注意层和前馈层。


7.根据权利要求1所述的方法,其中通过所述设备根据所述多个优化特征,识别人体动作,包括:
通过所述设备从基于所述多个优化特征的softmax函数中生成多个概率值;
通过所述设备根据所述多个概率值,预测所述人体动作。


8.一种使用图卷积网络(GCN)识别人体动作的设备,该设备包括:
存储有指令的存储器;
与所述存储器通信的处理器,其中,当所述处理器执行所述指令时,所述处理器被配置为使所述设备:
获得多个关节点姿态;
归一化所述多个关节点姿态,以获得多个归一化的关节点姿态;
使用改进的时空图卷积网络(ST-GCN)从所述多个归一化的关节点姿态中提取多个粗略特征;
降低所述多个粗略特征的特征维度以获得多个降维的特征;
基于自注意力模型,优化所述多个降维的特征,得到多个优化特征;
根据所述多个优化特征,识别人体动作。


9.根据权利要求8所述的设备,其中,当所述处理器被配置为使所述设备对所述多个关节点姿态进行归一化以获得所述多个归一化的关节点姿态时,所述处理器被配置为使所述设备:
获得所述多个关节点姿态中的每个关节点姿态的躯干长度;
根据所述获得的躯干长度对所述多个关节点姿态中的每...

【专利技术属性】
技术研发人员:李海良刘扬李文迪雷志斌
申请(专利权)人:香港应用科技研究院有限公司
类型:发明
国别省市:中国香港;81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1