一种基于人体拓扑感知网络的三维人体姿态估计方法及系统技术方案

技术编号:37152927 阅读:19 留言:0更新日期:2023-04-06 22:10
本发明专利技术涉及一种基于人体拓扑感知网络的三维人体姿态估计方法及系统。本方法利用人体拓扑的分层次结构和运动约束,充分捕捉信息密度稀疏的人体关节点数据中的先验信息,有效缓解了人体末端关节点估计精度不足的问题。本方法构建了一种多层次特征提取聚合框架,可以由细粒度到粗粒度依次提取关节点层次、肢体层次、全身层次的特征信息;构建了同一肢体内关节点间的运动约束关系,利用父节点辅助高误差的末端关节点的预测。本发明专利技术充分利用人体拓扑中高度结构化的先验信息,无需引入额外的数据,便可在控制模型参数量的情况下获得更丰富的人体姿态表征学习能力。的人体姿态表征学习能力。的人体姿态表征学习能力。

【技术实现步骤摘要】
一种基于人体拓扑感知网络的三维人体姿态估计方法及系统


[0001]本专利技术属于计算机视觉中的目标识别和智能人机交互领域,具体涉及一种基于人体拓扑感知网络的三维人体姿态估计方法及系统。

技术介绍

[0002]三维人体姿态估计是计算机视觉领域一个基础且活跃的研究方向,其旨在从图像中预测人体关键点的三维坐标并由此构建出人体的骨架表示。由三维人体姿态估计算法估计出的人体骨架可以被进一步运用在在虚拟现实、动作识别、三维人体重建等任务中,因此具有重要的研究意义和应用价值。
[0003]当前,三维人体姿态估计算法主要分为两种实现方式:一阶段方法和两阶段方法。一阶段方法对RGB图片进行处理,旨在端到端地回归出人体关节点的三维坐标。虽然RGB图像具有丰富的语义信息,但各种形式的衣服、任意遮挡、视角造成的遮挡和背景上下文都会增大估计的难度,基于一阶段的经典姿态估计算法(Pavlakos G,Zhou X,Derpanis K G,et al.Coarse

to

fine volumetric prediction for single

image 3D human pose.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).2017:7025

7034.)计算量巨大且难以在这些复杂场景下准确识别和追踪细粒度的关节坐标。得益于现有的鲁棒的二维人体姿态估计算法,两阶段方法出现以来受到广泛的应用(Martinez J,Hossain R,Romero J,et al.Asimple yet effective baseline for 3D human pose estimation.Proceedings of the IEEE International Conference on Computer Vision(ICCV).2017:2640

2649.)。其首先利用现有的高效二维姿态估计器从图片中估计出二维坐标,再通过一个二维到三维的提升网络实现最终的三维坐标输出。大量实验证明无论是在主流的数据集中还是在真实场景下,两阶段方法都可以利用更加轻量级的网络获得更准确的估计。
[0004]然而,与基于图片输入的方法不同,两阶段方法中提升网络处理的数据是稀疏的人体关节点,如何充分利用好这些关节点间的人体拓扑先验信息就尤为重要。当前的相关工作主要参照主流的计算机视觉任务,希望从全局和局部两个层次去对人体关节点进行分析和处理,而忽视了人体关节点本身是高度结构化的拓扑组成,人体自身的层次结构和运动约束作为先验知识都可以很好的帮助我们进一步的提升三维人体姿态估计任务的准确性。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术分析了人体的结构特性,提供了一种基于人体拓扑感知网络的三维人体姿态估计方法及系统。根据人体的层次结构,本专利技术从关节点、肢体、全身三个层次依次提取特征信息并聚合。同时在肢体层次上,本专利技术设计了一种肢体内约束模块,利用同一肢体内的父关节点约束肢体末端关节点的运动,大幅降低了末端关节点的运动误差。本专利技术在不引入额外信息的情况下,利用人体关节点间的拓扑关系,便可有
效获取更加丰富的表征学习能力,并有效提升了预测的准确性。
[0006]本专利技术采用的技术方案如下:
[0007]一种基于人体拓扑感知网络的三维人体姿态估计方法,包括以下步骤:
[0008]利用预训练好的二维人体姿态估计器从输入的包含人体信息的图片中提取出二维关节点坐标;
[0009]利用空间特征嵌入模块将二维关节点坐标填充为高维向量;
[0010]将高维向量划分为三部分子向量;
[0011]第一部分子向量中,利用局部关节点构建模块对关节点间的物理连接进行建模;
[0012]第二部分子向量中,利用肢体内约束模块对肢体层次的运动约束关系进行建模;
[0013]第三部分子向量中,利用全局信息交互模块对身体层次的长距离交互进行建模;
[0014]将各子向量中提取到的分层次信息依次连接并聚合;
[0015]利用空间感知器模型对聚合后的高维向量提取高级语义特征;
[0016]利用预测头模块对高级语义特征进行回归,最终输出关节点的三维坐标。
[0017]进一步地,利用均方根损失函数在模型的输出和真实值间进行监督学习。
[0018]进一步地,所述的局部关节点构建模块局部关节点构建模块主要利用图卷积网络,利用邻接矩阵模仿人体关节点间的物理连接关系;所述的图卷积网络中的邻接矩阵仅考虑人体关节点间的物理连接和每个关键点与该关键点的自身相连。优选地,所述局部关节点构建模块利用两个图卷积、两个层归一化和一个激活函数的统一框架来模拟人体关节点层次的物理连接关系。
[0019]进一步地,所述的肢体内约束模块由两组一维标准卷积和空间感知器组成。该模块利用简单的一维标准卷积和替换操作,引入同一肢体中的父节点来约束具有高运动复杂度的末端关节点的运动,这种拓扑约束可以有效缓解末端关节点的误差,并协助产生更加合理的三维姿态估计。
[0020]进一步地,所述的两组一维标准卷积的卷积核分别是2和3,其跨步值也分别为2和3。
[0021]进一步地,所述的全局信息交互模块利用自注意力机制捕获全身关节点层次的长距离特征。
[0022]进一步地,所述的自注意力机制包含多个自注意力头,且仅考虑关节点间的空间信息交互。
[0023]进一步地,所述的分层次信息依次连接并聚合的过程结合了并行和串行的框架,一方面对于输入的高维特征通道进行拆分,并采用并行处理的方式来控制模型的参数量;另一方面,依次串行连接三个子模块,从而获得从细粒度到粗粒度的特征提取。
[0024]进一步地,所述的预测头模块包含一层全连接网络。
[0025]一种基于人体拓扑感知网络的三维人体姿态估计系统,其包括:
[0026]二维关节点坐标提取模块,用于利用预训练好的二维人体姿态估计器从包含人体信息的图片中提取出二维关节点坐标;
[0027]空间特征嵌入模块,用于将二维关节点坐标填充为高维向量;
[0028]通道拆分模块,用于将高维向量划分为三部分子向量;
[0029]局部关节点构建模块,用于利用第一部分子向量对关节点间的物理连接进行建
模;
[0030]肢体内约束模块,用于利用第二部分子向量对肢体层次的运动约束关系进行建模;
[0031]全局信息交互模块,用于利用第三部分子向量对身体层次的长距离交互进行建模;
[0032]通道合并模块,用于将各子向量中提取到的分层次信息依次连接并聚合;
[0033]空间感知器模块,用于对聚合后的高维向量提取高级语义特征;
[0034]预测头模块,用于对高级语义特征进行回归,最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人体拓扑感知网络的三维人体姿态估计方法,其特征在于,包括以下步骤:利用预训练好的二维人体姿态估计器从包含人体信息的图片中提取出二维关节点坐标;利用空间特征嵌入模块将二维关节点坐标填充为高维向量;将高维向量划分为三部分子向量;第一部分子向量中,利用局部关节点构建模块对关节点间的物理连接进行建模;第二部分子向量中,利用肢体内约束模块对肢体层次的运动约束关系进行建模;第三部分子向量中,利用全局信息交互模块对身体层次的长距离交互进行建模;将各子向量中提取到的分层次信息依次连接并聚合;利用空间感知器模型对聚合后的高维向量提取高级语义特征;利用预测头模块对高级语义特征进行回归,最终输出关节点的三维坐标。2.如权利要求1所述的方法,其特征在于,利用均方根损失函数对输出的关节点的三维坐标和真实值间进行监督学习。3.如权利要求1所述的方法,其特征在于,所述的局部关节点构建模块采用图卷积网络,利用邻接矩阵模仿人体关节点间的物理连接关系;所述邻接矩阵仅考虑人体关节点间的物理连接和每个关键点与该关键点的自身相连。4.如权利要求1所述的方法,其特征在于,所述的肢体内约束模块由两组一维标准卷积和空间感知器组成;该模块利用一维标准卷积和替换操作,引入同一肢体中的父节点来约束具有高运动复杂度的末端关节点的运动;所述的两组一维标准卷积的卷积核分别是2和3,其跨步值也分别为2和3。5.如权利要求1所述的方法,其特征在于,所述的全局信息交互模块利用自注意力机制捕获全身关节点层次的长距离特征;所述的自注意力机制包含多个自注意力头,且仅考虑关节点间的空间信息交互。6.如权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:刘宏蔡家伦丁润伟
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1