基于多分支注意力图卷积的三维人体姿态估计方法技术

技术编号:37421374 阅读:11 留言:0更新日期:2023-04-30 09:43
本发明专利技术属于人体姿态估计技术领域,具体公开了一种基于多分支注意力图卷积的三维人体姿态估计方法。本发明专利技术设计了针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献的基于多分支的多W核矩阵图卷积特征提取层,克服了W核矩阵共享的缺点,提高了图卷积的特征表达能力。本发明专利技术通过添加可学习的边注意力矩阵及全局权重矩阵,实现了对自身节点、相邻节点的特征以及全局特征的提取与聚合,克服了经典图卷积只能提取局部特征的缺点。本发明专利技术还通过将设计的多分支注意力图卷积操作层与全连接网络相结合,构建了三维人体姿态估计的回归模型,在大大减少模型参数量的前提下,实现了基于图卷积的单帧三维人体姿态的最佳估计精度。最佳估计精度。最佳估计精度。

【技术实现步骤摘要】
基于多分支注意力图卷积的三维人体姿态估计方法


[0001]本专利技术涉及人体姿态估计
,尤其涉及一种基于多分支注意力图卷积的三维人体姿态估计方法。

技术介绍

[0002]视频监控技术和人工智能技术的发展对基于视频图像的人体三维姿态自动分析和识别技术提出了更多的实际应用需求。例如,在运动识别、虚拟现实、人机交互和机器人操作、特定场所、危险场所作业人员姿态识别中都具有重要应用。由于目前广泛采用的监控视频获取的都是单目二维平面图像。因此,研究实用的二维图像进行人体三维姿态估计方法是非常有必要。然而,使用单帧图像进行三维姿态估计比进行二维姿态估计要困难的多,因为这需要从模糊和有噪声的二维图像中估计每一个关节的完整三维位置,而且不同的三维姿态可能对应相同或相似的二维姿态。因此,从单帧二维图像中估计三维姿态极具挑战性。
[0003]目前,人体三维人姿态估计方法总体可分为两类,即一步姿态估计法和两步姿态估计法。其中,一步法是直接从二维图像中回归每个关节的三维位置,无需中间步骤;这类方法的共同优点是网络模型架构相对简单,但因为缺乏中间约束和图像三维姿态数据集,因此直接估计三维姿态会非常困难,而且需要昂贵的计算资源以及精细的超级参数调整。两步姿态估计法需要首先使用设计的二维关键点检测器来估计二维关节位置,然后学习从二维姿态直接回归出相应的三位姿态;此类方法中,有些在完成关键点检测后使用存储的二维

三维姿势库来检索和匹配,从而输出与二维姿势相对应的三维姿势,但是这些方法都是基于字典的学习,在训练和估计中都非常耗时,并且实时性较差。
[0004]人类的关节由骨骼连接且具有一定的图形结构。因此,有效利用这些空间先验知识,可以大大地提高三维姿态回归的准确性。曾经有人提出通过增加三维的身体部位长度约束,使用一个经过独立训练的网络来学习三维姿势的先验分布,减小三维姿态估计误差的方法;有的方法则使用关节连接结构定义了复合损失函数,用于二维和三维姿势估计的结构感知的回归;还有的方法将人体部分划分为不同等级的三个自由度,建立身体部位之间的双向依赖模型,通过它们相互监督,共同生成物理约束和合理的三维姿态估计。
[0005]一般来说,基于图卷积网络的方法由端到端学习驱动,因为它们同时考虑了图的结构和深度神经网络强大的特征提取能力,因此往往会获得更为准确的三维姿态估计结果。然而,图卷积网络普遍采用单一的共享转换矩阵提取所有关节点的特征而且主要关注局部信息,这在一定程度上大大限制了图卷积的特征提取能力,因此影响了估计精度。
[0006]专利文献1公开了一种基于图多层感知器的三维人体姿态估计方法及系统,该专利申请中因采用多个全连接层,导致了参数冗余及模型参数量的增加。
[0007]专利文献2公开了一种基于多级监督图卷积的三维人体姿态估计的方法,然而该专利申请针对的是利用图像序列而非单张图像进行三维人体姿态估计的方法。
[0008]专利文献3提出了通过构建语义图卷积层,学习图的边中隐含的噪声节点的语义
关系,利用全局上下文层,捕获节点之间的全局和远程关系进行三维人体姿态估计方法。
[0009]然而,该专利申请的专利设计通过引入图的边注意力,但是它的语义图卷积没有全局特征提取的能力,从而利用额外的非局部层来捕获节点之间的全局关系。
[0010]参考文献专利文献1 中国专利技术专利申请,公开号:CN115205896A,公开日:2022.10.18;专利文献2 中国专利技术专利申请,公开号:CN114694261A,公开日:2022.07.01;专利文献3 中国专利技术专利申请,公开号:CN112712019A,公开日:2021.04.27。

技术实现思路

[0011]本专利技术的目的在于提出一种基于多分支注意力图卷积的三维人体姿态估计方法,该方法采用多分支结构分别提取贡献给当前关节点、邻接关节点以及全局其他关节点的特征信息,并采用相应的注意力来分别关注这些特征,以提升图卷积的特征提取能力,同时结合全连接网络的特点,既能够大大减少模型的参数量,又能够提高模型的估计精度。
[0012]本专利技术为了实现上述目的,采用如下技术方案:基于多分支注意力图卷积的三维人体姿态估计方法,包括如下步骤:步骤1. 搭建基于多分支注意力图卷积操作MulitBA_GConv的端到端的三维人体姿态估计模型,其包括二维人体姿态识别模型以及MulitBA_GCN三维人体姿态识别模型;二维人体姿态识别模型用于接收二维图像输入并输出二维图像中人体对应的二维姿态;MulitBA_GCN三维人体姿态识别模型用于接收所述二维人体姿态识别模型预测得出的二维姿态数据,并将该二维姿态数据作为输入回归出人体的三维姿态数据;MulitBA_GCN三维人体姿态识别模型包括输入层、中间特征提取层以及输出层;其中,输入层是由一个MulitBA_GConv块组成;中间特征提取层是由多个残差模块依次串联组成,每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成;输入特征在每个残差模块中的处理过程为:输入特征依次经过两个MulitBA_GConv块处理后的特征再与输入特征相加后构成该残差模块的输出特征;每个所述MulitBA_GConv块均是由一个MulitBA_GConv图卷积操作层、一个批归一化BatchNormal 1D操作层以及一个ReLU操作串联层组成;输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成;每个MulitBA_GConv图卷积操作层均包括:多分支特征提取层,针对节点对自身贡献,对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征,分别使用三个可学习的转换矩阵进行特征转换和提取;局部边注意力实现层,通过添加一个可学习的边注意力矩阵作为每一个边的注意力,分别用于聚合来自于自身节点的特征以及相邻节点的特征;全局注意力实现层,通过添加一个可学习的全局权重矩阵表示行归一化后的全局注意力,用于聚合全局特征;以及特征融合层,利用注意力对采用多分支特征提取层提取到的特征分别进行关
注和聚合,对聚合后的三种特征进行融合;步骤2. 对搭建好的三维人体姿态估计模型进行训练;步骤3. 采用训练好的三维人体姿态估计模型进行三维人体姿态估计,得到估计结果。
[0013]本专利技术具有如下优点:如上所述,本专利技术述及了一种基于多分支注意力图卷积的三维人体姿态估计方法。其中,本专利技术设计了针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献的基于多分支的多W核矩阵图卷积特征提取层,克服了W核矩阵共享的缺点,提高了图卷积的特征表达能力。另外,本专利技术通过添加可学习的边注意力矩阵及全局权重矩阵,实现了对自身节点、相邻节点的特征以及全局特征的提取与聚合,克服了经典图卷积只能提取局部特征的缺点。此外,本专利技术还通过将设计的基于多分支注意力图卷积操作层与全连接网络相结合,构建了三维人体姿态估计的回归模型,在大大减少模型参数量的前提下,实现了基于图卷积的单帧三维人体姿态的最佳估计精度。
附图说明
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多分支注意力图卷积的三维人体姿态估计方法,其特征在于,包括如下步骤:步骤1. 搭建基于多分支注意力图卷积操作MulitBA_GConv的端到端的三维人体姿态估计模型,其包括二维人体姿态识别模型以及MulitBA_GCN三维人体姿态识别模型;二维人体姿态识别模型用于接收二维图像输入并输出二维图像中人体对应的二维姿态;MulitBA_GCN三维人体姿态识别模型用于接收二维人体姿态识别模型预测得出的二维姿态数据,并将该二维姿态数据作为输入回归出人体的三维姿态数据;MulitBA_GCN三维人体姿态识别模型包括输入层、中间特征提取层以及输出层;输入层是由一个MulitBA_GConv块组成;中间特征提取层是由多个残差模块依次串联组成;其中,每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成;输入特征在每个残差模块中的处理过程为:输入特征依次经过两个MulitBA_GConv块处理后的特征再与输入特征相加后构成该残差模块的输出特征;每个所述MulitBA_GConv块均是由一个MulitBA_GConv图卷积操作层、一个批归一化BatchNormal 1D操作层以及一个ReLU操作串联层组成;输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成;每个MulitBA_GConv图卷积操作层均包括多分支特征提取层、局部边注意力实现层、全局注意力实现层以及特征融合层;其中:多分支特征提取层,针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征,分别使用三个可学习的转换矩阵进行特征转换和提取;局部边注意力实现层,通过添加一个可学习的边注意力矩阵作为每一个边的注意力,分别用于聚合来自于自身节点的特征以及相邻节点的特征;全局注意力实现层,通过添加一个可学习的全局权重矩阵表示行归一化后的全局注意力,用于聚合全局特征;特征融合层,利用注意力对采用多分支特征提取层提取到的三种不同的特征分别进行关注和聚合,对聚合后的三种特征进行融合;步骤2. 对搭建好的三维人体姿态估计模型进行训练;步骤3. 采用训练好的三维人体姿态估计模型进行三维人体姿态估计,得到估计结果。2.根据权利要求1所述的三维人体姿态估计方法,其特征在于,所述多分支特征提取层中,分别使用不同的转换矩阵进行特征转换和提取,公式如下:;其中,、、是分别提取到供特征融合层在聚合时使用的特征;表
示输入特征;表示用于提取给自身节点信息的转换矩阵,为用于提取给相邻节点信息的转换矩阵,为用于提取给全局其他节点信息的转换矩阵。3.根据权利要求2所述的三维人体姿态估计方法,其特征在于,所述局部边注意力实现层中,添加一个可学习的边注意力矩阵作为每一个边的注意力;其中,K表示边的个数;定义边注意力矩阵的值表示节点i对节点j的依赖程度;新的邻接关系表示为:;其中,邻接矩阵A+I仅作为一个掩模;对于节点i,只关注学到的与其邻接节点j∈N(i)的权重,N(i)表示i的所有相邻节点;是Softmax算符,实现行归一化功能,它使所有邻接节点j对节点i的边的权重之和为1;由于新的邻接关系包含了自连接,因此,将新的邻接关系分解为两部分,其中:表示自连接权值部分,用它来聚合来自于自身节点的特征;为相邻节点之间的部分,用它来聚合来自于相邻节点的特征;以及分别表示为:,。4.根据权利要求3所述的三维人体姿态估计方法,其特征在于,所述全局注意力实现层中,添加一个可学习的全局权重矩阵表示行归一化后的全局注意力,聚合后的全局特征表示为:;定义全局权重矩阵表示j节点对i节点的贡献大小,该矩阵变换实现了将所有其他全局节点的信息按照定义的注意力大小聚合到节点i上。5.根据权利要求4所述的三维人体姿态估计方法,其特征在于,所述特征融合层中,利用注意力对采...

【专利技术属性】
技术研发人员:尹燕芳刘明朱其刚张帅帅
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1