【技术实现步骤摘要】
基于多分支注意力图卷积的三维人体姿态估计方法
[0001]本专利技术涉及人体姿态估计
,尤其涉及一种基于多分支注意力图卷积的三维人体姿态估计方法。
技术介绍
[0002]视频监控技术和人工智能技术的发展对基于视频图像的人体三维姿态自动分析和识别技术提出了更多的实际应用需求。例如,在运动识别、虚拟现实、人机交互和机器人操作、特定场所、危险场所作业人员姿态识别中都具有重要应用。由于目前广泛采用的监控视频获取的都是单目二维平面图像。因此,研究实用的二维图像进行人体三维姿态估计方法是非常有必要。然而,使用单帧图像进行三维姿态估计比进行二维姿态估计要困难的多,因为这需要从模糊和有噪声的二维图像中估计每一个关节的完整三维位置,而且不同的三维姿态可能对应相同或相似的二维姿态。因此,从单帧二维图像中估计三维姿态极具挑战性。
[0003]目前,人体三维人姿态估计方法总体可分为两类,即一步姿态估计法和两步姿态估计法。其中,一步法是直接从二维图像中回归每个关节的三维位置,无需中间步骤;这类方法的共同优点是网络模型架构相对简单,但因为缺乏中间约束和图像三维姿态数据集,因此直接估计三维姿态会非常困难,而且需要昂贵的计算资源以及精细的超级参数调整。两步姿态估计法需要首先使用设计的二维关键点检测器来估计二维关节位置,然后学习从二维姿态直接回归出相应的三位姿态;此类方法中,有些在完成关键点检测后使用存储的二维
‑
三维姿势库来检索和匹配,从而输出与二维姿势相对应的三维姿势,但是这些方法都是基于字典的学习,在训练和估计中 ...
【技术保护点】
【技术特征摘要】
1.基于多分支注意力图卷积的三维人体姿态估计方法,其特征在于,包括如下步骤:步骤1. 搭建基于多分支注意力图卷积操作MulitBA_GConv的端到端的三维人体姿态估计模型,其包括二维人体姿态识别模型以及MulitBA_GCN三维人体姿态识别模型;二维人体姿态识别模型用于接收二维图像输入并输出二维图像中人体对应的二维姿态;MulitBA_GCN三维人体姿态识别模型用于接收二维人体姿态识别模型预测得出的二维姿态数据,并将该二维姿态数据作为输入回归出人体的三维姿态数据;MulitBA_GCN三维人体姿态识别模型包括输入层、中间特征提取层以及输出层;输入层是由一个MulitBA_GConv块组成;中间特征提取层是由多个残差模块依次串联组成;其中,每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成;输入特征在每个残差模块中的处理过程为:输入特征依次经过两个MulitBA_GConv块处理后的特征再与输入特征相加后构成该残差模块的输出特征;每个所述MulitBA_GConv块均是由一个MulitBA_GConv图卷积操作层、一个批归一化BatchNormal 1D操作层以及一个ReLU操作串联层组成;输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成;每个MulitBA_GConv图卷积操作层均包括多分支特征提取层、局部边注意力实现层、全局注意力实现层以及特征融合层;其中:多分支特征提取层,针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征,分别使用三个可学习的转换矩阵进行特征转换和提取;局部边注意力实现层,通过添加一个可学习的边注意力矩阵作为每一个边的注意力,分别用于聚合来自于自身节点的特征以及相邻节点的特征;全局注意力实现层,通过添加一个可学习的全局权重矩阵表示行归一化后的全局注意力,用于聚合全局特征;特征融合层,利用注意力对采用多分支特征提取层提取到的三种不同的特征分别进行关注和聚合,对聚合后的三种特征进行融合;步骤2. 对搭建好的三维人体姿态估计模型进行训练;步骤3. 采用训练好的三维人体姿态估计模型进行三维人体姿态估计,得到估计结果。2.根据权利要求1所述的三维人体姿态估计方法,其特征在于,所述多分支特征提取层中,分别使用不同的转换矩阵进行特征转换和提取,公式如下:;其中,、、是分别提取到供特征融合层在聚合时使用的特征;表
示输入特征;表示用于提取给自身节点信息的转换矩阵,为用于提取给相邻节点信息的转换矩阵,为用于提取给全局其他节点信息的转换矩阵。3.根据权利要求2所述的三维人体姿态估计方法,其特征在于,所述局部边注意力实现层中,添加一个可学习的边注意力矩阵作为每一个边的注意力;其中,K表示边的个数;定义边注意力矩阵的值表示节点i对节点j的依赖程度;新的邻接关系表示为:;其中,邻接矩阵A+I仅作为一个掩模;对于节点i,只关注学到的与其邻接节点j∈N(i)的权重,N(i)表示i的所有相邻节点;是Softmax算符,实现行归一化功能,它使所有邻接节点j对节点i的边的权重之和为1;由于新的邻接关系包含了自连接,因此,将新的邻接关系分解为两部分,其中:表示自连接权值部分,用它来聚合来自于自身节点的特征;为相邻节点之间的部分,用它来聚合来自于相邻节点的特征;以及分别表示为:,。4.根据权利要求3所述的三维人体姿态估计方法,其特征在于,所述全局注意力实现层中,添加一个可学习的全局权重矩阵表示行归一化后的全局注意力,聚合后的全局特征表示为:;定义全局权重矩阵表示j节点对i节点的贡献大小,该矩阵变换实现了将所有其他全局节点的信息按照定义的注意力大小聚合到节点i上。5.根据权利要求4所述的三维人体姿态估计方法,其特征在于,所述特征融合层中,利用注意力对采...
【专利技术属性】
技术研发人员:尹燕芳,刘明,朱其刚,张帅帅,
申请(专利权)人:山东科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。