基于多层次双分支交叉注意力的三维人体姿态估计方法技术

技术编号:38909823 阅读:15 留言:0更新日期:2023-09-25 09:27
本发明专利技术公开了基于多层次双分支交叉注意力的三维人体姿态估计方法,对待检测视频作为输入,利用训练好的三维人体姿态估计模型预测二维图像中人体关节点在三维中的坐标,采用本发明专利技术,通过实验结果表明,预测结果比主流方法更贴近真实预测结果,丰富了人工智能和计算机视觉的方法体系,为三维人体姿态估计领域提升预测精度提供了一种选择。预测精度提供了一种选择。预测精度提供了一种选择。

【技术实现步骤摘要】
基于多层次双分支交叉注意力的三维人体姿态估计方法


[0001]本专利技术属于计算机视觉及人工智能
,涉及基于多层次双分支交叉注意力的三维人体姿态估计方法。

技术介绍

[0002]三维人体姿态估计(3D HPE)是一个热门的计算机视觉研究方向,它的目标是在三维空间中重建人体关键点位置,三维人体姿态估计的应用非常广泛,包括人机交互、运动分析、虚拟现实、康复训练;三维人体姿态估计的实现方法主要分为两类:直接估计法和2D

3D提升方法;前一种方法直接从输入图像或视频中推断3D姿态;另一种首先将人类图像序列转化为二维关键点序列,然后提升到三维关键点。尽管二维人体姿态估计模型的精度和泛化性都得到了显著提升,但是从二维视频图像推断三维人体姿态仍然存在着自遮挡和深度模糊等问题。
[0003]为了消除这些问题,基于CNN的方法侧重于利用时空图卷积神经网络来估计三维人体姿态,但是这种方法通常依赖于膨胀技术,导致网络的时间连通性有限;
[0004]由于Transformer架构嵌入了注意力机制,因此可以灵活地对输入序列中的长程依赖关系进行建模,这使得利用Transformer进行三维人体姿态估计成为可能;PoseFormer首次将Transformer应用于三维人体姿态估计中,它将每帧的所有关节分为一组,然后利用时空信息估计视频中的中心帧姿态。但人体关节是一个拓扑结构,它以脊柱为中心,向四肢延伸,肢体关节对父节点的依赖性往往导致肢体关节的估计误差偏高,而且四肢关节的估计误差会随着运动复杂度的增加而逐渐积累,因此对人体关节进行分区并对各个部位进行误差分析就显得尤为重要。
[0005]因此,如何在使用Transformer捕获姿态序列中长程依赖关系的前提下,减少四肢关节的误差累计对整体关节预测的影响,是一个亟待解决的重要问题。

技术实现思路

[0006]本专利技术的目的是提供基于多层次双分支交叉注意力的三维人体姿态估计方法,能够对视频帧中的二维人体图像进行关节点提取,并将二维关节点序列提升至三维关节点序列。
[0007]本专利技术所采用的技术方案是,基于多层次双分支交叉注意力的三维人体姿态估计方法,具体为采用时空Transformer将二维人体姿态序列提升为三维人体姿态序列。
[0008]本专利技术的特点还在于:
[0009]其中基于多层次双分支交叉注意力的三维人体姿态估计方法,具体按以下步骤实施:
[0010]步骤1,通过二维姿态检测器捕捉视频帧中的二维人体关节点,并对关节点进行预处理,馈送到不同层次的管道中;
[0011]步骤2,采用空间编码器对步骤1不同层次的人体关节点进行空间相关性的学习;
[0012]步骤3,采用关节分区时间编码器对步骤2中不同层次的关节点特征信息按照骨骼分区策略进行时间相关性的学习;
[0013]步骤4,将步骤3中各个层次具有时空相关性的关节点特征信息进行特征重组;
[0014]步骤5,采用双分支交叉注意力加强步骤4中不同层次间输出的相关性;
[0015]步骤6,采用线性变换层将步骤5的高维度输出投影为三维坐标;
[0016]步骤7,构建损失函数,使用MPJPE对模型进行端到端的训练;
[0017]其中步骤1中关节点预处理具体按以下步骤实施:
[0018]步骤1.1,将待处理视频逐帧输入到二维姿态检测器中,得到与视频帧相对应的二维人体姿态序列;
[0019]步骤1.2,将二维人体姿态序列中的关节点坐标信息拉伸为一维的tensor向量,得到预处理后的关节点信息;
[0020]其中步骤2中空间相关性的学习具体按以下步骤实施:
[0021]步骤2.1,构建空间位置嵌入矩阵,对步骤1.2处理后的二维姿态序列进行空间信息的嵌入,其中J和T分别是关节点数和帧数,信道大小为2:
[0022]X

=LN(X)+E
Sp
ꢀꢀꢀꢀ
(1)
[0023]式中,LN(
·
)代表LayerNorm层,代表空间位置嵌入矩阵,X

代表带有空间嵌入信息的输出;
[0024]步骤2.2,构建空间编码器模块,使用自注意力机制处理经过步骤2.1空间信息嵌入后所有关节上的特征信息,并将结果引入到多层次中,完成对该帧空间特征上的处理;
[0025]其中步骤2.2具体按以下步骤实施:
[0026]步骤2.2.1,将步骤2.1得到的输出X

送入到空间编码器模块中,得到第一层的输出:
[0027]X

=LN(X)+E
Sp
ꢀꢀꢀꢀ
(2)
[0028]式中,STE为Spatial Transformer Encoder,代表第一层经过空间编码器的输出结果;
[0029]步骤2.2.2,将上一层的输出作为下一层的输入,得到三个层次的关节点特征信息:
[0030][0031][0032]式中,和分别为第二层和第三层的输出;
[0033]其中步骤3中的时间相关性的学习具体按以下步骤实施:
[0034]步骤3.1,根据关节分区策略将人体关节点划分为五个分区,分别为左臂、右臂、脊椎、左腿和右腿;
[0035]步骤3.2,构建时间位置嵌入矩阵对步骤2.2.2处理后的每层关节点进行时间信息的嵌入:
[0036][0037]式中,代表第n层的输出,其中n∈[1,2,3],代表第n层经过时间嵌入
后得到的特征结果;
[0038]步骤3.3,构建关节分区时间编码器模块,将经过步骤3.2时间信息嵌入后的关节特征信息分为五个部分其中i=1,2,3,4,5,代表不同分组,D是嵌入维度,然后将输入到关节分区模块中,完成对各个分区时间相关性的建模,最后将五个分区的特征输出融合为原始形状
[0039][0040]式中,Concat代表数据的拼接,TTE代表Temporal Transformer Encoder;
[0041]步骤3.4,设计关节分区多层感知机,用来对经过步骤3.3处理后的各个分区的特征进行合并,并将合并的特征按照关节点数量施加非线性因素:
[0042][0043]式中,BP

MLP代表关节分区多层感知机,代表第n层经过关节分区时间编码器的结果;
[0044]其中步骤4中的特征重组具体按以下步骤实施:
[0045]步骤4.1,将步骤3.4中经过关节分区时间编码器的输出结果通过多头自注意力(MHSA)进行关系建模,然后融合为
[0046]步骤4.2,将步骤4.1融合的特征向量Y
F
均匀地拆分为原始形状以便于后续步骤的操作;
[0047]其中步骤5中的双分支交叉注意力加强层次间相关性具体按以下步骤实施:
[0048]步骤5.1,通过步骤4得到各个层次经过特征重组的向量以每两个层次的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多层次双分支交叉注意力的三维人体姿态估计方法,其特征在于,具体为采用时空Transformer将二维人体姿态序列提升为三维人体姿态序列。2.根据权利要求1所述的基于多层次双分支交叉注意力的三维人体姿态估计方法,其特征在于,具体按以下步骤实施:步骤1,通过二维姿态检测器捕捉视频帧中的二维人体关节点,并对关节点进行预处理,馈送到不同层次的管道中;步骤2,采用空间编码器对步骤1不同层次的人体关节点进行空间相关性的学习;步骤3,采用关节分区时间编码器对步骤2中不同层次的关节点特征信息按照骨骼分区策略进行时间相关性的学习;步骤4,将步骤3中各个层次具有时空相关性的关节点特征信息进行特征重组;步骤5,采用双分支交叉注意力加强步骤4中不同层次间输出的相关性;步骤6,采用线性变换层将步骤5的高维度输出投影为三维坐标;步骤7,构建损失函数,使用MPJPE对模型进行端到端的训练。3.根据权利要求2所述的基于多层次双分支交叉注意力的三维人体姿态估计方法,其特征在于,所述步骤1中关节点预处理具体按以下步骤实施:步骤1.1,将待处理视频逐帧输入到二维姿态检测器中,得到与视频帧相对应的二维人体姿态序列;步骤1.2,将二维人体姿态序列中的关节点坐标信息拉伸为一维的tensor向量,得到预处理后的关节点信息。4.根据权利要求3所述的基于多层次双分支交叉注意力的三维人体姿态估计方法,其特征在于,所述步骤2中空间相关性的学习具体按以下步骤实施:步骤2.1,构建空间位置嵌入矩阵,对步骤1.2处理后的二维姿态序列进行空间信息的嵌入,其中J和T分别是关节点数和帧数,信道大小为2:X

=LN(X)+E
Sp
ꢀꢀꢀꢀ
(1)式中,LN(
·
)代表LayerNorm层,代表空间位置嵌入矩阵,X

代表带有空间嵌入信息的输出;步骤2.2,构建空间编码器模块,使用自注意力机制处理经过步骤2.1空间信息嵌入后所有关节上的特征信息,并将结果引入到多层次中,完成对该帧空间特征上的处理。5.根据权利要求4所述的基于多层次双分支交叉注意力的三维人体姿态估计方法,其特征在于,所述步骤2.2具体按以下步骤实施:步骤2.2.1,将步骤2.1得到的输出X

送入到空间编码器模块中,得到第一层的输出:X

=LN(X)+E
Sp
ꢀꢀꢀꢀꢀꢀ
(2)式中,STE为Spatial Transformer Encoder,代表第一层经过空间编码器的输出结果;步骤2.2.2,将上一层的输出作为下一层的输入,得到三个层次的关节点特征信息:
式中,和分别为第二层和第三层的输出。6.根据权利要求2所述的基于多层次双分支交叉注意力的三维人体姿态估计方法,其特征在于,所述步骤3中的时间相关性的学习具体按以下步骤实施:步骤3.1,根据关节分区策略将人体关节点划分为五个分区,分别为左臂、右臂、脊椎、左腿和右腿;步骤3.2,构建时间位置嵌入矩阵对步骤2.2.2处理后的每层关节点进行时间信息的嵌入:式中,代表第n层的输出,其中n∈[1,2,3],代表第n层经过时间嵌入后得到的特征结果;步骤3.3,构建关节分区时间编码器模块,将经过步骤3.2时间信息嵌入后的关节特征信息分为五个部分其中i=1,2,3,4,5,代表不同分组,D是嵌入维度,然后将...

【专利技术属性】
技术研发人员:宋霄罡崔永新黑新宏
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1