当前位置: 首页 > 专利查询>湖南大学专利>正文

用于3D人体姿态估计的多视角特征融合方法及系统技术方案

技术编号:34186949 阅读:19 留言:0更新日期:2022-07-17 14:28
本发明专利技术公开了用于3D人体姿态估计的多视角特征融合方法及系统,该方法包括:获取需要姿态估计的不同视角的目标图像;将目标图像经过图像预处理后,输入到训练好的MVP

Multi view feature fusion method and system for 3D human pose estimation

【技术实现步骤摘要】
Attention多视角注意力机制姿态估计模型)姿态估计模型中,输出3D人体姿态估计的结果;
[0010]MVP

att姿态估计模型通过以下步骤训练得到:
[0011]通过编码器对多视角输入的多个目标图像分别进行采样,提取得到多个单视图的2D人体姿态表达的深度特征图;
[0012]采用特征转换模块,将相机投影矩阵条件作用于每个深度特征图的图像坐标,映射转换为世界坐标,实现多视图的深度特征图中的深度特征进行标准化以及与相机姿态的解耦;
[0013]使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征,按照视角融合成统一的3D人体姿态表征。
[0014]优选地,MVP

att姿态估计模型的训练步骤,还包括:
[0015]将3D人体姿态表征输入到使用相机投影矩阵条件作用的特征转换模块,输出特征融合后各个视角的深度特征;
[0016]将特征融合后各个视角的深度特征输入到解码器中获得关节点二维热图;
[0017]使用可微直接线性变换方法将多视角的关节点二维热图映射到三维空间,生成表征人体关节点在三维空间位置的三维人体骨架。
[0018]优选地,自动选择有效深度特征,包括以下步骤:
[0019]先通过混合注意力机制建模解耦后的深度特征之间的相关性,然后深度学习每个通道的深度特征的注意力得分,自动在不同视角的深度特征集合中选择注意力得分符合要求的深度特征作为有效深度特征。
[0020]优选地,MVP
‑<br/>att姿态估计模型在训练过程中,通过最小化二维关节点的平均误差来监督模型的训练,损失函数如下:
[0021][0022]其中,表示第k个视角的第j个关节的真实二维坐标;是模型预测的第k个视角第j个关节的二维坐标。
[0023]优选地,MVP

att姿态估计模型在训练过程中,再通过以下损失函数公式微调多视角3D人体姿态估计模型:
[0024][0025]其中,L
3D

MPJPE
是所有关节点的预测位置与地面真值位置的平均欧氏距离,其中是世界坐标系下第j个关节点的真实三维坐标,p
j
为模型预测的第j个关节点的三维坐标。
[0026]优选地,基于混合注意力机制的多视角特征融合机制模块包括:级联的通道注意力机制单元和单通道局部注意力机制单元;用于对不同特征通道的注意力加权计算、同一特征通道不同局部的注意力加权计算,并依据计算得到的权值,完成对应的特征通道加权求和、同一特征通道局部加权求和,得到每个通道的深度特征的注意力得分。
[0027]优选地,单通道局部注意力机制单元,包括:低维嵌入全连接层、ReLU非线性激活层、维度恢复全连接层三个子结构,三者以级联的方式连接;低维嵌入全连接层的神经元数目小于或等于单通道局部注意力机制子模块输入的特征维度,维度恢复全连接层的神经元数目等于单通道局部注意力机制子模块输入的特征维度。
[0028]本专利技术还提供一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。
[0029]本专利技术具有以下有益效果:
[0030]1、本专利技术的用于3D人体姿态估计的多视角特征融合方法,是一种基于混合注意力机制的多视角特征融合方法,在有效选择各视角2D特征热度图的同时,通过训练学习自动选择有效深度特征,并将其按视角融合成统一的3D人体姿态表征。具有自适应性、高灵活性的特点,能以特征融合的思路解决3D人体姿态估计技术方案中的“局部遮挡”问题,并且能够轻松嵌入到端到端学习的多视角3D人体姿态估计模型,运用到实际的动作捕捉以及姿态识别中,以得到人体相关的三维结构信息和位置信息。
[0031]2、在优选方案中,本专利技术用于3D人体姿态估计的多视角特征融合方法,通过神经网络模块学习通道特征图局部空间的相关性,并通过为每个通道特征图元素学习掩模的形式生成权重特征(注意力得分),关注每个特征图的局部相关性,以进一步通过特征图的局部相关性更好的解决“局部遮挡”问题,最终能应用到实际生活场景当中,进行实际场景的人体姿态估计。
[0032]除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参照附图,对本专利技术作进一步详细的说明。
附图说明
[0033]构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0034]图1是本专利技术优选实施例的基于MVP

att的多视角3D人体姿态估计方法的学习模型示意图;
[0035]图2是本专利技术优选实施例的MVP

att多视角注意力机制模块的结构示意图;
[0036]图3是本专利技术优选实施例的基于MVP

att混合注意力机制的多视角特征融合方法的流程图;
[0037]图4是本专利技术优选实施例的3D人体姿态的预测结果示意图。
具体实施方式
[0038]以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。
[0039]实施例一:
[0040]在本实施例中,公开了一种基于混合注意力机制的多视角特征融合方法,如图1所示。
[0041]本实施例的主要目标就是获取3D人体姿态在绝对世界坐标下的位置,也就是人体姿态每个关节点的三维坐标集合为每个关节点分配特定编号,将重建的关节点按
照次序连接起来就会构成三维的人体骨架。
[0042]本实施例的基于混合注意力机制的多视角特征融合方法,步骤如下:
[0043]S1、获取需要姿态估计的不同视角的目标图像;
[0044]在具体实施时,可以通过摄像机等装置获取需要姿态估计的目标图像,在不同位置放置摄像机来获取不同视角的图像,本实施例中视角个数为N(N≥2),将输入的多视图记作并且已知每个视角的投影矩阵为p
i

[0045]S2、将目标图像经过图像预处理后,输入到训练好的MVP

att姿态估计模型中,输出3D人体姿态估计的结果。
[0046]MVP

att姿态估计模型通过以下步骤训练得到:
[0047]S201、将需要姿态估计的目标图像进行预处理;
[0048]本实施例使用每个数据集提供的人体边界框来裁剪目标图像,重新对裁剪图像进行采样来便于虚拟相机指向裁剪中心,然后采用归一化处理,将其转换成256
×
256和384
×
384两种输入尺寸,并且随机旋转30度和标准化颜色来增强训练数据集,在整个实施过程中使用Adam优化器,同时将最大迭代次数设置为40。这里给定多个视角的输入图像i表示第i个视角,N表示视角总个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于3D人体姿态估计的多视角特征融合方法,其特征在于,包括以下步骤:获取需要姿态估计的不同视角的目标图像;将目标图像经过图像预处理后,输入到训练好的MVP

att姿态估计模型中,输出3D人体姿态估计的结果;所述MVP

att姿态估计模型通过以下步骤训练得到:通过编码器对多视角输入的多个目标图像分别进行采样,提取得到多个单视图的2D人体姿态表达的深度特征图;采用特征转换模块,将相机投影矩阵条件作用于每个深度特征图的图像坐标,映射转换为世界坐标,实现多视图的深度特征图中的深度特征进行标准化以及与相机姿态的解耦;使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征,按照视角融合成统一的3D人体姿态表征。2.根据权利要求1所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述MVP

att姿态估计模型的训练步骤,还包括:将3D人体姿态表征输入到使用相机投影矩阵条件作用的特征转换模块,输出特征融合后各个视角的深度特征;将特征融合后各个视角的深度特征输入到解码器中获得关节点二维热图;使用可微直接线性变换方法将多视角的关节点二维热图映射到三维空间,生成表征人体关节点在三维空间位置的三维人体骨架。3.根据权利要求1所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述自动选择有效深度特征,包括以下步骤:先通过混合注意力机制建模解耦后的深度特征之间的相关性,然后深度学习每个通道的深度特征的注意力得分,自动在不同视角的深度特征集合中选择注意力得分符合要求的深度特征作为有效深度特征。4.根据权利要求2所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述MVP

att姿态估计...

【专利技术属性】
技术研发人员:肖德贵魏钰麒李健芳
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1