基于投影损失约束的单帧图像3D人体姿态估计及重建方法技术

技术编号:35747804 阅读:15 留言:0更新日期:2022-11-26 18:52
本发明专利技术公开了一种基于投影损失约束的单帧图像3D人体姿态估计及重建方法,步骤包括:S1,利用2D姿态估计模型对单目相机采集的单帧图像进行2D人体关键点和2D人体轮廓识别,得到2D人体关键点K和2D人体轮廓图S;S2,以2D人体关键点K和2D人体轮廓图S为SMPL参数估计模型的输入,推理得到形体尺寸Shape参数β、姿态Pose参数θ;S3,通过β、θ驱动SMPL模型重建3D人体。本发明专利技术在3D人体重建中,考虑了关键点投影损失、人体轮廓投影损失、顶点投影损失、关节弯曲的先验惩罚,减少了重建的3D人体的扭曲现象。象。象。

【技术实现步骤摘要】
基于投影损失约束的单帧图像3D人体姿态估计及重建方法


[0001]本专利技术涉及三维人体重建
,具体涉及一种基于投影损失约束的单帧图像3D人体姿态估计及重建方法。

技术介绍

[0002]人体三维姿态估计及重建技术能够根据单帧或多帧二维图像获取其三维参数信息并进一步重建出三维人体,在体育、影视、安防等众多领域中具有广泛应用。由于从二维图像恢复三维信息是一种欠定求解问题,因此现有技术中通常利用多种额外信息进行求解,例如通过连续帧图像、多视角图像进行三维人体重建等。当前,针对单目相机采集的单帧图像的三维人体重建仍然是一项具有挑战性的工作,通常需要对该欠定问题进行循环优化,所能用到的约束条件包括人体轮廓约束、2D关键点位置约束等,但这些优化易得到局部最优值,导致重建的3D人体出现扭曲、穿插等问题。
[0003]SMPL模型(Skinned Multi

Person Linear Model)是一种基于顶点(vertex

based)的参数化人体三维模型,可通过形状(Shape)和姿态(Pose)参数驱动生成三维人体的网格(mesh),利用该模型可将上述重建优化问题转换为对SMPL模型参数的求解,从而可以更加快速的得到相对更为准确的人体重建结果。但现有的驱动SMPL模型生成三维人体的方法同样还存在重建人体扭曲、位置偏移的问题,重建的3D人体在场景下的空间真实感欠佳。

技术实现思路

[0004]本专利技术以进一步减少SMPL模型重建的3D人体扭曲、位置偏移,提升重建的3D人体在场景下的空间真实感为目的,提供了一种基于投影损失约束的单帧图像3D人体姿态估计及重建方法。
[0005]为达此目的,本专利技术采用以下技术方案:
[0006]提供一种基于投影损失约束的单帧图像3D人体姿态估计及重建方法,步骤包括:
[0007]S1,利用2D姿态估计模型对单目相机采集的单帧图像进行2D人体关键点和2D人体轮廓识别,得到2D人体关键点K和2D人体轮廓图S;
[0008]S2,以所述2D人体关键点K和所述2D人体轮廓图S为SMPL参数估计模型的输入,推理得到形体尺寸Shape参数β、姿态Pose参数θ和相机参数T;
[0009]S3,通过β、θ驱动SMPL模型重建3D人体,并利用所述相机参数T对重建的所述3D人体进行投影。
[0010]作为优选,所述SMPL参数估计模型包括相互间并行的形体尺寸Shape估计模块、姿态Pose估计模块、相机Camera估计模块,所述形体尺寸Shape估计模块包括第一形体尺寸Shape估计模块和与所述第一形体尺寸Shape估计模块以并行方式连接的第二形体尺寸Shape估计模块,
[0011]所述第一形体尺寸Shape估计模块以所述2D人体轮廓图S为输入,预测输出中间特
征向量f,f输入所述第二形体尺寸Shape估计模块,预测输出所述形体尺寸Shape参数β;
[0012]所述姿态Pose估计模块以所述2D人体关键点K为输入,预测输出所述姿态Pose参数θ;
[0013]所述相机Camera估计模块以所述2D人体关键点坐标K为输入,预测输出所述相机参数T。
[0014]作为优选,所述SMPL参数估计模型包括相互间串行的形体尺寸Shape估计模块、姿态Pose估计模块、相机Camera估计模块,所述形体尺寸Shape估计模块包括第一形体尺寸Shape估计模块和与所述第一形体尺寸Shape估计模块以串行方式连接的第三形体尺寸Shape估计模块,
[0015]所述第一形体尺寸Shape估计模块以所述2D人体轮廓图S为输入,预测输出中间特征向量f;
[0016]所述姿态Pose估计模块以所述2D人体关键点坐标K为输入,预测输出所述姿态Pose参数θ;
[0017]所述相机Camera估计模块以所述2D人体关键点K为输入,预测输出所述相机参数T;
[0018]所述第三形体尺寸Shape估计模块以所述中间特征向量f、所述姿态Pose参数θ、所述相机参数T为输入预测输出所述形体尺寸Shape参数β。
[0019]作为优选,所述姿态Pose估计模块估计所述参数θ的方法包括步骤:
[0020]A1:将维度为2
×
M的所述2D人体关键点K,M表示人体关键点数量,作为所述姿态Pose估计模块的输入,经过所述姿态Pose估计模块中的全连接层FC1的特征提取输出维度为512的第一特征;
[0021]A2:所述全连接层FC1的输出作为所述姿态Pose估计模块中的卷积层Conv1的输入,所述姿态Pose估计模块首先将512维度的所述第一特征变换为1
×1×
512维度的特征图,再输入所述卷积层Conv1中作进一步的特征提取,输出1
×1×
512维度的第二特征图,所述卷积层Conv1的卷积核尺寸1
×
1、通道数1、步长为1;
[0022]A3:所述姿态Pose估计模块将所述卷积层Conv1的输出变换为512维,再输入全连接层FC2,所述全连接层FC2输出256维的第三特征,所述全连接层FC1有256个结点;
[0023]A4:所述全连接层FC2的输出作为所述姿态Pose估计模块中的全连接层FC3的输入,所述全连接层FC3输出72维的第四特征,所述全连接层FC3有72个结点,最终输出的72维即为预测的所述参数θ;
[0024]所述相机Camera估计模块估计所述相机参数T的方法步骤包括:
[0025]B1:将维度为2
×
M的2D人体关键点K作为所述相机Camera估计模块的输入,经过所述相机Camera估计模块中的全连接层FC4的特征提取后输出512维度的第五特征,所述全连接层FC4有512个结点,M表示人体关键点的数量;
[0026]B2:所述全连接层FC4的输出作为所述相机Camera估计模块中的全连接层FC5的输入,所述全连接层FC5输出128维的第六特征,所述全连接层FC5有128个结点;
[0027]B3:所述全连接层FC4的输出作为所述相机Camera估计模块中的全连接层FC6的输入,所述全连接层FC6输出3维的第七特征,所述全连接层FC6有3个结点,最终输出的3维特征即为预测的相机Camera参数T;
[0028]所述第一形体尺寸Shape估计模块估计所述中间特征向量f的方法步骤包括:
[0029]C1:将尺寸为1
×
256
×
256的所述2D人体轮廓图S作为所述第一形体尺寸Shape估计模块中的卷积层Conv2的输入,所述卷积层Conv2的卷积核尺寸7
×
7、通道数32、步长为2、padding为3,所述卷积层Conv2输出维度32
×
128
×
128的第八特征图;
[0030]C2:所述卷积层Conv2的输出为所述第一形本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于投影损失约束的单帧图像3D人体姿态估计及重建方法,其特征在于,步骤包括:S1,利用2D姿态估计模型对单目相机采集的单帧图像进行2D人体关键点和2D人体轮廓识别,得到2D人体关键点K和2D人体轮廓图S;S2,以所述2D人体关键点K和所述2D人体轮廓图S为SMPL参数估计模型的输入,推理得到形体尺寸Shape参数β、姿态Pose参数θ和相机参数T;S3,通过β、θ驱动SMPL模型重建3D人体,并利用所述相机参数T对重建的所述3D人体进行投影。2.根据权利要求1所述的基于投影损失约束的单帧图像3D人体姿态估计及重建方法,其特征在于,所述SMPL参数估计模型包括相互间并行的形体尺寸Shape估计模块、姿态Pose估计模块、相机Camera估计模块,所述形体尺寸Shape估计模块包括第一形体尺寸Shape估计模块和与所述第一形体尺寸Shape估计模块以并行方式连接的第二形体尺寸Shape估计模块,所述第一形体尺寸Shape估计模块以所述2D人体轮廓图S为输入,预测输出中间特征向量f,f输入所述第二形体尺寸Shape估计模块,预测输出所述形体尺寸Shape参数β;所述姿态Pose估计模块以所述2D人体关键点K为输入,预测输出所述姿态Pose参数θ;所述相机Camera估计模块以所述2D人体关键点坐标K为输入,预测输出所述相机参数T。3.根据权利要求1所述的基于投影损失约束的单帧图像3D人体姿态估计及重建方法,其特征在于,所述SMPL参数估计模型包括相互间串行的形体尺寸Shape估计模块、姿态Pose估计模块、相机Camera估计模块,所述形体尺寸Shape估计模块包括第一形体尺寸Shape估计模块和与所述第一形体尺寸Shape估计模块以串行方式连接的第三形体尺寸Shape估计模块,所述第一形体尺寸Shape估计模块以所述2D人体轮廓图S为输入,预测输出中间特征向量f;所述姿态Pose估计模块以所述2D人体关键点坐标K为输入,预测输出所述姿态Pose参数θ;所述相机Camera估计模块以所述2D人体关键点K为输入,预测输出所述相机参数T;所述第三形体尺寸Shape估计模块以所述中间特征向量f、所述姿态Pose参数θ、所述相机参数T为输入预测输出所述形体尺寸Shape参数β。4.根据权利要求2或3所述的基于投影损失约束的单帧图像3D人体姿态估计及重建方法,其特征在于,所述姿态Pose估计模块估计所述参数θ的方法包括步骤:A1:将维度为2
×
M的所述2D人体关键点K,M表示人体关键点数量,作为所述姿态Pose估计模块的输入,经过所述姿态Pose估计模块中的全连接层FC1的特征提取输出维度为512的第一特征;A2:所述全连接层FC1的输出作为所述姿态Pose估计模块中的卷积层Conv1的输入,所述姿态Pose估计模块首先将512维度的所述第一特征变换为为1
×1×
512维度的特征图,再输入所述卷积层Conv1中作进一步的特征提取,输出1
×1×
512维度的第二特征图,所述卷积层Conv1的卷积核尺寸1
×
1、通道数1、步长为1;
A3:所述姿态Pose估计模块将所述卷积层Conv1的输出变换为512维,再输入全连接层FC2,所述全连接层FC2输出256维的第三特征,所述全连接层FC1有256个结点;A4:所述全连接层FC2的输出作为所述姿态Pose估计模块中的全连接层FC3的输入,所述全连接层FC3输出72维的第四特征,所述全连接层FC3有72个结点,最终输出的72维即为预测的所述参数θ;所述相机Camera估计模块估计所述相机参数T的方法步骤包括:B1:将维度为2
×
M的2D人体关键点K作为所述相机Camera估计模块的输入,经过所述相机Camera估计模块中的全连接层FC4的特征提取后输出512维度的第五特征,所述全连接层FC4有512个结点,M表示人体关键点的数量;B2:所述全连接层FC4的输出作为所述相机Camera估计模块中的全连接层FC5的输入,所述全连接层FC5输出128维的第六特征,所述全连接层FC5有128个结点;B3:所述全连接层FC4的输出作为所述相机Camera估计模块中的全连接层FC6的输入,所述全连接层FC6输出3维的第七特征,所述全连接层FC6有3个结点,最终输出的3维特征即为预测的相机Camera参数T;所述第一形体尺寸Shape估计模块估计所述中间特征向量f的方法步骤包括:C1:将尺寸为1
×
256
×
256的所述2D人体轮廓图S作为所述第一形体尺寸Shape估计模块中的卷积层Conv2的输入,所述卷积层Conv2的卷积核尺寸7
×
7、通道数32、步长为2、padding为3,所述卷积层Conv2输出维度32
×
128
×
128的第八特征图;C2:所述卷积层Conv2的输出为所述第一形体尺寸Shape估计模块中的卷积层Conv3的输入,所述卷积层Conv3的卷积核尺寸3
×
3、通道数128、步长为2、padding为1,所述卷积层Conv3输出维度128
×
64
×
64的第九特征图;C3:所述卷积层Conv3的输出为所述第一形体尺寸Shape估计模块中的卷积层Conv4的输入,所述卷积层Conv4的卷积核尺寸3
×
3、通道数512、步长为2、padding为1,所述卷积层Conv4输出维度为512
×
32
×
32的第十特征图;C4:所述卷积层Conv4的输出为所述第二形体尺寸Shape估计模块中的最大池化层MaxPool的输入,所述最大池化层MaxPool的区域大小32
×
32,输出512
×
1,经过变换生成512维的所述中间特征向量f;所述形体尺寸Shape估计...

【专利技术属性】
技术研发人员:易珂刘静李冠华
申请(专利权)人:杭州云栖智慧视通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1