当前位置: 首页 > 专利查询>清华大学专利>正文

基于RGBD多模态信息的三维人体位姿估计方法及装置制造方法及图纸

技术编号:37807597 阅读:26 留言:0更新日期:2023-06-09 09:37
本申请涉及计算机视觉技术领域,特别涉及一种基于RGBD多模态信息的三维人体位姿估计方法及装置,其中,方法包括:对RGBD多模态信息进行处理,得到二维人体关节点坐标和三维人体点云,基于不同体素深度卷积网络需求得到融合体素网格,将融合体素网格输入对应体素深度卷积网络,解算体素深度卷积网络,得到特征体素网格的输出,并基于特征体素网格的输出估计三维关键点,得到三维人体位姿估计结果。本申请实施例可以基于RGB信息与深度信息的嵌合,通过使用两种三维深度卷积网络完成三维人体位姿估计,扩充了现有硬件设施的功能利用率,扩大了三维人体位姿估计的应用范围,提高了估计效率,使所得结果更加可靠准确。使所得结果更加可靠准确。使所得结果更加可靠准确。

【技术实现步骤摘要】
基于RGBD多模态信息的三维人体位姿估计方法及装置


[0001]本申请涉及计算机视觉
,特别涉及一种基于RGBD(Red、Green、Blue

Depth map)多模态信息的三维人体位姿估计方法及装置。

技术介绍

[0002]随着深度学习技术和并行运算硬件的共同发展,大型数据集和通用的深度卷积网络算法在计算机视觉领域中的应用逐渐广泛。而在计算机视觉领域中,三维任务通常都有着运算量大、方法复杂、解空间难稳定的特点。
[0003]相关技术中,基于深度学习的三维人体位姿估计路线包含:通过深度估计方法实现缺失信息参数化、通过多相机采集多视角数据聚合多视角信息或使用深度信息来进行人体位姿估计。
[0004]然而,相关技术中,参数化缺失信息的模型训练需大量契合数据集,且生成结果可靠性不足,而采集多视角数据过程的场地限制严格,计算量消耗大,应用受限,使用深度信息估计则降低了结果的准确性,无法实现高效精准的位姿估计,亟待解决。

技术实现思路

[0005]本申请提供一种基于RGBD多模态信息的三维人体位本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于RGBD多模态信息的三维人体位姿估计方法,其特征在于,包括以下步骤:对RGBD多模态信息进行处理,得到二维人体关节点坐标和三维人体点云;基于不同体素深度卷积网络需求,融合所述二维人体关节点坐标和所述三维人体点云,得到融合体素网格;以及将所述融合体素网格输入对应的体素深度卷积网络,解算所述体素深度卷积网络,得到特征体素网格的输出,并基于所述特征体素网格的输出估计三维关键点,得到三维人体位姿估计结果。2.根据权利要求1所述的方法,其特征在于,在基于所述特征体素网格的输出估计所述三维关键点,得到所述三维人体位姿估计结果之前,还包括:使用N x[p,p,p]维度的生成特征体素网格与特征体素网格的输出进行L2

loss训练。3.根据权利要求1所述的方法,其特征在于,所述对RGBD的多模态信息进行处理,得到二维人体关节点坐标和三维人体点云,包括:基于深度卷积网络的二维人体姿态估计方式,在RGB图中提取二维特征热图或者二维关键点在图像坐标系下的XY坐标;使用二维人体姿态估计中的四点的区域投射到深度图上,裁剪出人像所在区域,以将所述深度图转化为三维点云,得到所述二维人体关节点坐标和所述三维人体点云。4.根据权利要求1所述的方法,其特征在于,所述体素深度卷积网络包括全局高精度网络和局部快速网络。5.根据权利要求1所述的方法,其特征在于,所述基于所述特征体素网格的输出估计三维关键点,包括:分别对每个特征体素网格查找最大值;将所述最大值在所述特征体素网格下的三维坐标通过仿射变换转化为世界坐标系,得到任...

【专利技术属性】
技术研发人员:季向阳余杭连晓聪
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1