一种基于多模态特征融合的人体三维重建方法技术

技术编号：43837383 阅读：29 留言：0更新日期：2024-12-31 18:34

本发明专利技术提供一种基于多模态特征融合的人体三维重建方法，以场景人物对象的单目RGB图像与3D网格顶点标注作为原始训练数据集；将图像与3D网格顶点标注进行mask遮挡破坏处理；将处理后的数据输入到多模态自编码预训练框架进行特征融合训练网络模型；将预训练后的模型进行下游端到端微调训练并保存模型权重，再对单目图像进行人体网格三维重建。其通过多模态预训练补全任务，利用不同模态的单目图像与3D网格顶点在特征维度的信息差异，通过2D图像与3D标注之间的差异性，形成不同数据特征之间的互补，以完成面向自然场景存在复杂背景与遮挡情况下的人体三维重建任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉、三维重建等，具体涉及一种基于多模态特征融合的人体三维重建方法。

技术介绍

1、从单目图像重建三维人体姿态和形状是计算机视觉领域的一个重要研究课题，在人类行为分析、人机交互和元宇宙等领域有着广泛的应用。然而，由于二维图像到三维空间固有的模糊性以及人和环境之间的复杂交互带来了重大挑战。

2、随着深度学习技术的不断发展与可用人体数据集的大量出现，基于深度学习的重建方法通过从给定图像和相应的人体数据集3d注释中学习几何特征，取得了一定的成功，有效提高了人体重建的准确性，有着良好的效率与性能。

3、然而，在真实场景下仍然存在局限性。由于复杂的室外环境，图像中的人物经常被遮挡或自遮挡。此外，现有获取真实可靠的三维数据方式通常需要复杂且昂贵的多视角相机阵列、动作捕捉系统等设备，导致难以大量获取，而现有大多数三维标注都是由仿真软件生成的不准确伪标签。这些局限对数据驱动的人体三维姿态与形状重建方法产生了不利的影响，限制了人体几何特征的有效学习，导致现有基于深度学习的方法性能下降。

【技术保护点】

1.一种基于多模态特征融合的人体三维重建方法，其特征在于：以场景人物对象的单目RGB图像与3D网格顶点标注作为原始训练数据集；将图像与3D网格顶点标注进行mask遮挡破坏处理；将处理后的数据输入到多模态自编码预训练框架进行特征融合训练网络模型；将预训练后的模型进行下游端到端微调训练并保存模型权重，再对单目图像进行人体网格三维重建。

2.根据权利要求1所述的一种基于多模态特征融合的人体三维重建方法，其特征在于：所述将图像与3D网格顶点标注进行mask遮挡破坏处理具体为：对2D图像与3D网格顶点标注数据使用二值化法进行mask遮罩破坏处理。

3.根据权利要求1所述的一...

【技术特征摘要】

1.一种基于多模态特征融合的人体三维重建方法，其特征在于：以场景人物对象的单目rgb图像与3d网格顶点标注作为原始训练数据集；将图像与3d网格顶点标注进行mask遮挡破坏处理；将处理后的数据输入到多模态自编码预训练框架进行特征融合训练网络模型；将预训练后的模型进行下游端到端微调训练并保存模型权重，再对单目图像进行人体网格三维重建。

2.根据权利要求1所述的一种基于多模态特征融合的人体三维重建方法，其特征在于：所述将图像与3d网格顶点标注进行mask遮挡破坏处理具体为：对2d图像与3d网格顶点标注数据使用二值化法进行mask遮罩破坏处理。

3.根据权利要求1所述的一种基于多模态特征融合的人体三维重建方法，其特征在于：对数据集的处理还包括数据增强处理。

4.根据权利要求1所述的一种基于多模态特征融合的人体三维重建方法，其特征在于：所述多模态自编码预训练框架包括多模态特征融合自编码网络，采用resnet-50作为图像编码器用于提取局部特征，并去除最后的全连接层，保留最终输出维度为2048的典型特征向量；为了捕获3d网格顶点和人体关节之间的非局部交互，对于网格分支，采用基于tr...

【专利技术属性】
技术研发人员：陈锋，黄济琳，江梦茜，林瑞全，陈平平，胡晓鹏，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人