当前位置: 首页 > 专利查询>清华大学专利>正文

基于多视点视频的复杂动态人体对象三维重建方法及系统技术方案

技术编号:17781188 阅读:21 留言:0更新日期:2018-04-22 10:32
本发明专利技术公开了一种基于多视点视频的复杂动态人体对象三维重建方法及系统,其中,方法包括以下步骤:对目标人体对象进行多视点拍摄,获得在同一时刻下的多视点二维图像;利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测,分割出目标人体对象的轮廓信息和人体对象的骨架信息;利用标定后的每个视点的相机内参和外参信息,结合分割后的目标人体对象的轮廓信息和人体对象的骨架信息,进行人体的三维建模。该方法可以结合相机标定等过程对视频序列中的人体对象进行三维重建,从而实现准确的人物对象分割,同时达到对人体的定位,有效提高重建的准确性和可靠性。

【技术实现步骤摘要】
基于多视点视频的复杂动态人体对象三维重建方法及系统
本专利技术涉及计算机视觉
,特别涉及一种基于多视点视频的复杂动态人体对象三维重建方法及系统。
技术介绍
相关技术中,三维重建是根据单视图或者多视图的图像重建三维信息的过程,由于单视频的信息不完全,因此三维重建需要利用经验知识,而多视图的三维重建能够利用更多的多视点视频的二维图像的信息,重建出三维模型。然而,目前大多的三维重建算法,对二维信息的利用不够精确和全面,计算过程过度依赖外部设备提供的信息,如深度相机提供的深度信息等,或依赖于对目标和背景的分割结果等,造成重建出的结果仍比较粗糙。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于多视点视频的复杂动态人体对象三维重建方法,该方法可以实现准确的人物对象分割,同时达到对人体的定位,有效提高重建的准确性和可靠性。本专利技术的另一个目的在于提出一种基于多视点视频的复杂动态人体对象三维重建系统。为达到上述目的,本专利技术一方面实施例提出了一种基于多视点视频的复杂动态人体对象三维重建方法,包括以下步骤:对目标人体对象进行多视点拍摄,获得在同一时刻下的多视点二维图像;利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测,分割出目标人体对象的轮廓信息和人体对象的骨架信息;利用标定后的每个视点的相机内参和外参信息,结合分割后的所述目标人体对象的轮廓信息和所述人体对象的骨架信息,进行人体的三维建模。本专利技术实施例的基于多视点视频的复杂动态人体对象三维重建方法,可以利用多个视点提供的二维信息,利用深度学习的方法解决目标人体对象与复杂背景的分割问题,结合相机标定等过程对视频序列中的人体对象进行三维重建,从而实现准确的人物对象分割,同时达到对人体的定位,有效提高重建的准确性和可靠性。另外,根据本专利技术上述实施例的基于多视点视频的复杂动态人体对象三维重建方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述对目标人体对象进行多视点拍摄,获得在同一时刻下的多视点二维图像,包括:将多个视角的摄像头架设在人体对象周围,并对准在人体对象运动范围之内,保证摄像头一致,以获得在同一时刻下的多视点二维图像。进一步地,在本专利技术的一个实施例中,所述利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测,分割出目标人体对象的轮廓信息和人体对象的骨架信息,包括:利用深度卷积神经网络DPM(DeepPoseMachines,深度卷积神经网络)对人体的各部分关节点进行预测;利用深度卷积神经网络LIP(LookintoPerson,深度卷积神经网络)对人体的各身体部分进行预测,获得人物轮廓信息。进一步地,在本专利技术的一个实施例中,在所述利用深度卷积神经网络LIP对人体的各身体部分进行预测时,利用自己网络预测的关节点响应图同真实响应图计算损失loss,其中,LStructure=LJoint·LParsing,其中,LStructure是结构损失,是整个网络的损失,是网络预测值,是真实标签值,LParsing是softmaxloss,LJoint是关节点预测值与真实值之间的损失。进一步地,在本专利技术的一个实施例中,所述利用标定后的每个视点的相机内参和外参信息,结合分割后的目标人体对象的轮廓信息和人体对象的骨架信息,进行人体的三维建模,包括:对每个视角拍摄的相机进行标定,获得每个相机的内参和外参信息;利用目标人体对象的轮廓信息,遍历空间模型中的每个点,确定是否属于人体对象;如果空间的点投影到多个二维平面视图中都在人体对象轮廓内,则认为相应的点属于三维人体对象,直到遍历空间中的每个点,获得最终的人体的三维建模。为达到上述目的,本专利技术另一方面实施例提出了一种基于多视点视频的复杂动态人体对象三维重建系统,包括:拍摄模块,用于对目标人体对象进行多视点拍摄,获得在同一时刻下的多视点二维图像;信息获取模块,用于利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测,分割出目标人体对象的轮廓信息和人体对象的骨架信息;三维重建模块,用于利用标定后的每个视点的相机内参和外参信息,结合分割后的所述目标人体对象的轮廓信息和所述人体对象的骨架信息,进行人体的三维建模。本专利技术实施例的基于多视点视频的复杂动态人体对象三维重建系统,可以利用多个视点提供的二维信息,利用深度学习的方法解决目标人体对象与复杂背景的分割问题,结合相机标定等过程对视频序列中的人体对象进行三维重建,从而实现准确的人物对象分割,同时达到对人体的定位,有效提高重建的准确性和可靠性。另外,根据本专利技术上述实施例的基于多视点视频的复杂动态人体对象三维重建系统还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述拍摄模块还用于将多个视角的摄像头架设在人体对象周围,并对准在人体对象运动范围之内,保证摄像头一致,以获得在同一时刻下的多视点二维图像。进一步地,在本专利技术的一个实施例中,所述信息获取模块还用于利用深度卷积神经网络DPM对人体的各部分关节点进行预测,以及利用深度卷积神经网络LIP对人体的各身体部分进行预测,获得人物轮廓信息。进一步地,在本专利技术的一个实施例中,在所述利用深度卷积神经网络LIP对人体的各身体部分进行预测时,利用自己网络预测的关节点响应图同真实响应图计算损失loss,其中,Lstructure=LJoint·LParsing,其中,LStructure是结构损失,是整个网络的损失,是网络预测值,是真实标签值,LParsing是softmaxloss,LJoint是关节点预测值与真实值之间的损失。进一步地,在本专利技术的一个实施例中,所述三维重建模块还用于对每个视角拍摄的相机进行标定,获得每个相机的内参和外参信息,并利用目标人体对象的轮廓信息,遍历空间模型中的每个点,确定是否属于人体对象,以及如果空间的点投影到多个二维平面视图中都在人体对象轮廓内,则认为相应的点属于三维人体对象,直到遍历空间中的每个点,获得最终的人体的三维建模。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的基于多视点视频的复杂动态人体对象三维重建方法的流程图;图2为根据本专利技术一个实施例的获得的多视角视频序列中单角度单帧图像的示意图;图3为根据本专利技术一个实施例的对目标人体对象进行分割重建示意图;图4为根据本专利技术一个实施例的深度卷积神经网络(DeepPoseMachines)流程图;图5为根据本专利技术一个实施例的深度卷积神经网络(DeepPoseMachines)人体骨架预测结果图;图6为根据本专利技术一个实施例的深度卷积神经网络(LookintoPerson)流程图;图7为根据本专利技术一个实施例的深度卷积神经网络(LookintoPerson)分割人体各部位预测结果图;图8为根据本专利技术一个实施例的三维人体重建结果图;图9为根据本专利技术一个实施例的三维人体骨架重建结果图;图10为根据本专利技术一个实施例本文档来自技高网...
基于多视点视频的复杂动态人体对象三维重建方法及系统

【技术保护点】
一种基于多视点视频的复杂动态人体对象三维重建方法,其特征在于,包括以下步骤:对目标人体对象进行多视点拍摄,获得在同一时刻下的多视点二维图像;利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测,分割出目标人体对象的轮廓信息和人体对象的骨架信息;利用标定后的每个视点的相机内参和外参信息,结合分割后的所述目标人体对象的轮廓信息和所述人体对象的骨架信息,进行人体的三维建模。

【技术特征摘要】
1.一种基于多视点视频的复杂动态人体对象三维重建方法,其特征在于,包括以下步骤:对目标人体对象进行多视点拍摄,获得在同一时刻下的多视点二维图像;利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测,分割出目标人体对象的轮廓信息和人体对象的骨架信息;利用标定后的每个视点的相机内参和外参信息,结合分割后的所述目标人体对象的轮廓信息和所述人体对象的骨架信息,进行人体的三维建模。2.根据权利要求1所述的基于多视点视频的复杂动态人体对象三维重建方法,其特征在于,所述对目标人体对象进行多视点拍摄,获得在同一时刻下的多视点二维图像,包括:将多个视角的摄像头架设在人体对象周围,并对准在人体对象运动范围之内,保证摄像头一致,以获得在同一时刻下的多视点二维图像。3.根据权利要求1所述的基于多视点视频的复杂动态人体对象三维重建方法,其特征在于,所述利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测,分割出目标人体对象的轮廓信息和人体对象的骨架信息,包括:利用深度卷积神经网络DPM对人体的各部分关节点进行预测;利用深度卷积神经网络LIP对人体的各身体部分进行预测,获得人物轮廓信息。4.根据权利要求3所述的基于多视点视频的复杂动态人体对象三维重建方法,其特征在于,在所述利用深度卷积神经网络LIP对人体的各身体部分进行预测时,利用自己网络预测的关节点响应图同真实响应图计算损失loss,其中,Lstructure=LJoint·LParsing,其中,LStructure是结构损失,是整个网络的损失,是网络预测值,是真实标签值,LParsing是softmaxloss,LJoint是关节点预测值与真实值之间的损失。5.根据权利要求1所述的基于多视点视频的复杂动态人体对象三维重建方法,其特征在于,所述利用标定后的每个视点的相机内参和外参信息,结合分割后的目标人体对象的轮廓信息和人体对象的骨架信息,进行人体的三维建模,包括:对每个视角拍摄的相机进行标定,获得每个相机的内参和外参信息;利用目标人体对象的轮廓信息,遍历空间模型中的每个点,确定是否属于人体对象;如果空间的点投影到多...

【专利技术属性】
技术研发人员:刘烨斌王金宝戴琼海吕科
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1