一种基于深度图像的三维外形恢复和姿态估计方法和装置制造方法及图纸

技术编号:25757231 阅读:23 留言:0更新日期:2020-09-25 21:06
本发明专利技术提出一种基于深度图像的三维外形恢复和姿态估计方法和装置,采用基于点云的级联深度学习网络,实时高精度地恢复三维外形以及三维关节点坐标。本发明专利技术提出参数化模型层,基于预定义的参数化模型,通过神经网络恢复模型参数恢复三维外形和对应关节点坐标。本发明专利技术提出关节自适应调整子网络,解绑三维外形与关节点之间的内在关系,自适应学习三维外形和不同骨架标注的关节点坐标的关系。同时现有数据集缺乏三维外形标注,因此本发明专利技术提出Chamfer损失提供三维外形的弱监督。经过实际使用验证,本发明专利技术具有自动化程度高、精度高和实时性的优点,可满足专业的或者大众化的应用需求。

【技术实现步骤摘要】
一种基于深度图像的三维外形恢复和姿态估计方法和装置
本专利技术属于计算机视觉、计算机图像处理领域,具体涉及到一种基于深度图像的人手三维外形恢复和姿态估计方法和装置,适用于人体整体或局部(如人手、人脸)、大型动物等对象。
技术介绍
随着计算机视觉和人工智能的发展,人机交互技术从键盘、鼠标向自然人机交互方式过度。在满足人类基本的交互需求之后,自然人机交互方式更加强调交互体验,尽量摆脱交互界面和设备的限制,让人机交互和人类交流一样方便、自然。而人工智能和机器学习的出现以及迅猛发展使之成为可能。目前智能音箱、体感交互设备、智能汽车等“智能”商业产品的出现,意味着自然人机交互在深度学习和人工智能的加持下取得了不错的进展,同时也面领着更大的挑战。因为手势语言的丰富表达能力和相机设备的普及使用,人手姿态估计和外形重建一直是计算机视觉和人机交互领域的热点研究问题,有着广阔的应用场景。人手姿态作为一种新型的人机交互方式,代表性的应用领域包括虚拟现实、机器人、医疗教育等方面。精准的外形重建在虚拟现实的碰撞检测、辅助动画设计等方面有着至关重要的作用。最近,深度学习在基于深度图像的人手姿态估计问题上取得了突破性的进展,基于深度学习的人手姿态估计问题已经得到基本解决,本专利技术提出解决基于深度图像的人手三维重建问题。该问题以单张深度图像作为输入,与三维关节点估计问题只需要恢复稀疏的14-21个关节点的三维坐标问题不同,三维外形恢复问题需要恢复人手表面稠密点云的三维坐标,并得到点云之间的连接关系,保证恢复出的网格模型具有合理的类人手结构。目前人手三维重建的主要解决方案是传统模型优化方法,最近有研究提出基于深度学习的重建人手算法,但是具有精确度低的缺点。
技术实现思路
为了满足视觉人机交互的需要,本专利技术提供了一种基于深度图像的三维外形恢复和姿态估计方法和装置。本专利技术提出一个级联神经网络,解决训练数据集间骨架不一致问题,自适应的学习三维外形和当前骨架结构下关节点坐标的关系,并利用Chamfer损失函数提供三维外形的弱监督信息,实时高进度的恢复人手等对象的三维外形和关节点坐标。本专利技术提出一种基于深度图像的三维外形恢复和姿态估计方法,包括以下步骤:构建级联神经网络,用于同时估计目标对象的三维网格坐标和三维关节点位置;利用关节损失、平均形状损失、Chamfer损失对已构建的级联神经网络进行训练;将待估计的深度图像输入训练完成的级联神经网络,预测目标对象的三维外形和姿态。优选地,在网络训练和预测之前,需进行数据预处理工作,包括将深度图转化成点云。其中,所述目标对象为人手、人脸等人体局部,也可以是人体整体或大型动物等对象。下面以人手为例,依次介绍本专利技术采用的数据预处理方法,网络的具体结构,采用的损失函数,网络的具体实现细节,以及网络的预测方法。本专利技术方法包括以下步骤:步骤1,数据预处理。第一步,给定原始深度图像Di,在去除背景等无关深度区域之后,可以根据从图像坐标系坐标到相机坐标系坐标的转换公式,计算得到深度图对应的稠密点云。第二步,计算稠密点云的平均中心点坐标COM,将得到的稠密点云减去COM得到归一化点云,对应的关节点标注坐标进行同样归一化处理得到处理后的关节点Ji。最后,为了降低计算复杂度,在稠密点云中随机选择p个点(如p=1024)得到处理完后的点云其中,表示实数空间。步骤2,网络的具体结构。本专利技术提出级联神经网络预测人手三维网格和关节点坐标。该级联神经网络分为三个阶段,第一阶段和第二阶段网络称为ShapeNetwork(形状估计网络),用于恢复人手三维网格点和标准骨架下的人手关节点坐标第三阶段网络称为JointAdaptationNetwork(关节调整网络),根据第二阶段恢复的三维网格坐标回归适应不同数据集的人手关节点标注的人手关节点坐标网络输入点云矩阵输出包括三维网格坐标标准骨架下的人手关节点以及适应不同骨架标注的人手关节坐标其中m=1305,n=21,j视具体的训练数据集而定。本专利技术所提出的级联神经网络的第一阶段网络和第二阶段网络具有相同的网络架构,被称为ShapeNetwork。ShapeNetwork的网络结构运用经典的Pointnet++网络结构,不断通过最近邻搜索聚合临界点的特征信息并加以卷积提取高级特征,最终通过全连接层综合所有提取特征预测三个参数:θ表示输入点云对应的手势姿态;β表示人手除全局放缩之外的人手形态信息,比如人手的胖瘦,个别手指骨架的长短信息;以及表示直接回归的人手关节点坐标。其中θ和β一起输入参数化模型层(HandModelLayer)得到物体坐标系下人手的三维网络点云(mesh)和绑定的三维关节点坐标并联合手掌部分的坐标信息计算两个手掌之间的旋转平移矩阵R,T(其中R表示物体坐标系到相机坐标系之间的旋转矩阵,T表示物体坐标系到相机坐标系之间的平移向量)以及手掌的全局放缩信息s。并综合上述信息得到相机坐标系下的三维网格点云和绑定的骨架本专利技术提出的级联神经网络在第一阶段ShapeNetwork估计得到标准骨架下的人手关节点坐标根据中手掌的坐标计算手掌标准化的仿射矩阵A将点云进行转正处理,将不同相机位置拍摄得到的点云统一位置,保证统一后的点云手掌朝向以及手掌平面法向相同。再将转正后点云输入第二阶段网络,即ShapeNetwork。并得到转正后的三维网格点云和绑定的骨架坐标,根据A-1反算出原始输入点云对应的三维网格点云和绑定的骨架参数化模型层利用人手铰链式骨架结构,将人手表面点云坐标和绑定骨架压缩成两个参数向量表达:即用表达人手个体差异的参数向量β和表达人手动作的角度向量θ来参数化表达人手三维模型。其中β是标准姿态下不同人手数据降维后的线性子空间系数,θ是铰链式骨架模型中关节点的旋转角度。因此给定标准姿态下的人手模板,通过β系数和线性子空间权重生成特定形态标准姿态下的人手点云以及骨架;通过θ旋转人手骨骼,并根据蒙皮(LinearBlendShape,LBS)权重让骨骼驱动人手表面点云变换。本专利技术为了解决不同数据集中的不同关节点标注问题,在级联网络第三阶段提出JointAdaptationNetwork。根据第二阶段网络恢复的三维网格点云经过包含单个矩阵参数的线性矩阵乘法层,回归适应性骨架下的关节坐标该关节坐标能够适应不同训练数据集中不同类型关节点标注的监督训练,自适应的学习三维网格点云和不同骨架关节点之间的关系。步骤3,网络的损失函数。本专利技术适用于在提供关节点标注的深度图像数据集上进行训练。ShapeNetwork的损失函数主要由三部分组成,分别是关节损失、平均形状损失和Chamfer损失(倒角距离损失)。另外,部分数据集如模拟数据集提供三维网格标注,因此损失函数可加入网格损失。JointAdaptationNetwork通过关节损失提供监督。整体损失函数定义如下:Ltotal=λJLJ+λCLC+λTLT+λMLM其中,Ltotal表示整体损本文档来自技高网
...

【技术保护点】
1.一种基于深度图像的三维外形恢复和姿态估计方法,其特征在于,包括以下步骤:/n构建级联神经网络,用于同时估计目标对象的三维网格坐标和三维关节点位置;/n利用关节损失、平均形状损失、Chamfer损失对级联神经网络进行训练;/n将待估计的深度图像输入训练完成的级联神经网络,预测目标对象的三维网格和三维关节点坐标。/n

【技术特征摘要】
1.一种基于深度图像的三维外形恢复和姿态估计方法,其特征在于,包括以下步骤:
构建级联神经网络,用于同时估计目标对象的三维网格坐标和三维关节点位置;
利用关节损失、平均形状损失、Chamfer损失对级联神经网络进行训练;
将待估计的深度图像输入训练完成的级联神经网络,预测目标对象的三维网格和三维关节点坐标。


2.根据权利要求1所述方法,其特征在于,在进行网络训练和预测之前,进行数据预处理工作,包括将深度图转化成点云、点云和对应关节标注的归一化。


3.根据权利要求2所述方法,其特征在于,所述数据预处理包括:
给定原始深度图像Di,在去除背景等无关深度区域之后,根据从图像坐标系坐标到相机坐标系坐标的转换公式,计算得到深度图对应的稠密点云;
计算稠密点云的平均中心点坐标COM,将得到的稠密点云减去COM得到归一化点云,对应的关节点标注坐标进行同样归一化处理得到处理后的关节点Ji;
在稠密点云中随机选择p个点得到处理完后的点云


4.根据权利要求1所述方法,其特征在于,所述级联神经网络以归一化稀疏点云为输入,该级联神经网络分为三个阶段:第一阶段和第二阶段网络为形状估计网络,用于恢复待处理对象的三维网格点和标准骨架下的关节点坐标;第三阶段网络为关节调整网络,根据第二阶段恢复的三维网格坐标回归适应不同数据集的关节点标注的关节点坐标。


5.根据权利要求1所述方法,其特征在于,所述形状估计网络的损失函数包括关节损失、平均形状损失和Chamfer损失;对于提供三维网格标注的数据集,损失...

【专利技术属性】
技术研发人员:邓小明朱玉影曲文天马翠霞王宏安
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1