当前位置: 首页 > 专利查询>清华大学专利>正文

基于深度学习迭代匹配的6D姿态估计网络训练方法及装置制造方法及图纸

技术编号:20120850 阅读:51 留言:0更新日期:2019-01-16 12:36
本公开涉及一种基于深度学习迭代匹配的6D姿态估计网络训练方法及装置,该方法包括:利用目标对象的三维模型与初始6D姿态估计,获得目标对象的渲染图片和第一分割掩码,将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,得到6D姿态估计、第三分割掩码和光流,以所得到的6D姿态估计更新所述初始6D姿态估计,以第三分割掩码替代所述第二分割掩码,重新执行上述步骤,以迭代训练所述深度卷积神经网络。本公开实施例所提出的训练方法在对初始6D姿态估计进行改进时,不需要依赖深度信息,估计结果准确。对于光照、遮挡等问题具有鲁棒性,可以同时处理有纹理和无纹理的物体。

6D Attitude Estimation Network Training Method and Device Based on Deep Learning Iterative Matching

This disclosure relates to a network training method and apparatus for 6D attitude estimation based on in-depth learning iterative matching. The method includes: obtaining the rendered image and the first segmentation mask of the target object by using the three-dimensional model of the target object and the initial 6D attitude estimation, and dividing the rendered image, the first segmentation mask, the observed image of the target object and the second segmentation mask of the target object in the observed image. Input into the deep convolution neural network, the 6D attitude estimation, the third partitioning mask and optical flow are obtained. The initial 6D attitude estimation is updated with the obtained 6D attitude estimation, and the second partitioning mask is replaced by the third partitioning mask. The above steps are re-executed to iteratively train the deep convolution neural network. When the training method proposed in the present disclosure embodiment improves the initial 6D attitude estimation, the estimation result is accurate without depending on depth information. It is robust to illumination, occlusion and other problems, and can deal with both textured and non-textured objects at the same time.

【技术实现步骤摘要】
基于深度学习迭代匹配的6D姿态估计网络训练方法及装置
本公开涉及人工智能领域,尤其涉及一种基于深度学习迭代匹配的6D姿态估计网络训练方法及装置。
技术介绍
从2D图像中获取物体在3D空间中的姿态在很多现实应用中非常重要,例如在机器人领域,识别出物体的6D姿态,即物体的3D位置和3D方位,能够为抓取或者运动规划等任务提供关键的信息;在虚拟现实场景中,准确的6D物体姿态可以使人和物体进行交互。在传统的技术中,一般都会采用深度相机来做物体姿态估计。但是深度相机有很多局限性,例如在帧率、视场、分辨率和深度范围等方面的局限性,使得这些依赖深度相机的技术很难检测出细小的、透明的或者移动很快的物体。然而,只用RGB图像来估计物体的6D姿态仍然非常有挑战性,因为光照、姿态变化、遮挡等因素都会影响到物体在图像上的外观。一个鲁棒的6D姿态估计方法还需要能同时处理有纹理和无纹理的物体。最近有一些基于深度学习的方法来使用RGB图像得到物体的6D姿态估计,一般是通过扩展目标检测或者分割的方法来实现。这些方法相对于传统只用RGB图像的方法有较大提升,但是仍然比不上基于RGB-D的方法。因此这些方法一般都需要进一步利用深度信息,通过ICP(IterativeClosestPoint,迭代最近点算法)的方法对初始姿态估计进行改进。但是ICP对初始估计比较敏感,可能会收敛到局部极小值,特别是在有遮挡的情况下。并且基于深度信息的方法本身也会受到深度相机的局限。
技术实现思路
有鉴于此,本公开提出了一种基于深度学习迭代匹配的6D姿态估计网络训练方法及装置,以解决现有的深度学习方法得到的物体的6D姿态估计不够准确,且缺乏一种不依赖深度信息就能对6D姿态估计进行改善的方法的问题。一方面,提出了一种基于深度学习迭代匹配的6D姿态估计网络训练方法,其特征在于,该方法包括:利用目标对象的三维模型与初始6D姿态估计,获得目标对象的渲染图片和第一分割掩码,将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,得到6D姿态估计、第三分割掩码和光流,以所得到的6D姿态估计更新所述初始6D姿态估计,以第三分割掩码替代所述第二分割掩码,重新执行上述步骤,以迭代训练所述深度卷积神经网络。另一方面,提出了一种基于深度学习迭代匹配的6D姿态估计网络训练装置,其特征在于,该装置包括:获得模块,用于利用目标对象的三维模型与初始6D姿态估计,获得目标对象的渲染图片和第一分割掩码,输入模块,用于将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,得到6D姿态估计、第三分割掩码和光流,迭代模块,用于以所得到的6D姿态估计更新所述初始6D姿态估计,以第三分割掩码替代所述第二分割掩码,重新执行上述步骤,以迭代训练所述深度卷积神经网络。另一方面,提出了一种基于深度学习迭代匹配的6D姿态估计网络训练装置,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述处理器可执行指令时,实现上述方法。另一方面,提出了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现上述方法。本公开实施例所提出的训练方法在对初始6D姿态估计进行改进时,不需要依赖深度信息,估计结果准确。由于渲染过程中可以根据需要对光照、遮挡等环境条件进行调整,该方法对于光照、遮挡等问题具有鲁棒性,而且,由于在有纹理或无纹理的情况下均可相应地获取分割掩码,因此该方法可以同时处理有纹理和无纹理的物体。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。图1a示出根据本公开一实施例的一种基于深度学习迭代匹配的6D姿态估计网络训练方法的流程图。图1b示出了本公开一实施例的一种基于深度学习迭代匹配的6D姿态估计网络训练方法的示意图。图2示出了根据本公开实施例的放大操作的一个示例的示意图。图3示出了根据本公开一实施例的一种基于深度学习迭代匹配的6D姿态估计模型的训练方法的流程图。图4示出了根据本公开实施例的深度卷积神经网络的一个示例的结构示意图。图5是根据一示例性实施例示出的一种用于一种基于深度学习迭代匹配的6D姿态估计网络训练装置1900的框图。具体实施方式以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。图1a示出根据本公开一实施例的一种基于深度学习迭代匹配的6D姿态估计网络训练方法的流程图。图1b示出了该方法的示意图,如图1a所示,该方法包括:S101,利用目标对象的三维模型与初始6D姿态估计pose(0),获得目标对象的渲染图片和第一分割掩码。其中,目标对象可以是网络训练过程中待进行姿态估计的任意对象,例如物体、人等。目标对象的初始6D姿态估计pose(0)可以是预设的初始值,或者通过其他相关技术的估计方法得到的初始值。基于目标对象的三维模型和初始6D姿态估计pose(0)进行渲染,可得到目标对象的渲染图片和第一分割掩码,其中第一分割掩码可以是渲染图片中目标对象的分割掩码。S102,将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,得到6D姿态估计Δpose(0)、第三分割掩码和光流。其中,目标对象的观测图片可以是对实际的目标对象进行拍摄得到的图片。第二分割掩码可通过针对观测图片的分割标注得到,分割标注可基于相关技术的对象分割方法获得。深度神经卷积网络可分三个分支分别回归6D姿态估计、第三分割掩码和光流以用于迭代训练。S103,以所得到的6D姿态估计Δpose(0)更新步骤S101中的初始6D姿态估计pose(0),以第三分割掩码替代步骤S102中的第二分割掩码,重新执行步骤S101、S102、S103,以迭代训练深度卷积神经网络。其中,更新表示将所得到的6D姿态估计Δpose(0)与初始6D姿态估计pose(0)通过计算后得到新的6D姿态估计,作为下一次迭代的输入,本领域技术人员可通过相关技术手段实现,本公开对更新的具体实现方式不做限制。其中,在重新执行步骤S101,S102之前,可根据损失函数对深度卷积神经网络的网络参数进行调整,在迭代训练至满足训练条件时,可视为训练完成,训练条件可根据实际需要进行设置,例如损失函数值小于阈值,或迭代次数达到阈值等,本公开对此不作限制。本公开实施例所提出的训练方法在对初始6D姿态估计进行改进时,不需要依赖深度信本文档来自技高网...

【技术保护点】
1.一种基于深度学习迭代匹配的6D姿态估计网络训练方法,其特征在于,该方法包括:利用目标对象的三维模型与初始6D姿态估计,获得目标对象的渲染图片和第一分割掩码,将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,得到6D姿态估计、第三分割掩码和光流,以所得到的6D姿态估计更新所述初始6D姿态估计,以第三分割掩码替代所述第二分割掩码,重新执行上述步骤,以迭代训练所述深度卷积神经网络。

【技术特征摘要】
1.一种基于深度学习迭代匹配的6D姿态估计网络训练方法,其特征在于,该方法包括:利用目标对象的三维模型与初始6D姿态估计,获得目标对象的渲染图片和第一分割掩码,将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,得到6D姿态估计、第三分割掩码和光流,以所得到的6D姿态估计更新所述初始6D姿态估计,以第三分割掩码替代所述第二分割掩码,重新执行上述步骤,以迭代训练所述深度卷积神经网络。2.根据权利要求1所述的方法,其特征在于,将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,包括:将目标对象的渲染图片,以及观测图片中目标对象的第二分割掩码的包围矩形区域一起进行的放大操作,使目标对象的三维模型的二维投影中心位于放大后的渲染图片的中心,并且使观测图片中的目标对象完整地位于放大后的观测图片之中;将放大后的渲染图片、第一分割掩码、放大后的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中。3.根据权利要求1所述的方法,其特征在于,该方法还包括:通过以下步骤,利用训练后的深度卷积神经网络对待估计目标对象进行6D姿态估计:利用待估计目标对象的三维模型与初始6D姿态估计,获得待估计目标对象的渲染图片和第四分割掩码,将待估计目标对象的渲染图片、第四分割掩码、待估计目标对象的观测图片及观测图片中待估计目标对象的第五分割掩码输入到训练后的深度卷积神经网络中,得到6D姿态估计;以所得到的6D姿态估计更新所述待估计目标对象的初始6D姿态估计,重新执行上述步骤,以对待估计目标对象的初始6D姿态估计进行迭代改进。4.根据权利要求3所述的方法,其特征在于,将待估计目标对象的渲染图片、第四分割掩码、待估计目标对象的观测图片及观测图片中待估计目标对象的第五分割掩码输入到训练后的深度卷积神经网络中,包括...

【专利技术属性】
技术研发人员:季向阳王谷李益
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1