This disclosure relates to a network training method and apparatus for 6D attitude estimation based on in-depth learning iterative matching. The method includes: obtaining the rendered image and the first segmentation mask of the target object by using the three-dimensional model of the target object and the initial 6D attitude estimation, and dividing the rendered image, the first segmentation mask, the observed image of the target object and the second segmentation mask of the target object in the observed image. Input into the deep convolution neural network, the 6D attitude estimation, the third partitioning mask and optical flow are obtained. The initial 6D attitude estimation is updated with the obtained 6D attitude estimation, and the second partitioning mask is replaced by the third partitioning mask. The above steps are re-executed to iteratively train the deep convolution neural network. When the training method proposed in the present disclosure embodiment improves the initial 6D attitude estimation, the estimation result is accurate without depending on depth information. It is robust to illumination, occlusion and other problems, and can deal with both textured and non-textured objects at the same time.
【技术实现步骤摘要】
基于深度学习迭代匹配的6D姿态估计网络训练方法及装置
本公开涉及人工智能领域,尤其涉及一种基于深度学习迭代匹配的6D姿态估计网络训练方法及装置。
技术介绍
从2D图像中获取物体在3D空间中的姿态在很多现实应用中非常重要,例如在机器人领域,识别出物体的6D姿态,即物体的3D位置和3D方位,能够为抓取或者运动规划等任务提供关键的信息;在虚拟现实场景中,准确的6D物体姿态可以使人和物体进行交互。在传统的技术中,一般都会采用深度相机来做物体姿态估计。但是深度相机有很多局限性,例如在帧率、视场、分辨率和深度范围等方面的局限性,使得这些依赖深度相机的技术很难检测出细小的、透明的或者移动很快的物体。然而,只用RGB图像来估计物体的6D姿态仍然非常有挑战性,因为光照、姿态变化、遮挡等因素都会影响到物体在图像上的外观。一个鲁棒的6D姿态估计方法还需要能同时处理有纹理和无纹理的物体。最近有一些基于深度学习的方法来使用RGB图像得到物体的6D姿态估计,一般是通过扩展目标检测或者分割的方法来实现。这些方法相对于传统只用RGB图像的方法有较大提升,但是仍然比不上基于RGB-D的方法。因此这些方法一般都需要进一步利用深度信息,通过ICP(IterativeClosestPoint,迭代最近点算法)的方法对初始姿态估计进行改进。但是ICP对初始估计比较敏感,可能会收敛到局部极小值,特别是在有遮挡的情况下。并且基于深度信息的方法本身也会受到深度相机的局限。
技术实现思路
有鉴于此,本公开提出了一种基于深度学习迭代匹配的6D姿态估计网络训练方法及装置,以解决现有的深度学习方法得到的物体的6D姿 ...
【技术保护点】
1.一种基于深度学习迭代匹配的6D姿态估计网络训练方法,其特征在于,该方法包括:利用目标对象的三维模型与初始6D姿态估计,获得目标对象的渲染图片和第一分割掩码,将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,得到6D姿态估计、第三分割掩码和光流,以所得到的6D姿态估计更新所述初始6D姿态估计,以第三分割掩码替代所述第二分割掩码,重新执行上述步骤,以迭代训练所述深度卷积神经网络。
【技术特征摘要】
1.一种基于深度学习迭代匹配的6D姿态估计网络训练方法,其特征在于,该方法包括:利用目标对象的三维模型与初始6D姿态估计,获得目标对象的渲染图片和第一分割掩码,将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,得到6D姿态估计、第三分割掩码和光流,以所得到的6D姿态估计更新所述初始6D姿态估计,以第三分割掩码替代所述第二分割掩码,重新执行上述步骤,以迭代训练所述深度卷积神经网络。2.根据权利要求1所述的方法,其特征在于,将渲染图片、第一分割掩码、目标对象的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中,包括:将目标对象的渲染图片,以及观测图片中目标对象的第二分割掩码的包围矩形区域一起进行的放大操作,使目标对象的三维模型的二维投影中心位于放大后的渲染图片的中心,并且使观测图片中的目标对象完整地位于放大后的观测图片之中;将放大后的渲染图片、第一分割掩码、放大后的观测图片及观测图片中目标对象的第二分割掩码输入到深度卷积神经网络中。3.根据权利要求1所述的方法,其特征在于,该方法还包括:通过以下步骤,利用训练后的深度卷积神经网络对待估计目标对象进行6D姿态估计:利用待估计目标对象的三维模型与初始6D姿态估计,获得待估计目标对象的渲染图片和第四分割掩码,将待估计目标对象的渲染图片、第四分割掩码、待估计目标对象的观测图片及观测图片中待估计目标对象的第五分割掩码输入到训练后的深度卷积神经网络中,得到6D姿态估计;以所得到的6D姿态估计更新所述待估计目标对象的初始6D姿态估计,重新执行上述步骤,以对待估计目标对象的初始6D姿态估计进行迭代改进。4.根据权利要求3所述的方法,其特征在于,将待估计目标对象的渲染图片、第四分割掩码、待估计目标对象的观测图片及观测图片中待估计目标对象的第五分割掩码输入到训练后的深度卷积神经网络中,包括...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。