用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备技术

技术编号:25353412 阅读:31 留言:0更新日期:2020-08-21 17:11
本发明专利技术涉及一种用于确定对象在其周围环境中的姿势的方法,其中借助光学采集设备来采集对象以及其周围环境作为当前图像(x

【技术实现步骤摘要】
【国外来华专利技术】用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备
本专利技术涉及一种用于确定对象在其周围环境中的姿势的方法。借助光学采集设备来采集对象以及其周围环境作为当前图像,并且借助光学图像分析来确定对象的姿势。借助神经网络将姿势确定为神经网络的输出。借助通过姿势回归和描述符学习的多任务学习来训练神经网络,该描述符学习通过使用三元组损失函数(Triplet-wise-Loss-Funktion)和成对损失函数(Pair-wise-Loss-Funktion)来确定。此外,本专利技术涉及一种控制设备。
技术介绍
在计算机视觉领域中,对对象的姿势的确定已经是已知的。例如,可以借助2D视图专用模板(2D-View-spezifischeVorlage)来执行对象识别和姿势估计。通过针对一组已知的视图来计算手动产生的属性表示,可以为具有未知类别和姿势的给定模板找到最相似的对应。同样已知,使用基于学习的方法来面对该问题,而不是依赖于手动产生的属性,从而能够推断出更多描述性和鲁棒性的属性表示来查询对象位置。例如,Kehl等人的“DeepLearningofLocalRGB-DPatchesof3DObjectDetectionand6DPoseEstimation,3D对象识别和6D姿势估计的局部RGB-D补丁的深度学习”描述了自动编码器的使用以便学习针地RGB-D图像补丁的属性描述符(Eigenschafts-Deskriptor)。Wohlhart和Lepetit在他们的公开“LearningDescriptorsforObjectRecognitionand3DPoseEstimation,用于对象识别和3D姿势估计的学习描述符”中提出了利用神经网络来扩展这种描述符学习的思路。通过在来自彼此靠近的相似视图的图像之间和来自相距较远的不同对象的图像之间实施欧几里得损失,可以将对象的身份和姿势信息存储在高度可分离的属性描述符中。可以通过搜索最近的邻居来估计给定的测试图像的姿势,以便找到对象的最靠近的相应姿势。该方法的主要缺点之一是,该方法没有考虑平面的旋转,这在实际中很少是这种情况。用于估计对象位置和用于照相机定位的现代方法提出了,依赖于像素到3D点的对应关系预测(Pixel-zu-3D-Punkt-Korrespondenzvorhersage),其基于“森林”分类方法并且基于迭代姿势细化。新的方法再次引入了直接回归方法,以便回归针对内部和外部图像的照相机的位置和取向。尽管该方法通常能够仅利用一个RGB图像作为输入信号就导出照相机的六个自由度,但其精确度明显低于上面提到的方法基于像素到3D点的对应关系预测所能达到的精确度。Bui等人的公开“X-RayPoseNet:6DoFPoseEstimationforMobileX-RayDevices,X-RayPoseNet:移动X射线设备的6DoF姿势估计”中使用了一种使用了一种回归方法,用于预测移动X射线系统的几何参数,以便可以计算以断层成像方式重建的体积。除了通过姿势来损失来训练模型之外,还附加地在使用当前姿势估计的情况下使用现场试验的X射线投影图像与预测图像之间的重建损失,以针对模型的最终应用(断层成像的重建)来改进模型。在Balntas等人的公开“PoseGuidedRGBDFeatureLearningfor3DObjectPoseEstimation,用于3D对象姿势估计的姿势引导RGBD特征学习”中研究了使用对象姿势作为用于学习3D对象姿势估计的鲁棒属性的指导的效果。研究了训练模式之间的确切的姿势差异,并且目标在于,学习嵌入,使得姿势空间中的距离与属性空间中的距离成比例。如果对象是对称的,则提出了数据控制的权重,该权重可以反映如在测量姿势距离时的对象对称性。此外还研究了端到端姿势回归,并且在神经网络中执行姿势识别,因此将其用作针对属性学习的另外的姿势指导。
技术实现思路
因此,本专利技术要解决的技术问题是,实现一种方法和一种控制设备,借助该方法或借助该控制设备可以更好地确定对象在其周围环境中的姿势。上述技术问题通过根据独立权利要求的方法和控制设备来解决。本专利技术的一个方面涉及一种用于确定对象在其周围环境中的姿势的方法。借助光学采集设备来采集对象以及其周围环境作为当前图像,并且借助光学图像分析来确定对象的姿势。借助神经网络将姿势确定为神经网络的输出。借助通过姿势回归和描述符学习的多任务学习来训练神经网络,该描述符学习通过使用三元组损失函数和成对损失函数来确定。在此规定:姿势回归借助四元数来确定,三元组损失函数依据动态裕度项(dynamischerMargin-Term)来确定并且成对损失函数仅作为锚定函数来确定。由此可以实现,可以将回归和多种多样的学习的优势结合起来,以学习可分离的属性描述符,由此可以使用在确定光学属性时的优点。由此可以发展出鲁棒的属性描述符,属性描述符尤其是从当前图像中学习的。相比于用于解决这些问题的迄今的方法(这些方法使用在估计的描述符空间中搜索最近的邻居),根据本专利技术规定,使用具有直接姿势回归的、有效的多任务学习框架。LMTL=Lpose+Ld,其中LMTL相应于多任务学习、Lpose相应于姿势回归并且Ld相应于描述符学习。由此可以直接估计姿势,而不是仅应用搜索最近邻居的方法,该方法的复杂度会随着对象数量的增加而线性增加。由此可以简化地执行对对象的姿势的确定。此外,由此可以借助属性描述符和回归来执行对搜索最靠近的邻居的详细分析。由此,同样可以改进地确定对象的姿势。特别地,将对象在对象的周围环境中的取向和/或位置视为对象的姿势。借助根据本专利技术的成对丢失函数,可以考虑不同对象和姿势的训练图像之间的精确的姿势差异。以有利的方式,在姿势空间中直接改善姿势,即可以将四元数表示的角度误差最小化。特别地,已经表明,姿势回归对描述符学习具有积极影响,并且描述符学习对姿势回归进行支持。特别地,这对端到端学习具有有利影响。尤其是对于大的对象数据库,这导致对对象的姿势的改进的处理并且导致对对象的姿势的改进的确定。根据有利的实施方式,通过确定对象的姿势来识别对象类型和/或确定对象相对于对象的周围环境的位置。特别地,由此可以根据当前图像进行对象识别,并且替换地或补充地可以确定对象在对象的周围环境中的位置。由此可以灵活地使用该方法,并且可以在许多
中使用该方法。此外,已经证明有利的是:在姿势回归中将到神经网络的输入x映射到较低维度的属性向量f(x)∈Rd。这意味着,在利用下面的损失函数将最后完全连接的层的输出用于姿势回归之前,最后完全连接的层的输出具有如下函数:其中q是相应的现场试验姿势。进一步有利的是:为了学习三元组损失函数,确定与当前图像相对应的锚图像并且选择拉图像,使得对象的当前图像与对象的具有相似姿势的图像相对应。为了与基线方法进行比较,可以利用训练组Strain来生成具有用于搜索最近邻居的图像属性描述符的数据库,然本文档来自技高网
...

【技术保护点】
1.一种用于确定对象在其周围环境中的姿势的方法,其中借助光学采集设备来采集对象以及其周围环境作为当前图像(x

【技术特征摘要】
【国外来华专利技术】20180111 EP 18151255.91.一种用于确定对象在其周围环境中的姿势的方法,其中借助光学采集设备来采集对象以及其周围环境作为当前图像(xi),并且借助光学图像分析来确定对象的姿势,并且其中借助神经网络(1)将对象的姿势确定为所述神经网络(1)的输出,其中借助通过使用姿势回归(Lpose)和描述符学习(Ld)的多任务学习(LMTL)来训练所述神经网络(1),所述描述符学习通过使用三元组损失函数(Ltriplet)和成对损失函数(Lpair)来确定,
其特征在于,
所述姿势回归(Lpose)借助四元数来确定,所述三元组损失函数(Ltriplet)依据动态裕度项(m)来确定并且所述成对损失函数(Lpair)仅作为锚定函数来确定。


2.根据权利要求1所述的方法,其中通过确定对象的姿势来识别对象类型和/或确定对象相对于对象的周围环境的位置。


3.根据上述权利要求中任一项所述的方法,其中在所述姿势回归(Lpose)中将到所述神经网络(1)的输入x映射到较低维度的属性向量f(x)∈Rd。


4.根据上述权利要求中任一项所述的方法,其中为了学习所述三元组损失函数(Ltriplet),确定与当前图像(xi)相对应的锚图像(si)并且选择拉图像(sj),使得对象的当前图像(xi)与对象的具有相似姿势的图像相对应。


5.根据上述权利要求中任一项所述的方法,其中为了学习所述三元...

【专利技术属性】
技术研发人员:M布伊S扎卡罗夫S阿尔巴库尼S伊利克
申请(专利权)人:西门子股份公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1