一种目标物体的位姿估计方法和系统、机器人技术方案

技术编号:30105084 阅读:30 留言:0更新日期:2021-09-18 09:12
一种目标物体的位姿估计方法和系统、机器人,其中位姿估计方法包括:获取待处理图像;将待处理图像输入一目标检测网络中以得到目标检测结果图像;将目标检测结果图像输入训练好的视图重建模型中以得到三维重建图像,三维重建图像包括三个通道,用于表示像素对应的三维坐标;根据像素的二维坐标和对应的三维坐标计算变换矩阵;根据变换矩阵计算得到等效轴角和等效旋转轴,从而得到目标物体的位姿。由于通过训练得到视图重建模型,用于建立图像中像素的二维坐标和对应的三维坐标的映射关系,通过视图重建模型能够得到覆盖目标物体的三维重建图像,得到每个像素对应的三维坐标,可以适应低纹理、具有反光表面或者有部分被遮挡的物体的位姿估计。体的位姿估计。体的位姿估计。

【技术实现步骤摘要】
一种目标物体的位姿估计方法和系统、机器人


[0001]本专利技术涉及机器视觉
,具体涉及一种目标物体的位姿估计方法和系统、机器人。

技术介绍

[0002]在机器人领域,自主抓取目标物体是智能机器人的一种关键能力,其中,对于散乱物体的抓取,也一直是实现机器人智能化的关键,机器人抓取散乱物体的能力可以应用于零件的分拣等场景,提高工作效率。但目前的机器人要执行一个复杂的新的抓取任务,需要花上数周时间来重新编程,这让现代制造业生产线的重组变得十分昂贵和缓慢。而且,机器人大多应用于特定的环境,针对特定的已知物体进行抓取操作,对于不确定环境下,不同位姿摆放的未知物体,让机器人自主决定被抓取物体的抓取部位和抓取夹持器的抓取位姿,目前技术还不成熟。如果能实现机器人自主抓取散乱物体,就可以减少机器人示教编程的时间,更好的实现自动化制造的柔性化和智能化,适应目前多品类、小批量的生产需求,满足产品更新换代时制造设备快速更新的需求。而对于散乱物体的姿态识别,是控制机器人进行散乱物体抓取的重要一步。
[0003]计算机视觉技术在机器人非结构化场景感知中占据重要的地位。视觉图像是获取真实世界信息的有效手段,利用视觉图像通过视觉感知算法提取操作对象的特征,如物体的位置、角度、姿态等信息,利用这些信息能够使机器人执行对应操作,完成指定作业任务。对于零件的分拣而言,目前已经能够利用视觉传感器获取场景数据,但如何从场景中识别目标物体,并估计其位置和姿态,则是十分关键的问题,这对于机器人抓取位置和抓取路径的计算非常重要。目前,物体位姿估计主要有两大类方法:一种是基于传统的点云或者图像分析算法进行估计,一种是基于深度学习,通过学习目标检测和位姿迭代方法进行估计。第一种方法主要根据图像或者三维点云模板信息进行位姿的识别和匹配,缺点是对于每一个物体都需要根据拍摄的图像或者CAD数据创建模板,对于多种零件需要创建多种模板,产品换型周期长。位姿估计主要是进行6D(三维坐标定位和三维方向)位姿估计,通过将从图像中提取的局部特征与物体三维模型中的特征进行匹配,利用二维坐标与三维坐标的对应关系,可以得到物体的6D位姿。但是这些方法不能很好地处理低纹理对象,因为只能提取到很少的局部特征。同样的,现有的基于深度学习的主流位姿估计算法大都依赖于物体表面的颜色、纹理等信息,而工业生产中的零件大多属于低纹理的物体,易受到光照条件的影响,使得从二维图像中反映出来的纹理不一定是三维物体表面真实的纹理,而且当图像的分辨率变化的时候,所计算出来的纹理可能会有较大偏差,不容易进行特征提取,使得这类算法对于低纹理、具有反光表面的零件识别效果较差。在实际情况中,还常常存在目标物体有部分被遮挡的问题,这也导致难以获取物体表面的局部特征或颜色、纹理等信息。为了处理低纹理物体,有两类方法,第一类方法是估计输入图像中物体像素或关键点的三维坐标,这样就建立了二维坐标与三维坐标的对应关系,从而可以进行6D位姿估计;第二类方法是通过对位姿空间离散化,将6D位姿估计问题转化为位姿分类问题或位姿回归问题。这些方法能
够处理低纹理的物体,但难以实现高精度的位姿估计,在分类或回归阶段的小误差就将直接导致位姿不匹配。

技术实现思路

[0004]本申请提供一种目标物体的位姿估计方法和系统、机器人和计算机可读存储介质,旨在解决现有位姿估计方法大都依赖于物体表面的颜色、纹理等信息而导致对于低纹理、具有反光表面的物体的位姿估计效果较差的问题。
[0005]根据第一方面,一种实施例中提供一种目标物体的位姿估计方法,包括:获取待处理图像;将所述待处理图像输入一目标检测网络中以对待处理图像中的目标物体进行检测,得到目标检测结果图像;将所述目标检测结果图像输入预先训练好的视图重建模型中以得到三维重建图像,所述三维重建图像包括三个通道,用于表示像素对应的三维坐标;根据像素的二维坐标和对应的三维坐标计算变换矩阵;根据变换矩阵计算得到等效轴角和等效旋转轴,从而得到目标物体的位姿。
[0006]一种实施例中,所述视图重建模型通过以下方式训练:获取样本图像和对应的三维坐标标记图像I
GT
;将所述样本图像输入所述目标检测网络中以对样本图像中的目标物体进行检测,得到目标检测结果图像I
src
;将所述目标检测结果图像I
src
输入所述视图重建模型中以得到三维重建图像I
3D
,所述三维重建图像包括三个通道,用于表示像素对应的预测三维坐标;根据每个像素对应的预测三维坐标和三维坐标标记值计算每个像素的实际重建误差,利用所有像素的实际重建误差构建第一损失函数,上标i表示第i个像素;将所述三维重建图像I
3D
和所述三维坐标标记图像I
GT
一起输入预设的误差回归判别网络中以得到每个像素的预测重建误差,利用所有像素的预测重建误差和实际重建误差构建第二损失函数;利用将所述三维重建图像输入到所述误差回归判别网络得到的结果,和将所述三维坐标标记图像输入到所述误差回归判别网络得到的结果构建第三损失函数;利用所述第一损失函数、所述第二损失函数和所述第三损失函数的加权和构建总损失函数,根据所述总损失函数利用反向传播算法对所述视图重建模型和所述误差回归判别网络进行训练,得到所述视图重建模型的参数。
[0007]一种实施例中,所述第一损失函数为,其中,n表示像素的个数,λ为预设的权重值,F表示图像中属于目标物体的像素构成的集合;
对于对称物体,第一损失函数为,其中,sym表示对称物体所有对称姿态的集合,p表示第p个对称姿态,R
P
表示第p个对称姿态的变换矩阵;所述第二损失函数函数为,所述第三损失函数为,其中,J为所述误差回归判别网络的标识,G为所述视图重建模型的标识,G(I
src
)表示所述三维重建图像,J(G(I
src
))表示所述三维重建图像输入到所述误差回归判别网络得到的结果,J(I
GT
)表示所述三维坐标标记图像输入到所述误差回归判别网络得到的结果;所述总损失函数为,对于对称物体,总损失函数为,其中,α和β为预设的权重值。
[0008]一种实施例中,所述三维坐标标记图像通过以下方式得到:根据预知的目标物体三维坐标和图像平面二维坐标的变换关系,将目标物体上的点映射为图像平面上的像素,并将目标物体三维坐标归一化,作为图像平面上对应像素的RGB值,从而得到所述三维坐标标记图像。
[0009]一种实施例中,所述视图重建模型为自编码器结构,包括编码器和解码器,所述编码器和所述解码器通过一个或多个全连接层连接,所述编码器中若干层的输出和所述解码器中对称的层的输出进行通道拼接。
[0010]一种实施例中,所述根据变换矩阵计算得到等效轴角和等效旋转轴,包括:根据以下公式计算等效轴角:,根据以下公式计算等效旋转轴:,其中,r
11
、r
12
、r
13
、r
21
、r
22...

【技术保护点】

【技术特征摘要】
1.一种目标物体的位姿估计方法,其特征在于,包括:获取待处理图像;将所述待处理图像输入一目标检测网络中以对待处理图像中的目标物体进行检测,得到目标检测结果图像;将所述目标检测结果图像输入预先训练好的视图重建模型中以得到三维重建图像,所述三维重建图像包括三个通道,用于表示像素对应的三维坐标;根据像素的二维坐标和对应的三维坐标计算变换矩阵;根据变换矩阵计算得到等效轴角和等效旋转轴,从而得到目标物体的位姿。2.如权利要求1所述的位姿估计方法,其特征在于,所述视图重建模型通过以下方式训练:获取样本图像和对应的三维坐标标记图像I
GT
;将所述样本图像输入所述目标检测网络中以对样本图像中的目标物体进行检测,得到目标检测结果图像I
src
;将所述目标检测结果图像I
src
输入所述视图重建模型中以得到三维重建图像I
3D
,所述三维重建图像包括三个通道,用于表示像素对应的预测三维坐标;根据每个像素对应的预测三维坐标和三维坐标标记值计算每个像素的实际重建误差,利用所有像素的实际重建误差构建第一损失函数,上标i表示第i个像素;将所述三维重建图像I
3D
和所述三维坐标标记图像I
GT
一起输入预设的误差回归判别网络中以得到每个像素的预测重建误差,利用所有像素的预测重建误差和实际重建误差构建第二损失函数;利用将所述三维重建图像输入到所述误差回归判别网络得到的结果,和将所述三维坐标标记图像输入到所述误差回归判别网络得到的结果构建第三损失函数;利用所述第一损失函数、所述第二损失函数和所述第三损失函数的加权和构建总损失函数,根据所述总损失函数利用反向传播算法对所述视图重建模型和所述误差回归判别网络进行训练,得到所述视图重建模型的参数。3.如权利要求2所述的位姿估计方法,其特征在于,所述第一损失函数为,其中,n表示像素的个数,λ为预设的权重值,F表示图像中属于目标物体的像素构成的集合;对于对称物体,第一损失函数为,其中,sym表示对称物体所有对称姿态的集合,p表示第p个对称姿态,R
P
表示第p个对称姿态的变换矩阵;
所述第二损失函数函数为,所述第三损失函数为,其中,J为所述误差回归判别网络的标识,G为所述视图重建模型的标识,G(I
src
)表示所述三维重建图像,J(G(I
src
))表示所述三维重建图像输入到所述误差回归判别网络得到的结果,J(I
GT
)表示所述三维坐标标记图像输入到所述误差回归判别网络得到的结果;所述总损失函数为,对于对称物体,总损失函数为,其中,α和β为预设的权重值。4.如权利要求2至3中任一项所述的位姿估计方法,其特征在于,所述三维坐标标记图像通过以下方式得到:根据预知的目标物体三维坐标和图像平面二维坐标的变换关系,将目标物体上的点映射为图像平面上的像素,并将目标物体三维坐标归一化,作为图像平面上对应像素的RGB值,从而得到所述三维坐标标记图像。5.如权利要求1所述的位姿估计方法,其特征在于,所述视图重建模型为自编码器结构,包括编码器和解码器,所述编码器和所述解码器通过一个或多个全连接层连接,所述编码器中若干层的输...

【专利技术属性】
技术研发人员:杨洋
申请(专利权)人:深圳市华汉伟业科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1