基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法技术

技术编号:39044946 阅读:16 留言:0更新日期:2023-10-10 11:57
本发明专利技术公开了基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法,包括以下步骤:S1、获取全景图像和深度图像,将其分别输入至ConvNext网络和Pointnet网络中提取得到颜色特征和深度点云,并根据颜色特征、深度点云和模型点云提取特征矩阵;S2、将深度点云及其法向量信息和模型点云及其法向量信息输入至全局点云注意力模块,得到共同注意力图;S3、将共同注意力图与特征矩阵输入至注意力感知位姿估计模块,得到最终位姿。本发明专利技术引入了一种简单而有效的全局点云注意力模块发现模型点和深度点之间的相似性,从而获得鲁棒的注意力相关性。实验表明,本发明专利技术比目前的方法具有优势,并且本发明专利技术的预测结果的准确性和鲁棒性在6D姿态估计中得到提高。姿态估计中得到提高。

【技术实现步骤摘要】
基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法


[0001]本专利技术属于计算机视觉
,具体涉及基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法。

技术介绍

[0002]物体6D位姿估计任务是计算当前场景中目标相对于物体固定的世界坐标的三维旋转和三维平移,是增强现实、自动驾驶、机器人抓取等人机互动应用中的重要基础问题。传统的目标位姿估计方法是在手工关键点检测和特征匹配的基础上,利用当前图像和对象模型之间的点对应关系估计姿态。其主要缺点是特征设计不能学习拟合数据,导致估计无特征物体的位姿变得十分困难。近年来,随着深度学习的发展,基于网络的位姿估计越来越流行起来。
[0003]一阶段方法和二阶段方法是目前深度学习位姿估计方法中常用的两种方式。一阶段方法直接从输入图像或点云中估计物体的位姿信息,通常采用端到端的方式进行训练和推理,具有实时性高、模型简单等优点,但由于输入数据的多样性和噪声等因素的影响,对位姿估计的精度和鲁棒性要求较高。二阶段方法则将位姿估计任务分解为物体检测和位姿回归两个子任务,首先在输入图像或点云中检测物体的位置,然后对物体进行位姿回归,具有精度高、鲁棒性好等优点,但需要耗费更多的计算时间和存储空间,并且需要多个模型协同工作,因此通常比一阶段方法更复杂。
[0004]在这些工作中,根据其输入数据的不同其方法也有很大的差别,主要可以分成仅使用RGB、仅使用深度信息和同时使用RGB和深度信息方法。传统方法通常使用模板匹配法,根据已知模板图像到另一幅图像中寻找与模板图像相似的子图像,然后使用PnP算法回归6D位姿。然而,这种方法无法处理没有纹理的对象。随着深度学习的发展,一些基于RGB数据的方法发展了2D

3D对应的密度预测,并通过PnP

RANSAC算法估计姿态。还有一些方法考虑了自遮挡多视角信息或者目标的多部分信息来预测更为鲁棒的位姿估计。但是这些方法大多数都建立在2D投影上,在真实的三维空间中,2维图像上的关键点投影误差较小,但在其对应的三维空间中的误差可能很大,忽略了模型的几何信息。另一方面,三维空间的不同关键点可能在投影的二维空间中发生重叠,这使得利用二维图像来预测位姿的方法难以区分这些点。
[0005]一些基于深度信息方法利用3D卷积网络或点云网络用于特征提取和3D边界框预测。最近的cloudAAE尝试以期望的6D姿态重建点云段来学习编码6D姿势信息的潜在代码,并将其作为输入回归位姿参数。然而,点云的稀疏性和非纹理限制这些方法的性能。不仅如此,深度图像无法捕获到物体表面的颜色特征,这也限制了仅使用深度图像网络的性能。
[0006]为了解决这些问题,一些方法尝试从RGB图像中提取初始姿势后,使用ICP或MCN算法对点云进行局部配准。但是这些算法非常耗时,并且无法进行端到端的优化。因此,一些基于RGB

D数据的工作分别使用CNN和点云网络提取RGB图像和点云中的特征,然后将这些特征融合起来进行位姿估计并取得了不错的成果。最近的方法都是在DenseFusion的网络
上进行了进一步改进和优化。然而,这些方法都没有充分利用模型点云的先验信息。之后的BiCo

Net网络利用双向映射模块将模型点云信息加入到网络中进行训练,但是并没有考虑对点对匹配阶段进行全局约束,这就有可能导致网络在局部配准时无法有效地处理噪声,因为全局建模可以给出物体的大致描述从而改善对象识别系统的稳定性。

技术实现思路

[0007]针对现有技术中的上述不足,本专利技术提供的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法解决了现有6D位姿估计方案特征融合方式涵盖的信息不全面、全局特征与局部特征的利用不充分、双向映射网络的局部匹配未进行全局优化的问题。
[0008]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法,包括以下步骤:
[0009]S1、获取全景图像和深度图像,将其分别输入至ConvNext网络和Pointnet网络中提取得到颜色特征和深度点云,并根据颜色特征、深度点云和模型点云提取特征矩阵;
[0010]S2、将深度点云及其法向量信息和模型点云及其法向量信息输入至全局点云注意力模块,得到共同注意力图;
[0011]S3、将共同注意力图与特征矩阵输入至注意力感知位姿估计模块,得到最终位姿。
[0012]进一步地:所述S1中,特征矩阵包括密集特征矩阵和模型特征矩阵;
[0013]所述S1包括以下分步骤:
[0014]S11、获取全景图像和深度图像,从全景图像和深度图像中裁剪出感兴趣区;
[0015]S12、根据全景图像的感兴趣区和相机内参将深度图像转化为场景点云信息,并将全景图像的感兴趣区输入至ConvNext网络,得到颜色特征;
[0016]S13、从深度点云中随机抽取N个点,通过Pointnet网络提取N个点的几何特征,并将几何特征与颜色特征连接,得到密集特征矩阵;
[0017]S14、从模型点云中随机抽取N个点,通过多层感知机提取N个点的模型特征矩阵。
[0018]进一步地:所述S2中,全局点云注意力模块包括依次连接的伪孪生网络模块、点积函数层和softmax函数层;
[0019]所述S2包括以下分步骤:
[0020]S21、将深度点云及其法向量信息和模型点云及其法向量信息分别输入至伪孪生网络模块,得到深度注意力特征矩阵和模型注意力特征矩阵;
[0021]S22、将深度注意力特征矩阵和模型注意力特征矩阵输入至点积函数层,得到相关特征矩阵,将相关特征矩阵输入至softmax函数层,得到用于约束点对匹配的共同注意力图。
[0022]进一步地:所述S21具体为:
[0023]通过伪孪生网络模块将深度点云及其法向量信息和模型点云及其法向量信息进行两次不同位置的输入,得到深度注意力特征矩阵和模型注意力特征矩阵,
[0024]其中,所述伪孪生网络模块处理输入的方法相同,伪孪生网络模块处理深度点云及其法向量信息与模型点云及其法向量信息的方法具体为:
[0025]SA1、通过多层感知机将6维的深度点云及其法向量信息与模型点云及其法向量信息提升至64维度和128维度,得到64维的第一~第二局部特征,以及128维的第三~第四局
部特征;
[0026]SA2、将64维的第一~第二局部特征进行局部融合,得到128维的第五局部特征;
[0027]SA3、将128维的第三~第四局部特征进行局部融合,得到256维的第六局部特征,将第六局部特征进行编码,得到1024维的第七局部特征;
[0028]SA4、将1024维的第七局部特征进行平均池化,得到全局特征,将全局特征与128维的第五局部特征进行稠密融合,并对稠密融合的结果进行解码和归一化,得到既有局部特征信息又有全局特征信息的深度注意力特征矩阵;
[0029]SA5、利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法,其特征在于,包括以下步骤:S1、获取全景图像和深度图像,将其分别输入至ConvNext网络和Pointnet网络中提取得到颜色特征和深度点云,并根据颜色特征、深度点云和模型点云提取特征矩阵;S2、将深度点云及其法向量信息和模型点云及其法向量信息输入至全局点云注意力模块,得到共同注意力图;S3、将共同注意力图与特征矩阵输入至注意力感知位姿估计模块,得到最终位姿。2.根据权利要求1所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法,其特征在于,所述S1中,特征矩阵包括密集特征矩阵和模型特征矩阵;所述S1包括以下分步骤:S11、获取全景图像和深度图像,从全景图像和深度图像中裁剪出感兴趣区;S12、根据全景图像的感兴趣区和相机内参将深度图像转化为场景点云信息,并将全景图像的感兴趣区输入至ConvNext网络,得到颜色特征;S13、从深度点云中随机抽取N个点,通过Pointnet网络提取N个点的几何特征,并将几何特征与颜色特征连接,得到密集特征矩阵;S14、从模型点云中随机抽取N个点,通过多层感知机提取N个点的模型特征矩阵。3.根据权利要求1所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法,其特征在于,所述S2中,全局点云注意力模块包括依次连接的伪孪生网络模块、点积函数层和softmax函数层;所述S2包括以下分步骤:S21、将深度点云及其法向量信息和模型点云及其法向量信息分别输入至伪孪生网络模块,得到深度注意力特征矩阵和模型注意力特征矩阵;S22、将深度注意力特征矩阵和模型注意力特征矩阵输入至点积函数层,得到相关特征矩阵,将相关特征矩阵输入至softmax函数层,得到用于约束点对匹配的共同注意力图。4.根据权利要求3所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法,其特征在于,所述S21具体为:通过伪孪生网络模块将深度点云及其法向量信息和模型点云及其法向量信息进行两次不同位置的输入,得到深度注意力特征矩阵和模型注意力特征矩阵,其中,所述伪孪生网络模块处理输入的方法相同,伪孪生网络模块处理深度点云及其法向量信息与模型点云及其法向量信息的方法具体为:SA1、通过多层感知机将6维的深度点云及其法向量信息与模型点云及其法向量信息提升至64维度和128维度,得到64维的第一~第二局部特征,以及128维的第三~第四局部特征;SA2、将64维的第一~第二局部特征进行局部融合,得到128维的第五局部特征;SA3、将128维的第三~第四局部特征进行局部融合,得到256维的第六局部特征,将第六局部特征进行编码,得到1024维的第七局部特征;SA4、将1024维的第七局部特征进行平均池化,得到全局特征,将全局特征与128维的第五局部特征进行稠密融合,并对稠密融合的结果进行解码和归一化,得到既有局部特征信息又有全局特征信息的深度注意力特征矩阵;
SA5、利用伪孪生网络交换深度点云及其法向量信息与模型点云及其法向量信息输入的位置,重复SA1~SA4,得到既有局部特征信息又有全局特征信息的模型注意力特征矩阵。5.根据权利要求3所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法,其特征在于,所述S22中,得到相关特征矩阵R
m,n
的表达式具体为:R
m,n
=g(F
sa
,F
ma
)式中,g(
·
)表示点积函数,F
sa
表示深度注意力特征矩阵,F
ma
表示模型注意力特征矩阵;得到共同注意力图M
m*n
的表达式具体为:式中,R
i,n
表示相关特征矩阵中第n列的第i个的元素,R
k,n
表示相关特征矩阵中第n列的第k个元素,m表示矩阵的行数,n表示矩阵的列数。6.根据权利要求3所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法,其特征在于,所述S22中,得到的共同注意力图通过注意力损失进行约束,所述注意力损失L
attention
的表达式具体为:式中,w
total
表示点对特征约束权重,M
m*n
表示共同注意力图,m表示矩阵的行数,n表示矩阵的列数;所述点对特征约束权重的表达式具体为:w
total
=γ1d
m,n
+γ2θ
d,N
+γ3θ
N
式中,γ1、γ2和γ3均表示权重参数,d
m,n
表示点对距离矩阵,θ
d,N
表示距离向量与法向量夹角,θ
N
表示法向量夹角。...

【专利技术属性】
技术研发人员:张光建杨煜豪
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1