基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法技术

技术编号：39044946 阅读：16 留言：0更新日期：2023-10-10 11:57

本发明专利技术公开了基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法，包括以下步骤：S1、获取全景图像和深度图像，将其分别输入至ConvNext网络和Pointnet网络中提取得到颜色特征和深度点云，并根据颜色特征、深度点云和模型点云提取特征矩阵；S2、将深度点云及其法向量信息和模型点云及其法向量信息输入至全局点云注意力模块，得到共同注意力图；S3、将共同注意力图与特征矩阵输入至注意力感知位姿估计模块，得到最终位姿。本发明专利技术引入了一种简单而有效的全局点云注意力模块发现模型点和深度点之间的相似性，从而获得鲁棒的注意力相关性。实验表明，本发明专利技术比目前的方法具有优势，并且本发明专利技术的预测结果的准确性和鲁棒性在6D姿态估计中得到提高。姿态估计中得到提高。

全部详细技术资料下载

【技术实现步骤摘要】
基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法

[0001]本专利技术属于计算机视觉
，具体涉及基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法。

技术介绍

[0002]物体6D位姿估计任务是计算当前场景中目标相对于物体固定的世界坐标的三维旋转和三维平移，是增强现实、自动驾驶、机器人抓取等人机互动应用中的重要基础问题。传统的目标位姿估计方法是在手工关键点检测和特征匹配的基础上，利用当前图像和对象模型之间的点对应关系估计姿态。其主要缺点是特征设计不能学习拟合数据，导致估计无特征物体的位姿变得十分困难。近年来，随着深度学习的发展，基于网络的位姿估计越来越流行起来。
[0003]一阶段方法和二阶段方法是目前深度学习位姿估计方法中常用的两种方式。一阶段方法直接从输入图像或点云中估计物体的位姿信息，通常采用端到端的方式进行训练和推理，具有实时性高、模型简单等优点，但由于输入数据的多样性和噪声等因素的影响，对位姿估计的精度和鲁棒性要求较高。二阶段方法则将位姿估计任务分解为物体检测和位姿回归两个子任务，首先在输入图像或点云中检测物体的位置，然后对物体进行位姿回归，具有精度高、鲁棒性好等优点，但需要耗费更多的计算时间和存储空间，并且需要多个模型协同工作，因此通常比一阶段方法更复杂。
[0004]在这些工作中，根据其输入数据的不同其方法也有很大的差别，主要可以分成仅使用RGB、仅使用深度信息和同时使用RGB和深度信息方法。传统方法通常使用模板匹配法，根据已知模板图像到另一幅图像中寻找与模板图像相似的子图像，...

【技术保护点】

【技术特征摘要】
1.一种基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法，其特征在于，包括以下步骤：S1、获取全景图像和深度图像，将其分别输入至ConvNext网络和Pointnet网络中提取得到颜色特征和深度点云，并根据颜色特征、深度点云和模型点云提取特征矩阵；S2、将深度点云及其法向量信息和模型点云及其法向量信息输入至全局点云注意力模块，得到共同注意力图；S3、将共同注意力图与特征矩阵输入至注意力感知位姿估计模块，得到最终位姿。2.根据权利要求1所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法，其特征在于，所述S1中，特征矩阵包括密集特征矩阵和模型特征矩阵；所述S1包括以下分步骤：S11、获取全景图像和深度图像，从全景图像和深度图像中裁剪出感兴趣区；S12、根据全景图像的感兴趣区和相机内参将深度图像转化为场景点云信息，并将全景图像的感兴趣区输入至ConvNext网络，得到颜色特征；S13、从深度点云中随机抽取N个点，通过Pointnet网络提取N个点的几何特征，并将几何特征与颜色特征连接，得到密集特征矩阵；S14、从模型点云中随机抽取N个点，通过多层感知机提取N个点的模型特征矩阵。3.根据权利要求1所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法，其特征在于，所述S2中，全局点云注意力模块包括依次连接的伪孪生网络模块、点积函数层和softmax函数层；所述S2包括以下分步骤：S21、将深度点云及其法向量信息和模型点云及其法向量信息分别输入至伪孪生网络模块，得到深度注意力特征矩阵和模型注意力特征矩阵；S22、将深度注意力特征矩阵和模型注意力特征矩阵输入至点积函数层，得到相关特征矩阵，将相关特征矩阵输入至softmax函数层，得到用于约束点对匹配的共同注意力图。4.根据权利要求3所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法，其特征在于，所述S21具体为：通过伪孪生网络模块将深度点云及其法向量信息和模型点云及其法向量信息进行两次不同位置的输入，得到深度注意力特征矩阵和模型注意力特征矩阵，其中，所述伪孪生网络模块处理输入的方法相同，伪孪生网络模块处理深度点云及其法向量信息与模型点云及其法向量信息的方法具体为：SA1、通过多层感知机将6维的深度点云及其法向量信息与模型点云及其法向量信息提升至64维度和128维度，得到64维的第一～第二局部特征，以及128维的第三～第四局部特征；SA2、将64维的第一～第二局部特征进行局部融合，得到128维的第五局部特征；SA3、将128维的第三～第四局部特征进行局部融合，得到256维的第六局部特征，将第六局部特征进行编码，得到1024维的第七局部特征；SA4、将1024维的第七局部特征进行平均池化，得到全局特征，将全局特征与128维的第五局部特征进行稠密融合，并对稠密融合的结果进行解码和归一化，得到既有局部特征信息又有全局特征信息的深度注意力特征矩阵；
SA5、利用伪孪生网络交换深度点云及其法向量信息与模型点云及其法向量信息输入的位置，重复SA1～SA4，得到既有局部特征信息又有全局特征信息的模型注意力特征矩阵。5.根据权利要求3所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法，其特征在于，所述S22中，得到相关特征矩阵R
m,n
的表达式具体为：R
m,n
＝g(F
sa
,F
ma
)式中，g(
·
)表示点积函数，F
sa
表示深度注意力特征矩阵，F
ma
表示模型注意力特征矩阵；得到共同注意力图M
m*n
的表达式具体为：式中，R
i,n
表示相关特征矩阵中第n列的第i个的元素，R
k,n
表示相关特征矩阵中第n列的第k个元素，m表示矩阵的行数，n表示矩阵的列数。6.根据权利要求3所述的基于双向匹配和全局注意力网络的鲁棒6D位姿估计方法，其特征在于，所述S22中，得到的共同注意力图通过注意力损失进行约束，所述注意力损失L
attention
的表达式具体为：式中，w
total
表示点对特征约束权重，M
m*n
表示共同注意力图，m表示矩阵的行数，n表示矩阵的列数；所述点对特征约束权重的表达式具体为：w
total
＝γ1d
m,n
+γ2θ
d,N
+γ3θ
N
式中，γ1、γ2和γ3均表示权重参数，d
m,n
表示点对距离矩阵，θ
d,N
表示距离向量与法向量夹角，θ
N
表示法向量夹角。...

【专利技术属性】
技术研发人员：张光建，杨煜豪，
申请(专利权)人：重庆理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人