基于多头注意力机制和迭代细化的类别级位姿估计方法技术

技术编号：40328089 阅读：11 留言：0更新日期：2024-02-09 14:21

本发明专利技术公开了一种基于多头注意力机制和迭代细化的类别级位姿估计方法，属于计算机视觉领域，包括以下步骤：步骤1、获取现有公开数据集的RGB‑D图像；步骤2、构建基于多头注意力机制和迭代细化的类别级位姿估计模型；步骤3、构建整体损失函数来约束估计模型，得到粗粒度的初始位姿估计结果，在此基础上进行不断细化，得到训练完成的类别级位姿估计模型；步骤4、获取当前待预测物体的RGB‑D图像，基于已经训练完成的位姿估计模型直接预测当前图像中目标物体的6D位姿。本发明专利技术通过残差预测迭代精化和多头注意力特征融合模块提高了位姿估计的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，具体涉及一种基于多头注意力机制和迭代细化的类别级位姿估计方法。

技术介绍

1、随着vr/ar技术的飞速发展，类别级位姿估计任务受到研究者越来越多的关注，并且在机器人操纵、虚拟现实和自动驾驶等许多现实应用中发挥着重要作用。类别级位姿估计的目标是为了准确地估计出特定类别下新物体在三维空间中的位置与朝向。实例级方法需要已知物体的几何与纹理信息，还需要借助该物体精确的cad模型，因此此类模型的应用场景十分有限。与之相反，类别级位姿估计任务可以捕捉到该类物体更一般的属性，因此可以在不借助cad模型的情况下，估计出同一类别下所有物体的位姿。

2、由于同类物体之间存在着巨大的类内差异，类别级位姿估计仍然面临着精度低、泛化性差等诸多挑战。许多研究人员从改善网络结构，增加输入数据等方法入手，对位姿估计任务中存在的物体间遮挡、缺少纹理信息和光照变化等问题进行研究，取得了许多有价值的成果。由于光照变化、模糊失真等原因，rgb信息存在纹理复杂、噪声多等问题。许多方法只将物体的深度信息用于位姿估计，这虽然一定程度上避免了噪声的干扰，但同时也丢失了图像中有用的纹理信息。其他工作尝试将上述模型已估计的位姿作为初始位姿，设计特殊的输出头隐式地预测位姿残差，以便对初始结果进行精化。但由于需要设计额外的网络来优化位姿，无法端到端的获取结果，应用场景有限。

技术实现思路

1、为了解决上述问题，本专利技术提出了一种基于多头注意力机制和迭代细化的类别级位姿估计方法，设计了新的坐标变

2、本专利技术的技术方案如下：

3、一种基于多头注意力机制和迭代细化的类别级位姿估计方法，包括如下步骤：

4、步骤1、获取现有公开数据集的rgb-d图像；

5、步骤2、构建基于多头注意力机制和迭代细化的类别级位姿估计模型；

6、步骤3、构建整体损失函数来约束估计模型，得到粗粒度的初始位姿估计结果，在此基础上进行不断细化，得到训练完成的类别级位姿估计模型；

7、步骤4、获取当前待预测物体的rgb-d图像，基于已经训练完成的位姿估计模型直接预测当前图像中目标物体的6d位姿。

8、进一步地，步骤1中，公开数据集包括合成数据集camera25和真实数据集real275；其中，合成数据集camera25包含300k张由真实背景和虚拟对象合成的rgb-d图像；真实数据集real275包含8k张18个不同的真实场景下的rgb-d图像；两个数据集都包含瓶子、碗、相机、罐头、笔记本电脑和马克杯六类物品；rgb-d图像为rgb颜色与深度图像。

9、进一步地，步骤2中，类别级位姿估计模型包括特征编码器模块、坐标变换注意力模块、初始位姿估计模块和位姿迭代精化模块；

10、类别级位姿估计模型的工作过程为：

11、步骤2.1、采用特征编码模块对rgb-d图像进行特征提取；

12、步骤2.2、基于多头注意力机制的坐标变换注意力模块，获取世界坐标系下的rgb图像特征；

13、步骤2.3、基于初始位姿估计模块，预测获得粗粒度的位姿估计结果；

14、步骤2.4、基于位姿迭代精化模块完成对位姿的迭代精化。

15、进一步地，步骤2.1的具体过程为：

16、步骤2.1.1、采用mask-rcnn算法对rgb图像中的物体进行实例分割，获得物体的掩码图，并通过金字塔场景解析网络进行特征提取，获得相机坐标系下的rgb图像特征；mask-rcnn算法为一种实例分割算法；

17、步骤2.1.2、将深度图像映射为三维点云，并通过pointnet++对三维点云进行特征提取，得到相机坐标系下的位置编码和几何特征；pointnet++是一个点云特征提取与分类网络；

18、步骤2.1.3、将提取的相机坐标系下的rgb图像特征、位置编码和几何特征进行拼接，并利用神经网络对点云进行隐式坐标变换，得到世界坐标系下的点云及其点云特征。

19、进一步地，步骤2.2的具体过程为：

20、步骤2.2.1、将、和分别设为多头注意力的查询、键与值，使用点积运算的方式计算查询与键之间的相似度，并与值相乘获得rgb图像在世界坐标系下的rgb图像特征；多头注意力计算中第个头的输出公式为：

21、 (1)；

22、其中，为第个头的输出；为softmax归一化操作；为转置符号；为头的数量；为第个头的查询，为第个头的键，为第个头的值，计算公式分别如下：

23、 (2)；

24、 (3)；

25、 (4)；

26、其中，、、分别为第个头的查询、键、值可学习的投影矩阵；

27、步骤2.2.2、每个头分别对点云在不同世界坐标系中的特征关联度进行单独计算；将每个头的输出结果进行拼接，最终结果表示为：

28、(5)；

29、其中，为多头注意力机制最终的输出结果，为第1个头的输出，为第个头的输出，为拼接操作；

30、步骤2.2.3、将传入基于位置的前馈神经网络，获取世界坐标系下的rgb图像特征；前馈神经网络由多个全连接层和激活函数组成，全连接层进行线性变换，具体计算公式为：

31、 (6)；

32、其中，为前馈神经网络计算。

33、进一步地，步骤2.3的具体过程为：

34、将相机坐标系下的rgb图像特征、位置编码和几何特征以及世界坐标系下的rgb图像特征进行特征拼接，通过初始位姿解码器进行预测，得到物体粗粒度的初始位姿；将初始位姿解码器与多头位姿残差解码器的参数进行共享，初始位姿解码器与位姿迭代精化模块中多头位姿残差解码器的计算方式相同。

35、进一步地，步骤2.4的具体过程如下：

36、步骤2.4.1、将步骤2.3得到的物体粗粒度的初始位姿设置为4×4的坐标变换矩阵，通过矩阵相乘将三维点云从相机坐标系显式坐标变换到世界坐标系下，并使用pointnet++再次提取世界坐标系下的三维点云特征来优化点云的几何特征；

37、步骤2.4.2、将不同坐标系下的rgb图像特征、点云特征和位置编码进行特征拼接，传入多头位姿残差解码器；

38、步骤2.4.3、多头位姿残差解码器部分采用多层感知机与转置操作利用物本文档来自技高网...

【技术保护点】

1.一种基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤1中，公开数据集包括合成数据集CAMERA25和真实数据集REAL275；其中，合成数据集CAMERA25包含300K张由真实背景和虚拟对象合成的RGB-D图像；真实数据集REAL275包含8K张18个不同的真实场景下的RGB-D图像；两个数据集都包含瓶子、碗、相机、罐头、笔记本电脑和马克杯六类物品；RGB-D图像为RGB颜色与深度图像。

3.根据权利要求2所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2中，类别级位姿估计模型包括特征编码器模块、坐标变换注意力模块、初始位姿估计模块和位姿迭代精化模块；

4.根据权利要求3所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.1的具体过程为：

5.根据权利要求4所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.2的具体过程为：>

6.根据权利要求5所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.3的具体过程为：

7.根据权利要求6所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.4的具体过程如下：

8.根据权利要求7所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.4.3中，多头位姿残差解码器中采用旋转和位移两个独立的分支输出头分别进行预测；

9.根据权利要求1所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤3中，整体损失函数由初始位姿估计损失与迭代位姿估计损失两部分组成；整体损失函数如下：

...

【技术特征摘要】

1.一种基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤1中，公开数据集包括合成数据集camera25和真实数据集real275；其中，合成数据集camera25包含300k张由真实背景和虚拟对象合成的rgb-d图像；真实数据集real275包含8k张18个不同的真实场景下的rgb-d图像；两个数据集都包含瓶子、碗、相机、罐头、笔记本电脑和马克杯六类物品；rgb-d图像为rgb颜色与深度图像。

4.根据权利要求3所述基于多头注意力机制和迭代细化的类别级位...

【专利技术属性】
技术研发人员：包永堂，李豪杰，苏春健，
申请(专利权)人：山东科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人