姿态估计方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：39304359 阅读：10 留言：0更新日期：2023-11-12 15:53

本申请公开了一种姿态估计方法、装置、设备、存储介质及程序产品，涉及机器学习领域。该方法包括：获取深度相机采集得到的颜色图像和深度图像；获取与深度图像对应的点云数据；基于跨模态交叉注意力机制对颜色图像和点云数据进行交叉特征提取，输出颜色图像对应的颜色特征表示，和点云数据对应的点云特征表示，得到图像特征表示；基于图像特征表示对颜色图像中采集得到的目标实体进行姿态估计预测，得到目标实体对应的姿态数据。在提取得到的图像特征表示中融合了颜色特征表示和点云特征表示，从而根据图像特征表示识别得到实体姿态，两种模态信息的交互将实体特征在特征提取的过程中互相融合影响，提高了从图像中识别得到实体姿态的准确率。姿态的准确率。姿态的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
姿态估计方法、装置、设备、存储介质及程序产品

[0001]本申请实施例涉及机器学习领域，特别涉及一种姿态估计方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]在机器人领域，通常需要通过机器人的机械手臂对现实中的物体进行抓取、放置等操作。如：通过机器人的机械手臂对放置在桌上的杯子进行抓取，并将杯子转移至柜子中。
[0003]相关技术中，在实现机械手臂抓取的过程中，首先通过机器人的视觉传感模块进行图像采集，确定在机器人实现范围内的环境图像，将环境图像输入预先训练得到的神经网络模型中，输出一个候选姿态估计结果，从而结合环境图像对应的点云数据和物体模型数据得到物体在环境中的姿态数据。
[0004]然而，上述方案中由于环境图像预测得到的候选姿态估计结果准确率本身较低，而点云数据易受到物体周围邻近物体的影响，从而导致最终得到的姿态数据准确率较低。

技术实现思路

[0005]本申请实施例提供了一种姿态估计方法、装置、设备、存储介质及程序产品，能够提高图像中实体姿态的预估准确率。所述技术方案如下。
[0006]一方面，提供了一种姿态估计方法，所述方法包括：
[0007]获取深度相机采集得到的颜色图像和深度图像，所述颜色图像和所述深度图像是所述深度相机同步采集得到的图像；
[0008]获取与所述深度图像对应的点云数据，所述点云数据用于指示所述深度图像中像素点的三维空间分布；
[0009]基于跨模态交叉注意力机制对所述颜色图像和所述点云数据进行交叉特征提取，输出...

【技术保护点】

【技术特征摘要】
1.一种姿态估计方法，其特征在于，所述方法包括：获取深度相机采集得到的颜色图像和深度图像，所述颜色图像和所述深度图像是所述深度相机同步采集得到的图像；获取与所述深度图像对应的点云数据，所述点云数据用于指示所述深度图像中像素点的三维空间分布；基于跨模态交叉注意力机制对所述颜色图像和所述点云数据进行交叉特征提取，输出所述颜色图像对应的颜色特征表示，和所述点云数据对应的点云特征表示；对所述颜色特征表示和所述点云特征表示进行拼接，得到图像特征表示；基于所述图像特征表示对所述颜色图像中采集得到的目标实体进行姿态估计预测，得到所述目标实体对应的姿态数据，所述姿态数据用于表示所述目标实体相对所述深度相机所处的位置和姿态。2.根据权利要求1所述的方法，其特征在于，所述基于跨模态交叉注意力机制对所述颜色图像和所述点云数据进行交叉特征提取，输出所述颜色图像对应的颜色特征表示，和所述点云数据对应的点云特征表示，包括：在第i个特征提取层，基于第一特征提取网络对所述颜色图像进行特征提取，得到第一特征表示；在第i个特征提取层，基于第二特征提取网络对所述点云数据进行特征提取，得到第二特征表示，i为正整数；基于第一融合方式将所述第二特征表示融合至所述第一特征表示，得到第一融合特征表示，所述第一融合特征表示为第i+1个特征提取层中，所述第一特征提取网络的输入特征；基于第二融合方式将所述第一特征表示融合至所述第二特征表示，得到第二融合特征表示，所述第二融合特征表示为第i+1个特征提取层中，所述第二特征提取网络的输入特征；通过n层特征提取层，输出得到所述颜色图像对应的颜色特征表示，和所述点云数据对应的点云特征表示，n≥i+1，且n为整数。3.根据权利要求2所述的方法，其特征在于，所述基于第二融合方式将所述第一特征表示融合至所述第二特征表示，得到第二融合特征表示，包括：获取所述点云数据中的点云像素点在所述颜色图像中的邻点；获取所述第一特征表示中与所述邻点对应的邻点特征表示；将所述点云像素点在所述第二特征表示中对应的点云特征表示与所述邻点特征表示进行拼接，得到所述点云像素点对应的第二融合特征表示。4.根据权利要求3所述的方法，其特征在于，所述获取所述点云数据中的点云像素点在所述颜色图像中的邻点，包括：获取所述点云数据中的点云像素点在所述深度图像中的第一图像坐标；获取所述颜色图像中的像素点在所述颜色图像中分别对应的第二图像坐标；将所述第一图像坐标转换为在所述颜色图像中对应的第三图像坐标；基于所述第三图像坐标与像素点分别对应的第二图像坐标之间的距离，确定所述点云像素点在所述颜色图像中的邻点。
5.根据权利要求3所述的方法，其特征在于，所述获取所述第一特征表示中与所述邻点对应的邻点特征表示，包括：获取所述第一维度特征表示中与所述邻点对应的邻点特征表示；所述将所述点云像素点在所述第二特征表示中对应的点云特征表示与所述邻点特征表示进行拼接，得到所述点云对应的第二融合特征表示，包括：通过多层感知机层将所述第一特征表示转化为第一维度特...

【专利技术属性】
技术研发人员：林诗峰，王尊冉，凌永根，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人