姿态估计方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:39304359 阅读:10 留言:0更新日期:2023-11-12 15:53
本申请公开了一种姿态估计方法、装置、设备、存储介质及程序产品,涉及机器学习领域。该方法包括:获取深度相机采集得到的颜色图像和深度图像;获取与深度图像对应的点云数据;基于跨模态交叉注意力机制对颜色图像和点云数据进行交叉特征提取,输出颜色图像对应的颜色特征表示,和点云数据对应的点云特征表示,得到图像特征表示;基于图像特征表示对颜色图像中采集得到的目标实体进行姿态估计预测,得到目标实体对应的姿态数据。在提取得到的图像特征表示中融合了颜色特征表示和点云特征表示,从而根据图像特征表示识别得到实体姿态,两种模态信息的交互将实体特征在特征提取的过程中互相融合影响,提高了从图像中识别得到实体姿态的准确率。姿态的准确率。姿态的准确率。

【技术实现步骤摘要】
姿态估计方法、装置、设备、存储介质及程序产品


[0001]本申请实施例涉及机器学习领域,特别涉及一种姿态估计方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]在机器人领域,通常需要通过机器人的机械手臂对现实中的物体进行抓取、放置等操作。如:通过机器人的机械手臂对放置在桌上的杯子进行抓取,并将杯子转移至柜子中。
[0003]相关技术中,在实现机械手臂抓取的过程中,首先通过机器人的视觉传感模块进行图像采集,确定在机器人实现范围内的环境图像,将环境图像输入预先训练得到的神经网络模型中,输出一个候选姿态估计结果,从而结合环境图像对应的点云数据和物体模型数据得到物体在环境中的姿态数据。
[0004]然而,上述方案中由于环境图像预测得到的候选姿态估计结果准确率本身较低,而点云数据易受到物体周围邻近物体的影响,从而导致最终得到的姿态数据准确率较低。

技术实现思路

[0005]本申请实施例提供了一种姿态估计方法、装置、设备、存储介质及程序产品,能够提高图像中实体姿态的预估准确率。所述技术方案如下。
[0006]一方面,提供了一种姿态估计方法,所述方法包括:
[0007]获取深度相机采集得到的颜色图像和深度图像,所述颜色图像和所述深度图像是所述深度相机同步采集得到的图像;
[0008]获取与所述深度图像对应的点云数据,所述点云数据用于指示所述深度图像中像素点的三维空间分布;
[0009]基于跨模态交叉注意力机制对所述颜色图像和所述点云数据进行交叉特征提取,输出所述颜色图像对应的颜色特征表示,和所述点云数据对应的点云特征表示;
[0010]对所述颜色特征表示和所述点云特征表示进行拼接,得到图像特征表示;
[0011]基于所述图像特征表示对所述颜色图像中采集得到的目标实体进行姿态估计预测,得到所述目标实体对应的姿态数据,所述姿态数据用于表示所述目标实体相对所述深度相机所处的位置和姿态。
[0012]另一方面,提供了一种姿态估计装置,所述装置包括:
[0013]获取模块,用于获取深度相机采集得到的颜色图像和深度图像,所述颜色图像和所述深度图像是所述深度相机同步采集得到的图像;
[0014]所述获取模块,还用于获取与所述深度图像对应的点云数据,所述点云数据用于指示所述深度图像中像素点的三维空间分布;
[0015]特征提取模块,用于基于跨模态交叉注意力机制对所述颜色图像和所述点云数据进行交叉特征提取,输出所述颜色图像对应的颜色特征表示,和所述点云数据对应的点云
特征表示;对所述颜色特征表示和所述点云特征表示进行拼接,得到图像特征表示;
[0016]预测模块,用于基于所述图像特征表示对所述颜色图像中采集得到的目标实体进行姿态估计预测,得到所述目标实体对应的姿态数据,所述姿态数据用于表示所述目标实体相对所述深度相机所处的位置和姿态。
[0017]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述姿态估计方法。
[0018]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的姿态估计方法。
[0019]另一方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的姿态估计方法。
[0020]本申请实施例提供的技术方案带来的有益效果至少包括:
[0021]在进行物体姿态识别的过程中,提取颜色特征表示的过程,和提取点云特征表示的过程同步进行,且两个特征表示的提取之间存在交互关系,也即,通过跨模态交叉注意力机制对颜色特征表示和点云特征表示进行交叉提取,在提取得到的图像特征表示中融合了颜色特征表示和点云特征表示,从而根据图像特征表示识别得到实体姿态,两种模态信息的交互将实体特征在特征提取的过程中互相融合影响,提高了从图像中识别得到实体姿态的准确率。
附图说明
[0022]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本申请一个示例性实施例提供的姿态估计方法的整体过程示意图;
[0024]图2是本申请一个示例性实施例提供的实施环境示意图;
[0025]图3是本申请一个示例性实施例提供的姿态估计方法的流程图;
[0026]图4是基于图3示出的实施例提供的特征提取过程的示意图;
[0027]图5是本申请另一个示例性实施例提供的姿态估计方法的流程图;
[0028]图6是基于图5示出的实施例提供的特征融合过程的示意图;
[0029]图7是基于图5示出的实施例提供的另一种特征融合过程的示意图;
[0030]图8是基于图5示出的实施例提供的特征拼接过程的示意图;
[0031]图9是本申请另一个示例性实施例提供的姿态估计方法的流程图;
[0032]图10是本申请一个示例性实施例提供的姿态估计装置的结构框图;
[0033]图11是本申请另一个示例性实施例提供的姿态估计装置的结构框图;
[0034]图12是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
[0035]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0036]首先,针对本申请实施例中涉及的名词进行简单介绍。
[0037]人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0038]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大特征表示的提取技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种姿态估计方法,其特征在于,所述方法包括:获取深度相机采集得到的颜色图像和深度图像,所述颜色图像和所述深度图像是所述深度相机同步采集得到的图像;获取与所述深度图像对应的点云数据,所述点云数据用于指示所述深度图像中像素点的三维空间分布;基于跨模态交叉注意力机制对所述颜色图像和所述点云数据进行交叉特征提取,输出所述颜色图像对应的颜色特征表示,和所述点云数据对应的点云特征表示;对所述颜色特征表示和所述点云特征表示进行拼接,得到图像特征表示;基于所述图像特征表示对所述颜色图像中采集得到的目标实体进行姿态估计预测,得到所述目标实体对应的姿态数据,所述姿态数据用于表示所述目标实体相对所述深度相机所处的位置和姿态。2.根据权利要求1所述的方法,其特征在于,所述基于跨模态交叉注意力机制对所述颜色图像和所述点云数据进行交叉特征提取,输出所述颜色图像对应的颜色特征表示,和所述点云数据对应的点云特征表示,包括:在第i个特征提取层,基于第一特征提取网络对所述颜色图像进行特征提取,得到第一特征表示;在第i个特征提取层,基于第二特征提取网络对所述点云数据进行特征提取,得到第二特征表示,i为正整数;基于第一融合方式将所述第二特征表示融合至所述第一特征表示,得到第一融合特征表示,所述第一融合特征表示为第i+1个特征提取层中,所述第一特征提取网络的输入特征;基于第二融合方式将所述第一特征表示融合至所述第二特征表示,得到第二融合特征表示,所述第二融合特征表示为第i+1个特征提取层中,所述第二特征提取网络的输入特征;通过n层特征提取层,输出得到所述颜色图像对应的颜色特征表示,和所述点云数据对应的点云特征表示,n≥i+1,且n为整数。3.根据权利要求2所述的方法,其特征在于,所述基于第二融合方式将所述第一特征表示融合至所述第二特征表示,得到第二融合特征表示,包括:获取所述点云数据中的点云像素点在所述颜色图像中的邻点;获取所述第一特征表示中与所述邻点对应的邻点特征表示;将所述点云像素点在所述第二特征表示中对应的点云特征表示与所述邻点特征表示进行拼接,得到所述点云像素点对应的第二融合特征表示。4.根据权利要求3所述的方法,其特征在于,所述获取所述点云数据中的点云像素点在所述颜色图像中的邻点,包括:获取所述点云数据中的点云像素点在所述深度图像中的第一图像坐标;获取所述颜色图像中的像素点在所述颜色图像中分别对应的第二图像坐标;将所述第一图像坐标转换为在所述颜色图像中对应的第三图像坐标;基于所述第三图像坐标与像素点分别对应的第二图像坐标之间的距离,确定所述点云像素点在所述颜色图像中的邻点。
5.根据权利要求3所述的方法,其特征在于,所述获取所述第一特征表示中与所述邻点对应的邻点特征表示,包括:获取所述第一维度特征表示中与所述邻点对应的邻点特征表示;所述将所述点云像素点在所述第二特征表示中对应的点云特征表示与所述邻点特征表示进行拼接,得到所述点云对应的第二融合特征表示,包括:通过多层感知机层将所述第一特征表示转化为第一维度特...

【专利技术属性】
技术研发人员:林诗峰王尊冉凌永根
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1