基于多源知识驱动的目标物体抓取方法及系统技术方案

技术编号：41379464 阅读：12 留言：0更新日期：2024-05-20 10:21

本发明专利技术公开了基于多源知识驱动的目标物体抓取方法及系统，其中方法，包括：获取待抓取物体所处的场景图像以及待抓取物体的自然语言描述；对场景图像和自然语言描述分别进行预处理；将预处理后的场景图像和自然语言描述，均输入到训练后的图像分割模型中，输出待抓取物体的分割掩码；基于待抓取物体的分割掩码，确定机器人的最佳抓握姿势；基于最佳抓握姿势，确定机器人的操作位姿。一方面通过CLIP的隐式知识促进多模态特征的融合、交互和对齐，另一方面通过ChatGPT的显示知识增强实体的语义信息，有效提高了语言条件分割和抓取检测的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及目标物体抓取，特别是涉及基于多源知识驱动的目标物体抓取方法及系统。

技术介绍

1、本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
，并不必然构成现有技术。

2、随着机器人技术的快速发展，赋予机器人理解自然语言和执行相关任务(如导航、操纵)的能力已成为机器人学的一个重要研究热点。语言条件分割和抓取检测的目的是使机器人能够通过理解自由形式的自然语言(如空间关系、外观、颜色)来感知和划分特定的物体，从而鲁棒地完成抓取任务。由于人机交互中自然语言表达和对象属性的复杂性和多样性，该任务比实际应用中基于视觉的抓取检测和闭集分割更具挑战性。此外，杂乱的场景和遮挡的物体进一步增加了描述与目标匹配的难度以及抓取的精细化要求。

3、基于视觉的抓取是机器人操作的一项基本技能，近年来取得了显著的成功。许多研究人员设计了基于深度学习的方法来对抓取矩形进行采样或回归，这降低了手工设计特征方法的复杂性。然而，抓取候选采样或两阶段策略的时间成本很高，生成抓取方法产生抓取姿势的逐像素预测，而不是对抓取候选对象进行采样和分类。为了实现更快、更轻量地抓取，引入一些先进技术来增强生成网络，如残差结构、注意力机制和transformer结构，然而，随着机器人融入日常生活，以上这些基于视觉的抓取方法互动性和灵活性有待进一步增强。

4、相较于传统基于视觉的抓取检测技术，机器人语言条件分割和抓取(roboticlanguage-conditioned segmentation and grasping)技术涉及自然语言处理和

5、综上，现有大多数语言条件分割方法仅考虑抓取的有效性，而忽略了视觉特征和语言特征的细粒度交互、视觉属性与抓取姿态的关联性以及外部知识库与分割和抓取检测的有效结合，导致目标误识别率高、抓取姿态方差大、参数回归不充分等问题。

技术实现思路

1、为了解决现有技术的不足，本专利技术提供了基于多源知识驱动的目标物体抓取方法及系统；一方面通过clip的隐式知识促进多模态特征的融合、交互和对齐，另一方面通过chatgpt的显示知识增强实体的语义信息，有效提高了语言条件分割和抓取检测的精度。

2、一方面，提供了基于多源知识驱动的目标物体抓取方法；

3、基于多源知识驱动的目标物体抓取方法，包括：

4、获取待抓取物体所处的场景图像以及待抓取物体的自然语言描述；

5、对场景图像和自然语言描述分别进行预处理；

6、将预处理后的场景图像和自然语言描述，均输入到训练后的图像分割模型中，输出待抓取物体的分割掩码；

7、基于待抓取物体的分割掩码，确定机器人的最佳抓握姿势；

8、基于最佳抓握姿势，确定机器人的操作位姿。

9、另一方面，提供了基于多源知识驱动的目标物体抓取系统；

10、基于多源知识驱动的目标物体抓取系统，包括：

11、获取模块，其被配置为：获取待抓取物体所处的场景图像以及待抓取物体的自然语言描述；

12、预处理模块，其被配置为：对场景图像和自然语言描述分别进行预处理；

13、分割模块，其被配置为：将预处理后的场景图像和自然语言描述，均输入到训练后的图像分割模型中，输出待抓取物体的分割掩码；

14、姿势确定模块，其被配置为：基于待抓取物体的分割掩码，确定机器人的最佳抓握姿势；

15、位姿确定模块，其被配置为：基于最佳抓握姿势，确定机器人的操作位姿。

16、再一方面，还提供了一种电子设备，包括：

17、存储器，用于非暂时性存储计算机可读指令；以及

18、处理器，用于运行所述计算机可读指令，

19、其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

20、再一方面，还提供了一种存储介质，非暂时性存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

21、再一方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

22、上述技术方案具有如下优点或有益效果：

23、针对现有专利技术存在的如下问题：(1)语言-视觉常识概念不齐，导致难以匹配指定目标；(2)文本实体语义信息不足，导致难以区分相似目标；(3)抓取姿态粗糙，导致混乱场景碰撞。本专利技术提出了一种融合隐式知识和显示知识的语言条件抓取的新型架构。首先利用clip隐式知识提高语言-目标对齐的能力。其次利用chatgpt的显示知识提高机器人对物品的认知能力。最后使用分割-抓取联合架构促进目标精准抓取。

24、本专利技术可有效提高语言-视觉的概念对齐能力，提高相似目标的区分能力，并增强混乱场景下目标的抓取精度和性能。本专利技术可有效地提高语言-视觉对齐的能力、语言实体的理解能力和抓取姿态的精细化程度，大大增加语言条件分割的精度和性能。通过clip的隐式知识促进多模态特征的融合、交互和对齐，通过chatgpt的显示知识增强实体的语义信息，有效提高了语言条件分割和抓取检测的精度。

本文档来自技高网...

【技术保护点】

1.基于多源知识驱动的目标物体抓取方法，其特征是，包括：

2.如权利要求1所述的基于多源知识驱动的目标物体抓取方法，其特征是，将预处理后的场景图像和自然语言描述，均输入到训练后的图像分割模型中，输出待抓取物体的分割掩码，其中，训练后的图像分割模型，网络结构包括：

3.如权利要求2所述的基于多源知识驱动的目标物体抓取方法，其特征是，训练后的图像分割模型，用于：

4.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法，其特征是，实体知识原型生成单元，将提示模版输入到ChatGPT中，输出关于名词的语言描述；提示模版，是指：寻找关于{对象的名词}的视觉信息，并将其概括为M个单词；CLIP文本编码器，从关于名词的视觉描述中提取词级特征；对词级特征依次进行平均池化处理和线性处理，得到原型表示；

5.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法，其特征是，细粒度融合解码器，将视觉编码器ResNet50输出的四种尺寸的特征图分别依次输入语言引导的目标调制模块LGOP进行目标解析，其中，四种尺寸的特征图，包括：第一特征图、第二特征

6.如权利要求5所述的基于多源知识驱动的目标物体抓取方法，其特征是，语言引导的目标调制模块LGOP，包括：

7.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法，其特征是，精细化解码器，用于使用1×1卷积、语言引导的目标调制模块LGOP和CIL模块来处理融合特征Fv获取精细化视觉特征Fs：

8.基于多源知识驱动的目标物体抓取系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

10.一种存储介质，其特征是，非暂时性存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。

...

【技术特征摘要】

1.基于多源知识驱动的目标物体抓取方法，其特征是，包括：

3.如权利要求2所述的基于多源知识驱动的目标物体抓取方法，其特征是，训练后的图像分割模型，用于：

4.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法，其特征是，实体知识原型生成单元，将提示模版输入到chatgpt中，输出关于名词的语言描述；提示模版，是指：寻找关于{对象的名词}的视觉信息，并将其概括为m个单词；clip文本编码器，从关于名词的视觉描述中提取词级特征；对词级特征依次进行平均池化处理和线性处理，得到原型表示；

5.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法，其特征是，细粒度融合解码器，将视觉编码器resnet50输出的四种尺寸的特征图分别依次输入语言引导的目标调制模块...

【专利技术属性】
技术研发人员：周风余，谢佳龙，牟珊珊，刘进，高鹤，王志祥，尹磊，苏大龙，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人