System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多源知识驱动的目标物体抓取方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>山东大学专利>正文

基于多源知识驱动的目标物体抓取方法及系统技术方案

技术编号:41379464 阅读:12 留言:0更新日期:2024-05-20 10:21
本发明专利技术公开了基于多源知识驱动的目标物体抓取方法及系统,其中方法,包括:获取待抓取物体所处的场景图像以及待抓取物体的自然语言描述;对场景图像和自然语言描述分别进行预处理;将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码;基于待抓取物体的分割掩码,确定机器人的最佳抓握姿势;基于最佳抓握姿势,确定机器人的操作位姿。一方面通过CLIP的隐式知识促进多模态特征的融合、交互和对齐,另一方面通过ChatGPT的显示知识增强实体的语义信息,有效提高了语言条件分割和抓取检测的精度。

【技术实现步骤摘要】

本专利技术涉及目标物体抓取,特别是涉及基于多源知识驱动的目标物体抓取方法及系统


技术介绍

1、本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。

2、随着机器人技术的快速发展,赋予机器人理解自然语言和执行相关任务(如导航、操纵)的能力已成为机器人学的一个重要研究热点。语言条件分割和抓取检测的目的是使机器人能够通过理解自由形式的自然语言(如空间关系、外观、颜色)来感知和划分特定的物体,从而鲁棒地完成抓取任务。由于人机交互中自然语言表达和对象属性的复杂性和多样性,该任务比实际应用中基于视觉的抓取检测和闭集分割更具挑战性。此外,杂乱的场景和遮挡的物体进一步增加了描述与目标匹配的难度以及抓取的精细化要求。

3、基于视觉的抓取是机器人操作的一项基本技能,近年来取得了显著的成功。许多研究人员设计了基于深度学习的方法来对抓取矩形进行采样或回归,这降低了手工设计特征方法的复杂性。然而,抓取候选采样或两阶段策略的时间成本很高,生成抓取方法产生抓取姿势的逐像素预测,而不是对抓取候选对象进行采样和分类。为了实现更快、更轻量地抓取,引入一些先进技术来增强生成网络,如残差结构、注意力机制和transformer结构,然而,随着机器人融入日常生活,以上这些基于视觉的抓取方法互动性和灵活性有待进一步增强。

4、相较于传统基于视觉的抓取检测技术,机器人语言条件分割和抓取(roboticlanguage-conditioned segmentation and grasping)技术涉及自然语言处理和计算机视觉两大领域。在以人为中心的环境中,语言条件抓取起着至关重要的作用。使用对象检索方法来推断目标,该方法可以匹配语言和预处理的对象建议区域。然而,准确的建议区域生成是一个困难的先验条件,会导致级联错误,语言和视觉模式的理解和对齐需要大量的图像文本数据和网络参数。clip从庞大的训练数据集中学习到足够的常识性图像文本知识,并被广泛应用于机器人操作。部分研究者探索了将大型预训练模型用于面向任务的抓取预测任务,如用于机器人抓取的graspclip和cros算法,用于机器人操作的cliport算法,用于分割的cris算法。但上述方法缺少对语言和视觉概念的能力,导致文本特征和视觉特征难以对齐、描述相关的视觉信息难以捕获的问题。此外,忽略了物体视觉属性对抓取检测的重要性,导致抓取姿态方差大,参数回归不充分的问题。

5、综上,现有大多数语言条件分割方法仅考虑抓取的有效性,而忽略了视觉特征和语言特征的细粒度交互、视觉属性与抓取姿态的关联性以及外部知识库与分割和抓取检测的有效结合,导致目标误识别率高、抓取姿态方差大、参数回归不充分等问题。


技术实现思路

1、为了解决现有技术的不足,本专利技术提供了基于多源知识驱动的目标物体抓取方法及系统;一方面通过clip的隐式知识促进多模态特征的融合、交互和对齐,另一方面通过chatgpt的显示知识增强实体的语义信息,有效提高了语言条件分割和抓取检测的精度。

2、一方面,提供了基于多源知识驱动的目标物体抓取方法;

3、基于多源知识驱动的目标物体抓取方法,包括:

4、获取待抓取物体所处的场景图像以及待抓取物体的自然语言描述;

5、对场景图像和自然语言描述分别进行预处理;

6、将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码;

7、基于待抓取物体的分割掩码,确定机器人的最佳抓握姿势;

8、基于最佳抓握姿势,确定机器人的操作位姿。

9、另一方面,提供了基于多源知识驱动的目标物体抓取系统;

10、基于多源知识驱动的目标物体抓取系统,包括:

11、获取模块,其被配置为:获取待抓取物体所处的场景图像以及待抓取物体的自然语言描述;

12、预处理模块,其被配置为:对场景图像和自然语言描述分别进行预处理;

13、分割模块,其被配置为:将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码;

14、姿势确定模块,其被配置为:基于待抓取物体的分割掩码,确定机器人的最佳抓握姿势;

15、位姿确定模块,其被配置为:基于最佳抓握姿势,确定机器人的操作位姿。

16、再一方面,还提供了一种电子设备,包括:

17、存储器,用于非暂时性存储计算机可读指令;以及

18、处理器,用于运行所述计算机可读指令,

19、其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。

20、再一方面,还提供了一种存储介质,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。

21、再一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

22、上述技术方案具有如下优点或有益效果:

23、针对现有专利技术存在的如下问题:(1)语言-视觉常识概念不齐,导致难以匹配指定目标;(2)文本实体语义信息不足,导致难以区分相似目标;(3)抓取姿态粗糙,导致混乱场景碰撞。本专利技术提出了一种融合隐式知识和显示知识的语言条件抓取的新型架构。首先利用clip隐式知识提高语言-目标对齐的能力。其次利用chatgpt的显示知识提高机器人对物品的认知能力。最后使用分割-抓取联合架构促进目标精准抓取。

24、本专利技术可有效提高语言-视觉的概念对齐能力,提高相似目标的区分能力,并增强混乱场景下目标的抓取精度和性能。本专利技术可有效地提高语言-视觉对齐的能力、语言实体的理解能力和抓取姿态的精细化程度,大大增加语言条件分割的精度和性能。通过clip的隐式知识促进多模态特征的融合、交互和对齐,通过chatgpt的显示知识增强实体的语义信息,有效提高了语言条件分割和抓取检测的精度。

本文档来自技高网...

【技术保护点】

1.基于多源知识驱动的目标物体抓取方法,其特征是,包括:

2.如权利要求1所述的基于多源知识驱动的目标物体抓取方法,其特征是,将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码,其中,训练后的图像分割模型,网络结构包括:

3.如权利要求2所述的基于多源知识驱动的目标物体抓取方法,其特征是,训练后的图像分割模型,用于:

4.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法,其特征是,实体知识原型生成单元,将提示模版输入到ChatGPT中,输出关于名词的语言描述;提示模版,是指:寻找关于{对象的名词}的视觉信息,并将其概括为M个单词;CLIP文本编码器,从关于名词的视觉描述中提取词级特征;对词级特征依次进行平均池化处理和线性处理,得到原型表示;

5.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法,其特征是,细粒度融合解码器,将视觉编码器ResNet50输出的四种尺寸的特征图分别依次输入语言引导的目标调制模块LGOP进行目标解析,其中,四种尺寸的特征图,包括:第一特征图、第二特征图、第三特征图和第四特征图;其中,第四特征图,是ResNet50的Conv2_x输出的;第三特征图,是ResNet50的Conv3_x输出的;第二特征图,是ResNet50的Conv4_x输出的;第一特征图,是ResNet50的Conv5_x输出的;

6.如权利要求5所述的基于多源知识驱动的目标物体抓取方法,其特征是,语言引导的目标调制模块LGOP,包括:

7.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法,其特征是,精细化解码器,用于使用1×1卷积、语言引导的目标调制模块LGOP和CIL模块来处理融合特征Fv获取精细化视觉特征Fs:

8.基于多源知识驱动的目标物体抓取系统,其特征是,包括:

9.一种电子设备,其特征是,包括:

10.一种存储介质,其特征是,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。

...

【技术特征摘要】

1.基于多源知识驱动的目标物体抓取方法,其特征是,包括:

2.如权利要求1所述的基于多源知识驱动的目标物体抓取方法,其特征是,将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码,其中,训练后的图像分割模型,网络结构包括:

3.如权利要求2所述的基于多源知识驱动的目标物体抓取方法,其特征是,训练后的图像分割模型,用于:

4.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法,其特征是,实体知识原型生成单元,将提示模版输入到chatgpt中,输出关于名词的语言描述;提示模版,是指:寻找关于{对象的名词}的视觉信息,并将其概括为m个单词;clip文本编码器,从关于名词的视觉描述中提取词级特征;对词级特征依次进行平均池化处理和线性处理,得到原型表示;

5.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法,其特征是,细粒度融合解码器,将视觉编码器resnet50输出的四种尺寸的特征图分别依次输入语言引导的目标调制模块...

【专利技术属性】
技术研发人员:周风余谢佳龙牟珊珊刘进高鹤王志祥尹磊苏大龙
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1