当前位置: 首页 > 专利查询>山东大学专利>正文

基于多源知识驱动的目标物体抓取方法及系统技术方案

技术编号:41379464 阅读:13 留言:0更新日期:2024-05-20 10:21
本发明专利技术公开了基于多源知识驱动的目标物体抓取方法及系统,其中方法,包括:获取待抓取物体所处的场景图像以及待抓取物体的自然语言描述;对场景图像和自然语言描述分别进行预处理;将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码;基于待抓取物体的分割掩码,确定机器人的最佳抓握姿势;基于最佳抓握姿势,确定机器人的操作位姿。一方面通过CLIP的隐式知识促进多模态特征的融合、交互和对齐,另一方面通过ChatGPT的显示知识增强实体的语义信息,有效提高了语言条件分割和抓取检测的精度。

【技术实现步骤摘要】

本专利技术涉及目标物体抓取,特别是涉及基于多源知识驱动的目标物体抓取方法及系统


技术介绍

1、本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。

2、随着机器人技术的快速发展,赋予机器人理解自然语言和执行相关任务(如导航、操纵)的能力已成为机器人学的一个重要研究热点。语言条件分割和抓取检测的目的是使机器人能够通过理解自由形式的自然语言(如空间关系、外观、颜色)来感知和划分特定的物体,从而鲁棒地完成抓取任务。由于人机交互中自然语言表达和对象属性的复杂性和多样性,该任务比实际应用中基于视觉的抓取检测和闭集分割更具挑战性。此外,杂乱的场景和遮挡的物体进一步增加了描述与目标匹配的难度以及抓取的精细化要求。

3、基于视觉的抓取是机器人操作的一项基本技能,近年来取得了显著的成功。许多研究人员设计了基于深度学习的方法来对抓取矩形进行采样或回归,这降低了手工设计特征方法的复杂性。然而,抓取候选采样或两阶段策略的时间成本很高,生成抓取方法产生抓取姿势的逐像素预测,而不是对抓取候选对象进行采样和分类。为了实现更快、更轻量地抓取本文档来自技高网...

【技术保护点】

1.基于多源知识驱动的目标物体抓取方法,其特征是,包括:

2.如权利要求1所述的基于多源知识驱动的目标物体抓取方法,其特征是,将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码,其中,训练后的图像分割模型,网络结构包括:

3.如权利要求2所述的基于多源知识驱动的目标物体抓取方法,其特征是,训练后的图像分割模型,用于:

4.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法,其特征是,实体知识原型生成单元,将提示模版输入到ChatGPT中,输出关于名词的语言描述;提示模版,是指:寻找关于{对象的名词}的视觉...

【技术特征摘要】

1.基于多源知识驱动的目标物体抓取方法,其特征是,包括:

2.如权利要求1所述的基于多源知识驱动的目标物体抓取方法,其特征是,将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码,其中,训练后的图像分割模型,网络结构包括:

3.如权利要求2所述的基于多源知识驱动的目标物体抓取方法,其特征是,训练后的图像分割模型,用于:

4.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法,其特征是,实体知识原型生成单元,将提示模版输入到chatgpt中,输出关于名词的语言描述;提示模版,是指:寻找关于{对象的名词}的视觉信息,并将其概括为m个单词;clip文本编码器,从关于名词的视觉描述中提取词级特征;对词级特征依次进行平均池化处理和线性处理,得到原型表示;

5.如权利要求2或3所述的基于多源知识驱动的目标物体抓取方法,其特征是,细粒度融合解码器,将视觉编码器resnet50输出的四种尺寸的特征图分别依次输入语言引导的目标调制模块...

【专利技术属性】
技术研发人员:周风余谢佳龙牟珊珊刘进高鹤王志祥尹磊苏大龙
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1