一种使用大型语言模型的机器臂抓握姿态决策的方法技术

技术编号:42197114 阅读:55 留言:0更新日期:2024-07-30 18:44
本发明专利技术公开了一种使用大型语言模型的机器臂抓握姿态决策的方法,包括以下步骤:通过场景语义分割模块对真实世界的照片进行分割,得到场景中潜在的物品实例位置的掩码,将掩码与原本的照片进行相交计算,得到照片中物品的实例图像并输入物体识别模块,得到实例图像中物品实例的可能的种类名称以及该物品是该种类的种类概率,将可能的种类名称、种类概率和用户需求一同输入到大型语言模型决策模块,得到决策的物品种类,将决策的物品种类对应掩码的坐标,输入到抓握姿态生成模块中,根据输入的掩码的坐标对所有抓握姿态的像素坐标进行筛选,按照距离最近选择,得到距离输入的掩码的坐标最近的抓握姿态,提升了系统的灵活性和适应性。

【技术实现步骤摘要】

本专利技术涉及人工智能与机器人领域,特别是涉及一种使用大型语言模型的机器臂抓握姿态决策的方法


技术介绍

1、面向任务的抓取(task-oriented grasping,简称tog)是机器人领域研究的热门问题。在早期的机器人抓取研究中,主要采用分析方法,通过分析物品的几何形状,专注于抓握物品姿态的稳定性,而非物品本身。因此,这些分析方法在面对全新的物品时,往往无法有效地做出抓握姿态。

2、随着技术的发展,具有触觉感应功能的仿人类机器人抓取控制技术逐渐出现。这类抓取控制技术虽然解决了部分稳定性问题,但仍然忽略了物品的具体特性。

3、近年来,随着计算能力的提升和深度学习在图像领域的快速发展,数据驱动的基于深度学习的机器人抓取姿态预测逐渐成为主流。通过对大规模数据集进行预训练,机器人可以利用rgb图像信息或点云信息对部分之前未见过的物品进行有效抓取。

4、现有技术在机器人抓取方面仍然存在以下几个主要缺陷和不足:

5、1、泛化能力不足

6、在部分场景中,摆放杂乱的物品可能包括一些没有先验知识的物品,这对本文档来自技高网...

【技术保护点】

1.一种使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,在步骤A中,所述场景语义分割模块使用SAM基础模型进行照片中物品实例的分割,将真实世界的RGB照片输入至SAM基础模型得到掩码,根据掩码的像素数量进行筛选,得到照片中潜在物品实例的掩码,掩码的长宽同原本输入图片长宽,同时得到掩码所在原图中的像素坐标。

3.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,在步骤B中,将掩码与原本的照片进行相交计算,保留照片中与掩码相交的部分,将每个...

【技术特征摘要】

1.一种使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,在步骤a中,所述场景语义分割模块使用sam基础模型进行照片中物品实例的分割,将真实世界的rgb照片输入至sam基础模型得到掩码,根据掩码的像素数量进行筛选,得到照片中潜在物品实例的掩码,掩码的长宽同原本输入图片长宽,同时得到掩码所在原图中的像素坐标。

3.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,在步骤b中,将掩码与原本的照片进行相交计算,保留照片中与掩码相交的部分,将每个掩码与照片进行一次计算,得到所有掩码对应照片中的部分,即物品的实例图像。

4.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,所述物体识别模块使用clip多模态基础模型进行物体实例图像的识别,将一组图像和一组文本映射到同一空间进行相似度的计算,从而得到clip多模态基础模型认为的与实例图像最相近...

【专利技术属性】
技术研发人员:封启纪贺亮马延
申请(专利权)人:江苏云幕智造科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1