【技术实现步骤摘要】
本专利技术涉及人工智能与机器人领域,特别是涉及一种使用大型语言模型的机器臂抓握姿态决策的方法。
技术介绍
1、面向任务的抓取(task-oriented grasping,简称tog)是机器人领域研究的热门问题。在早期的机器人抓取研究中,主要采用分析方法,通过分析物品的几何形状,专注于抓握物品姿态的稳定性,而非物品本身。因此,这些分析方法在面对全新的物品时,往往无法有效地做出抓握姿态。
2、随着技术的发展,具有触觉感应功能的仿人类机器人抓取控制技术逐渐出现。这类抓取控制技术虽然解决了部分稳定性问题,但仍然忽略了物品的具体特性。
3、近年来,随着计算能力的提升和深度学习在图像领域的快速发展,数据驱动的基于深度学习的机器人抓取姿态预测逐渐成为主流。通过对大规模数据集进行预训练,机器人可以利用rgb图像信息或点云信息对部分之前未见过的物品进行有效抓取。
4、现有技术在机器人抓取方面仍然存在以下几个主要缺陷和不足:
5、1、泛化能力不足
6、在部分场景中,摆放杂乱的物品可能包括一些没有
...【技术保护点】
1.一种使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,在步骤A中,所述场景语义分割模块使用SAM基础模型进行照片中物品实例的分割,将真实世界的RGB照片输入至SAM基础模型得到掩码,根据掩码的像素数量进行筛选,得到照片中潜在物品实例的掩码,掩码的长宽同原本输入图片长宽,同时得到掩码所在原图中的像素坐标。
3.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,在步骤B中,将掩码与原本的照片进行相交计算,保留照片中与掩
...【技术特征摘要】
1.一种使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,在步骤a中,所述场景语义分割模块使用sam基础模型进行照片中物品实例的分割,将真实世界的rgb照片输入至sam基础模型得到掩码,根据掩码的像素数量进行筛选,得到照片中潜在物品实例的掩码,掩码的长宽同原本输入图片长宽,同时得到掩码所在原图中的像素坐标。
3.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,在步骤b中,将掩码与原本的照片进行相交计算,保留照片中与掩码相交的部分,将每个掩码与照片进行一次计算,得到所有掩码对应照片中的部分,即物品的实例图像。
4.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法,其特征在于,所述物体识别模块使用clip多模态基础模型进行物体实例图像的识别,将一组图像和一组文本映射到同一空间进行相似度的计算,从而得到clip多模态基础模型认为的与实例图像最相近...
【专利技术属性】
技术研发人员:封启纪,贺亮,马延,
申请(专利权)人:江苏云幕智造科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。