当前位置: 首页 > 专利查询>复旦大学专利>正文

一种机器人目标物体抓取方法、系统、设备及存储介质技术方案

技术编号:39316803 阅读:8 留言:0更新日期:2023-11-12 15:59
本发明专利技术涉及一种机器人目标物体抓取方法,该方法包括:步骤S1、使用大语言模型来解析用户需求,生成针对目标物体的描述模版;步骤S2、将目标物体的描述模版输入至二维视觉定位网络,生成目标物体的二维定位,处理后得到目标物体点云数据;步骤S3、基于目标物体点云数据,采用类级别位姿和尺寸估计网络对目标物体的位姿进行估计;步骤S4、根据目标物体位姿估计结果引导机械臂进行目标物体抓取。与现有技术相比,本发明专利技术具有人机交互效果好、准确性高的优点。优点。优点。

【技术实现步骤摘要】
一种机器人目标物体抓取方法、系统、设备及存储介质


[0001]本专利技术涉及机器人抓取
,尤其是涉及一种机器人目标物体抓取方法、系统、设备及存储介质。

技术介绍

[0002]工业领域以及家用机器人领域,机器人目标物体抓取逐渐成为研究的重点。让机器人能够理解语言指令并相应地对视觉感知做出反应一直是机器人研究领域的一个长期目标。
[0003]经过检索,中国专利技术专利申请,公开号为CN113505806A,公开了一种机器人抓取检测方法,该方法采用图像识别方法进行目标物体识别机抓取,人机交互效果不好且识别准确性有待进一步提升。
[0004]因此,亟需设计一种人机交互能力强、识别准确性高的机器人目标物体抓取方法。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供了一种人机交互能力强、准确性高的机器人目标物体抓取方法、系统、设备及存储介质。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]根据本专利技术的第一方面,提供了一种机器人目标物体抓取方法,该方法包括:
[0008]步骤1、使用大语言模型来解析用户需求,生成针对目标物体描述模版;
[0009]步骤2、将目标物体描述模版输入至二维视觉定位网络,生成目标物体的二维定位,利用相机内参进行反投影处理后得到目标物体点云数据;
[0010]步骤3、基于目标物体点云数据,采用六自由度位姿和尺寸估计网络对目标物体的位姿进行估计;
[0011]步骤4、根据目标物体位姿估计结果引导机械臂进行目标物体抓取。
[0012]优选地,所述步骤1中使用大语言模型来解析用户需求,生成针对目标物体的描述模版,具体为:
[0013]首先,通过提示对ChatGPT的角色进行限定,并对机器人工作空间的环境和语义信息进行格式化定义,以及设定任务规则和限制性输出信息的描述;
[0014]然后,开始和用户进行多轮开方式词汇地交互对话,直至获悉用户的意图,输出用户所需物体的目标描述模版。
[0015]优选地,所述步骤2中将目标物体的描述模版输入至二维视觉定位网络,生成目标物体的二位定位,具体为:语音描述描述转化为文本描述,输入文本描述及场景图片至物体二维视觉定位网络生成目标物体的二维定位结果;所述二维定位采用边界框或者分割掩码表示。
[0016]优选地,所述步骤2中处理后得到目标物体点云数据,具体为:
[0017]得到物体边界框或者分割掩码后,相应地截取对应的深度图像,并通过相机内参
将这部分深度图片进行反向投影以获得当前区域内对应的三维点云数据,得到目标物体点云数据。
[0018]优选地,所述位姿和尺寸估计网络为类级别位姿和尺寸估计网络。
[0019]优选地,所述步骤3中采用六自由度位姿和尺寸估计网络对目标物体的位姿进行估计,具体为:
[0020]使用类级别位姿和尺寸估计网络SAR

Net,输入目标物体的类别和点云数据,提取物体的几何特征,估计目标物体在相机坐标系下的旋转和平移参数,得到目标物体位姿估计结果。
[0021]优选地,所述步骤4中根据目标物体位姿估计结果引导机械臂进行目标物体抓取,具体为:机械臂根据物体的类别生成预定义的类别抓取位姿,通过运动规划算法规划一条从当前夹爪姿态到目标抓取位姿的路径,并执行后完成抓取。
[0022]根据本专利技术的第二方面,提供了一种基于所述的机器人目标物体抓取方法的系统,包括:
[0023]场景图片获取部,用于采集场景RGB

D图像;
[0024]语言描述获取部,用于采集用户语音并将其转化为文本描述;
[0025]目标指令生成部,用于和用户进行多轮对话交互,获悉用户所需的目标物体,生成目标物体描述模版;
[0026]基于语言描述的物体定位部,用于根据目标物体描述模版从采集图像获取目标物体的二维定位,并利用相机内参进行反投影处理后得到目标物体点云数据;
[0027]物体位姿估计部,用于从目标物体点云中估计该物体在相机坐标系下的位姿;
[0028]机械臂抓取部,用于根据目标物体位姿估计结果引导机械臂进行目标物体抓取。
[0029]根据本专利技术的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现任一项所述的方法。
[0030]根据本专利技术的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。
[0031]与现有技术相比,本专利技术具有以下有益效果:
[0032]1)本专利技术提供了一种直接通过自然语言多轮对话引导机器人进行抓取的方法,该方法实现了语音到控制的人机交互系统,并具备较高的泛化能力,适用于各类物体,工业领域以及家用机器人领域具有实际应用价值,能够降低用户对机器人操控技术的要求。
[0033]2)本专利技术采用基于ChatGPT的的大语言模型,其应用场景支持多轮对话,可以根据已有环境,对解释系统,规则设定,对话输出模版等进行自定义约束,在多轮对话后得到特定格式的目标输出描,提高了语音控制的准确性。
[0034]3)本专利技术利用二维视觉定位模块根据大语言模型得到的语言描述对物体在图像平面中进行边界框定位以及分割掩码,为后面位姿估计提供基础,可以实现更为准确的视觉定位,提高了机器人目标物体抓取的精准性。
[0035]4)本专利技术的六自由度位姿和尺寸估计网络为类级别位姿和尺寸估计网络SAR

Net,输入该物体的类别和点云数据,网络能够提取物体的几何特征,来同时估计目标物体在相机坐标系下的旋转和平移,提高了位姿估计的精准性。
附图说明
[0036]图1为本专利技术的机器人目标物体抓取方法流程图;
[0037]图2为实施例中的机器人目标物体抓取方法流程图;
[0038]图3为实施例中机器人目标物体抓取方法的结构示意图;
[0039]图4为实施例中机器人目标物体抓取方法的任务示意图。
具体实施方式
[0040]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。
[0041]实施例
[0042]如图2和图3所示,本实施例提供了一种基于大型语言模型引导的机器人抓取的方法,该方法包括以下步骤:
[0043]步骤S1、使用大语言模型来解析用户需求,生成针对目标物体描述模版,具体为:首先,通过提示对ChatGPT的角色进行限定,并对机器人工作空间的环境和语义信息进行格式化定义,以及设定任务规则和限制性输出信息的描述;然后,开始和用户进行多轮开方式词汇地交互对话,直至获悉用户的意图,输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器人目标物体抓取方法,其特征在于,该方法包括:步骤1、使用大语言模型来解析用户需求,生成针对目标物体描述模版;步骤2、将目标物体描述模版输入至二维视觉定位网络,生成目标物体的二维定位,利用相机内参进行反投影处理后得到目标物体点云数据;步骤3、基于目标物体点云数据,采用六自由度位姿和尺寸估计网络对目标物体的位姿进行估计;步骤4、根据目标物体位姿估计结果引导机械臂进行目标物体抓取。2.根据权利要求1所述的一种基于大型语言模型引导的机器人目标物体抓取方法,其特征在于,所述步骤1中使用大语言模型来解析用户需求,生成针对目标物体的描述模版,具体为:首先,通过提示对ChatGPT的角色进行限定,并对机器人工作空间的环境和语义信息进行格式化定义,以及设定任务规则和限制性输出信息的描述;然后,开始和用户进行多轮开方式词汇地交互对话,直至获悉用户的意图,输出用户所需物体的目标描述模版。3.根据权利要求1所述的一种基于大型语言模型引导的机器人目标物体抓取方法,其特征在于,所述步骤2中将目标物体的描述模版输入至二维视觉定位网络,生成目标物体的二位定位,具体为:语音描述描述转化为文本描述,输入文本描述及场景图片至物体二维视觉定位网络生成目标物体的二维定位结果;所述二维定位采用边界框或者分割掩码表示。4.根据权利要求3所述的一种基于大型语言模型引导的机器人目标物体抓取方法,其特征在于,所述步骤2中处理后得到目标物体点云数据,具体为:得到物体边界框或者分割掩码后,相应地截取对应的深度图像,并通过相机内参将这部分深度图片进行反向投影以获得当前区域内对应的三维点云数据,得到目标物体点云数据。5.根据权利要求1所述的一种基于大型语言模型引导的机器人目标物体抓取方法,其特征在于,所述六自由度位姿和尺寸估计网络为类级别...

【专利技术属性】
技术研发人员:付彦伟林海涛李一帆王天宇
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1