【技术实现步骤摘要】
本申请涉及机器人控制,具体而言,涉及一种机械臂强化学习奖励确定方法及存储介质。
技术介绍
1、近年来,基于视觉语言模型的研究逐渐兴起,并在机器人操作中获得了一定的应用。视觉语言模型(vision-language model,简称vlm)能够将视觉与语言信息进行联合编码,从而在理解场景语义、检测目标状态以及推断操作意图等方面发挥作用。在此基础上,不少研究尝试利用vlm为机器人操作任务提供反馈信号(例如:奖励信号和任务完成度)。
2、现有技术中可以利用vlm采取基于显式生成奖励函数的方法为机器人操作任务提供反馈信号,具体地,在机器人执行操作之前,从图像和任务描述中调用vlm显式地生成奖励函数,然后利用一小部分专家轨迹和随机策略轨迹对机器人操作任务进行修改。
3、但是,现有技术中的这种处理方式适用范围相对简单,对视觉信息的复杂度有一定要求,通常仅适用于目标明确或场景较为单一的任务,存在着环境感知准确度较低,以及对动态多变场景的适应性较差的问题。
技术实现思路
1、本申请
...【技术保护点】
1.一种机械臂强化学习奖励确定方法,其特征在于,包括:
2.根据权利要求1所述的机械臂强化学习奖励确定方法,其特征在于,所述根据所述当前任务数据以及通用的视觉语言模型,确定所述当前任务数据对应的至少一个子目标序列,包括:
3.根据权利要求1所述的机械臂强化学习奖励确定方法,其特征在于,所述根据各所述子目标序列以及所述视觉语言模型,确定子目标隐藏状态,包括:
4.根据权利要求3所述的机械臂强化学习奖励确定方法,其特征在于,所述根据所述视觉语言模型,对各所述子目标序列进行验证,得到各所述子目标序列对应的子目标完成状况,包括:
【技术特征摘要】
1.一种机械臂强化学习奖励确定方法,其特征在于,包括:
2.根据权利要求1所述的机械臂强化学习奖励确定方法,其特征在于,所述根据所述当前任务数据以及通用的视觉语言模型,确定所述当前任务数据对应的至少一个子目标序列,包括:
3.根据权利要求1所述的机械臂强化学习奖励确定方法,其特征在于,所述根据各所述子目标序列以及所述视觉语言模型,确定子目标隐藏状态,包括:
4.根据权利要求3所述的机械臂强化学习奖励确定方法,其特征在于,所述根据所述视觉语言模型,对各所述子目标序列进行验证,得到各所述子目标序列对应的子目标完成状况,包括:
5.根据权利要求1所述的机械臂强化学习奖励确定方法,其特征在于,所述子目标隐藏状态通过目标向量表示;
6.根据权利要求1所述的机械臂强化学习奖励确定方法,其特征在于,所述权重参数通过如下过程确定:
7.根据权利要求6...
【专利技术属性】
技术研发人员:赵一诺,徐志远,车正平,伍堃,唐剑,
申请(专利权)人:北京人形机器人创新中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。