机械臂强化学习奖励确定方法及存储介质技术

技术编号：45220104 阅读：31 留言：0更新日期：2025-05-09 19:04

本申请提供了一种机械臂强化学习奖励确定方法及存储介质，其中，该方法包括：获取机械臂的当前任务数据；根据当前任务数据以及通用的视觉语言模型，确定当前任务数据对应的至少一个子目标序列以及子目标隐藏状态；根据前一时刻的各粒子的更新后子目标隐藏状态，确定非初始时刻的各粒子的子目标输入状态，并根据各粒子的子目标输入状态以及各粒子在非初始时刻的权重参数，确定非初始时刻的子目标完成状态；在当前决策时刻，根据当前决策时刻的子目标完成状态以及前一决策时刻的子目标完成状态，确定当前决策时刻的奖励结果。本申请能够隔离视觉语言模型感知误差与策略优化过程，降低对视觉语言模型在复杂场景理解层面的要求。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器人控制，具体而言，涉及一种机械臂强化学习奖励确定方法及存储介质。

技术介绍

1、近年来，基于视觉语言模型的研究逐渐兴起，并在机器人操作中获得了一定的应用。视觉语言模型(vision-language model，简称vlm)能够将视觉与语言信息进行联合编码，从而在理解场景语义、检测目标状态以及推断操作意图等方面发挥作用。在此基础上，不少研究尝试利用vlm为机器人操作任务提供反馈信号(例如：奖励信号和任务完成度)。

2、现有技术中可以利用vlm采取基于显式生成奖励函数的方法为机器人操作任务提供反馈信号，具体地，在机器人执行操作之前，从图像和任务描述中调用vlm显式地生成奖励函数，然后利用一小部分专家轨迹和随机策略轨迹对机器人操作任务进行修改。

3、但是，现有技术中的这种处理方式适用范围相对简单，对视觉信息的复杂度有一定要求，通常仅适用于目标明确或场景较为单一的任务，存在着环境感知准确度较低，以及对动态多变场景的适应性较差的问题。

技术实现思路

1、本申请...

【技术保护点】

1.一种机械臂强化学习奖励确定方法，其特征在于，包括：

2.根据权利要求1所述的机械臂强化学习奖励确定方法，其特征在于，所述根据所述当前任务数据以及通用的视觉语言模型，确定所述当前任务数据对应的至少一个子目标序列，包括：

3.根据权利要求1所述的机械臂强化学习奖励确定方法，其特征在于，所述根据各所述子目标序列以及所述视觉语言模型，确定子目标隐藏状态，包括：

4.根据权利要求3所述的机械臂强化学习奖励确定方法，其特征在于，所述根据所述视觉语言模型，对各所述子目标序列进行验证，得到各所述子目标序列对应的子目标完成状况，包括：