一种基于大模型的双臂操作任务学习方法和系统技术方案

技术编号：40667631 阅读：2 留言：0更新日期：2024-03-18 19:02

本发明专利技术公开了一种基于大模型的双臂操作任务学习方法和系统，属于神经网络学习以及机器人技术领域。该方法包括，接收用于双臂操作的任务环境图和任务描述信息，将任务环境图和任务描述信息输入视觉语言大模型，分解为多个子任务；根据每个子任务对应的任务描述信息、任务感知空间信息和动作空间信息确定奖励函数，并基于强化学习模型进行训练，以构建相应的子任务模型，子任务模型分别用于完成各个子任务；根据多个子任务的操作顺序，依次调用多个子任务模型以执行双臂操作，并采集双臂轨迹数据集，通过模仿学习算法对双臂轨迹数据集进行学习，得到双臂操作策略。本发明专利技术实现了复杂双臂操作任务的学习，提高了操作策略的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及神经网络学习以及机器人，尤其涉及一种基于大模型的双臂操作任务学习方法和系统。

技术介绍

1、近年来，随着人工智能的快速发展，机器人在各种不同任务都逐渐表现出卓越的能力，能够完成不同的操作任务。传统技术主要集中在单臂机器人，但单臂机器人在日常生活的使用中有较大的限制，双臂机器人具有更高的灵巧度和工作空间，能实现更精细、鲁棒的操作，能更好地完成不同的任务，例如，为了平稳提起一个沉重的桶，需要两个机械臂分别抓住桶的两侧上缘，并朝同一个方向移动；而为了逆时针旋转一个显示器，需要一个机械臂向下支撑显示器，另一个机械臂施加力使其旋转。虽然现有技术针对不同的任务进行了不同的设计，在不同的双臂操作任务(如铰接物体的操作)上能达到较好的表现，但日常生活中存在非常多的任务，针对单个任务的学习方法无法适用于所有任务，且需要人工花费大量的时间去设计方法、网络结构等，不具备普适性。

2、现有技术通过大语言模型自进化来设计强化学习需要的奖励函数，促进对不同机器人任务的学习，但仅仅以任务目标为导向的奖励函数设计无法使机器人学习得出人的行为。以两只手抬起锅具为例，现有算法学习得出的结果是两只手顶起锅具，而不是抓取锅两边的把手并且向上抬起。因此传统的策略是不鲁棒的，在真实世界的执行中存在安全问题，并且现有算法在较为复杂的任务上依然无法学习得出较好的结果。

技术实现思路

1、为了解决现有技术中复杂双臂任务和接近人类的操作策略的学习问题，本专利技术提供了如下技术方案。

2、本专利技

3、接收用于双臂操作的任务环境图和任务描述信息，将所述任务环境图和任务描述信息输入视觉语言大模型，分解为多个子任务；

4、根据每个子任务对应的任务描述信息、任务感知空间信息和动作空间信息确定奖励函数，并基于强化学习模型进行训练，以构建相应的子任务模型，所述子任务模型分别用于完成各个子任务；

5、根据多个子任务的操作顺序，依次调用多个子任务模型以执行双臂操作，并采集双臂轨迹数据集，通过模仿学习算法对所述双臂轨迹数据集进行学习，得到双臂操作策略。

6、优选地，所述的任务感知空间信息包含机器人关节角度、机器人关节角速度和/或物体姿态等，所述动作空间信息包含运动范围和/或维度等。

7、优选地，所述确定奖励函数，进一步包括：

8、将每个子任务对应的任务描述信息、任务感知空间信息和动作空间信息输入到基于大语言模型的奖励函数设计框架，利用该框架创建该子任务对应的奖励函数。

9、优选地，所述构建相应的子任务模型，进一步包括：

10、在对当前子任务训练完成后，收集当前子任务的结束状态，作为下一子任务的初始状态，按照相同步骤继续对下一子任务进行训练，依次迭代，直至所有子任务训练完毕。

11、本专利技术在第二方面提供了一种基于大模型的双臂操作任务学习系统，包括：

12、任务分解模块，用于接收用于双臂操作的任务环境图和任务描述信息，将所述任务环境图和任务描述信息输入视觉语言大模型，分解为多个子任务；

13、子任务训练模块，用于根据每个子任务对应的任务描述信息、任务感知空间信息和动作空间信息确定奖励函数，并基于强化学习模型进行训练，以构建相应的子任务模型，所述子任务模型分别用于完成各个子任务；

14、子任务耦合模块，用于根据多个子任务的操作顺序，依次调用多个子任务模型以执行双臂操作，并采集双臂轨迹数据集，通过模仿学习算法对所述双臂轨迹数据集进行学习，得到双臂操作策略。

15、本专利技术第三方面提供了一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行前述第一方面的方法。

16、本专利技术第四方面提供了一种存储介质，所述存储介质存储有多条指令，所述多条指令可被处理器读取并执行前述第一方面的方法。

17、本专利技术的有益效果是：

18、本专利技术的基于大模型的双臂操作任务学习方法通过视觉语言大模型的能力，对复杂或长程的双臂任务进行分解，降低了直接学习该类问题的难度，实现对任意双臂操作任务的学习，提供了与人类执行对应任务时相同的操作习惯描述，使奖励函数设计出更符合人类习惯的、更鲁棒的操作策略。通过构建成功轨迹数据集并利用模仿学习的方法，实现了不同子任务之间的衔接。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的双臂操作任务学习方法，其特征在于，包括：

2.根据权利要求1所述的基于大模型的双臂操作任务学习方法，其特征在于，所述任务感知空间信息为机器人关节角度、机器人关节角速度和/或物体姿态，所述动作空间信息为运动范围和/或维度。

3.根据权利要求1所述的基于大模型的双臂操作任务学习方法，其特征在于，所述确定奖励函数，进一步包括：

4.根据权利要求1所述的基于大模型的双臂操作任务学习方法，其特征在于，所述构建相应的子任务模型，进一步包括：

5.一种基于大模型的双臂操作任务学习系统，其特征在于，包括：

6.根据权利要求5所述的基于大模型的双臂操作任务学习系统，其特征在于，所述任务感知空间信息为机器人关节角度、机器人关节角速度和/或物体姿态，所述动作空间信息为运动范围和/或维度。

7.根据权利要求5所述的基于大模型的双臂操作任务学习系统，其特征在于，所述子任务训练模块，进一步用于：

8.根据权利要求5所述的基于大模型的双臂操作任务学习系统，其特征在于，所述子任务训练模块，进一步用于：

...

【技术特征摘要】

1.一种基于大模型的双臂操作任务学习方法，其特征在于，包括：

3.根据权利要求1所述的基于大模型的双臂操作任务学习方法，其特征在于，所述确定奖励函数，进一步包括：

4.根据权利要求1所述的基于大模型的双臂操作任务学习方法，其特征在于，所述构建相应的子任务模型，进一步包括：

5.一种基于大模型的双臂操作任务学习系统，其特征在于，包括：

6.根据权利要求5所述的基于大模型的双臂操作任务学习系统，其特征在于，所述任务感知空间信息为机...

【专利技术属性】
技术研发人员：吴天昊，
申请(专利权)人：北京智源人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人