一种基于深度强化学习的机械臂渐进式训练方法、存储介质和电子设备技术

技术编号：41874477 阅读：19 留言：0更新日期：2024-07-02 00:26

本发明专利技术公开了一种基于深度强化学习的机械臂渐进式训练方法、存储介质和电子设备,具体包括如下步骤：根据现实场景构建机械臂仿真工作环境，采用无模型算法完成渐进式训练系统的第一阶段训练任务；采用世界模型算法完成渐进式训练系统的第二阶段训练任务；采用训练后的无模型算法和用世界模型算法对机械臂进行具体的任务执行。本发明专利技术通过对复杂任务作分解，将工作空间由外向内分为粗操作区与精操作区，对机械臂的训练也据此按先后分为粗训练阶段和精训练阶段，通过结合了非端到端方式和端到端方式，系统中的训练方案在训练时间和训练精度上都优于单独采用无模型算法或世界模型算法，大大提升了机械臂训练效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视觉机械臂，尤其涉及一种基于深度强化学习的机械臂渐进式训练方法。

技术介绍

1、目前，深度强化学习技术已扩展到机械臂领域，然而深度强化学习方法在现实中的应用通常都是sim-to-real模式，即在仿真环境中训练机械臂，将训练结果反馈到现实中，最具代表性的如openai的魔方，但是这种应用模式并不能适用于所有现实场景。物体的视觉识别和操纵对于人类来说是一项相对简单的任务，但对于机械臂来说，这仍是一项非常具有挑战性的任务。基于此，研究人员也对sim-to-real模式提出了各种改进措施，如采取示教式强化学习方式，利用基于稀疏奖励的无模型算法，将人类演示和实际交互作为经验池数据，并用人类的任务演示取代了难以调整的奖励函数，可以完成指定任务。但受限于人类的能力，有些任务可能过于危险、繁琐或超出人类的能力范围，无法进行演示，导致其人力成本高，缺乏灵活性；再比如谷歌团队提出的世界模型算法是对智能体所交互的环境进行建模，学习环境的压缩空间和时间表示，通过从模型中提取的特征作为智能体的输入，可以训练一个紧凑和简单的策略来解决所需的任务，机械臂在现实中采集数据来训练更新网络，训练效果优于无模型算法，但其训练时间过长，且训练时采用多个真实机械臂同时进行，导致其成本过高，不宜在现实中推广。

2、深度强化学习可分为非端到端的训练方式和端到端的训练方式。非端到端的训练方式，通常需要人工对原始数据进行特征提取预处理，利用提取到的非图像特征信息进行训练，如以坐标信息作为输入进行训练，可以减少训练所需的步数，从而缩短了机械臂的训练时间

技术实现思路

1、本专利技术的目的是提供一种基于深度强化学习的机械臂渐进式训练方法、存储介质和电子设备，能够提高机械臂训练过程中训练效果，且缩短训练时间。

2、本专利技术采用的技术方案为：

3、一种基于深度强化学习的机械臂渐进式训练方法，其步骤如下：

4、步骤1：根据现实场景构建机械臂仿真工作环境，具体的：

5、步骤1.1：参照现实场景在仿真环境中选择机械臂的类型、所需的机械臂末端夹爪和待放置零件；在机械臂周围放置多个相机，获取机械臂多视角图像；

6、步骤1.2：通过对仿真系统的校准保证仿真工作环境与现实场景一致；

7、步骤1.3：以预设的抓放目标点为球心的球形工作空间由外向内分为粗操作区与精操作区，其中球心处为精操作区,然后根据粗操作区与精操作区确定机械臂需要的动作数量以及动作执行的范围；

8、步骤1.4：其中机械臂的放置方向的训练为第一阶段训练任务即粗训练阶段，而机械臂放置方向确定后继续完成复杂放置任务的训练为第二阶段训练任务即精训练阶段，针对粗训练阶段和精训练阶段分别设定具体的任务奖励函数；

9、步骤1.5：随机执行数轮动作，得到相应的反馈；

10、步骤2：采用无模型算法完成渐进式训练系统的第一阶段训练任务；

11、步骤3：采用世界模型算法完成渐进式训练系统的第二阶段训练任务；

12、步骤4：采用训练后的无模型算法和用世界模型算法对机械臂进行具体的任务执行。

13、所述的步骤2具体包括如下步骤：

14、步骤2.1：在训练第一阶段训练任务模型时，首先使用优先经验回放选取样本，并暂时存储这一批样本；

15、步骤2.2：采用无模型算法中的ac架构网络模型对上面一批样本中任意一个进行训练；

16、步骤2.3：更新第一阶段训练中的ac架构网络模型的参数；

17、步骤2.4：观察回报函数是否收敛，若未收敛，则继续重复步骤2.3进行下一个样本迭代训练，若收敛，则机械臂末端夹爪到达待放置范围，进入下一个训练阶段。

18、所述的步骤3具体包括如下步骤：

19、步骤3.1：机械臂在待放置范围内执行数回合随机动作，采集对应步数轨迹，填充至经验池；

20、步骤3.2：从经验池中随机选取一段连续的轨迹序列，用于训练世界模型中的参数；

21、步骤3.3：利用世界模型预测器中的网络模型来推测未来的奖励值，并更新第二阶段训练中世界模型规划器中的ac网络模型参数；

22、步骤3.4：机械臂利用世界模型中的隐藏变量选出动作并和环境进行交互，继续填充经验池；

23、步骤3.5：观察回报函数是否收敛，若未收敛，则继续迭代训练，若收敛，则可将算法用于机械臂的具体任务中。

24、步骤3.2中的从数据集中随机选取一段连续的轨迹序列，包括机械臂末端夹爪和目标物体组成的局部场景图像，以更多地保留图像中有用信息，图像经过编码器后压缩为隐藏变量，与世界模型的隐藏变量融合后，会让世界模型隐藏变量学习并表示三维状态压缩信息。

25、所述的步骤1.4中训练系统的粗训练阶段的奖励函数公式如下：

26、

27、其中，dist[0]和dist[1]是末端夹爪中心点到目标物体中心点的下x，y方向的距离；

28、训练系统的精训练阶段奖励函数分为三部分，接近奖励rreach，抓起奖励rgrap和举起奖励rlift，其中抓起奖励和举起奖励分别为{0，0.25}和{0，1}，接近奖励rreach计算公式如下：

29、rreach＝(1-tanh(10*d)) (2)

30、其中，d是末端夹爪中心与目标物体中心点的欧式距离，tanh是双曲正切函数。

31、一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，使所述计算机可读存储介质所在设备执行如上所述的基于深度强化学习的机械臂渐进式训练方法。

32、一种电子设备，包括：存储器和处理器，所述存储器上存储有可在所述处理器上运行的程序，所述处理器执行所述程序时实现如上所述的基于深度强化学习的机械臂渐进式训练方法。

33、本专利技术通过以预设的抓放目标点为球心的球形工作空间由外向内分为粗操作区与本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的机械臂渐进式训练方法，其特征在于：

2.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法，其特征在于：所述的步骤2具体包括如下步骤：

3.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法，其特征在于：所述的步骤3具体包括如下步骤：

4.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法，其特征在于：步骤3.2中的从数据集中随机选取一段连续的轨迹序列，包括机械臂末端夹爪和目标物体组成的局部场景图像，以更多地保留图像中有用信息，图像经过编码器后压缩为隐藏变量，与世界模型的隐藏变量融合后，会让世界模型隐藏变量学习并表示三维状态压缩信息。

5.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法，其特征在于：所述的步骤1.4中训练系统的粗训练阶段的奖励函数公式如下：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时，使所述计算机可读存储介质所在设备执行权利要求1-5任意一项所述的基于深度强化学习的机械臂渐进式训练方法。

...

【技术特征摘要】

1.一种基于深度强化学习的机械臂渐进式训练方法，其特征在于：

2.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法，其特征在于：所述的步骤2具体包括如下步骤：

3.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法，其特征在于：所述的步骤3具体包括如下步骤：

4.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法，其特征在于：步骤3.2中的从数据集中随机选取一段连续的轨迹序列，包括机械臂末端夹爪和目标物体组成的局部场景图像，以更多地保留图像中有用信息，图像经过编码器后压缩为隐藏变量，与世界模型的隐藏变量融合后，会让世界模型隐藏变...

【专利技术属性】
技术研发人员：王赞，陈慧彬，连晨轩，董孟豪，吴俊霆，万富瑞，喻方，胡淏泓，孙龙辉，陈立家，
申请(专利权)人：河南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人