System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的机械臂渐进式训练方法、存储介质和电子设备技术_技高网
当前位置: 首页 > 专利查询>河南大学专利>正文

一种基于深度强化学习的机械臂渐进式训练方法、存储介质和电子设备技术

技术编号:41874477 阅读:19 留言:0更新日期:2024-07-02 00:26
本发明专利技术公开了一种基于深度强化学习的机械臂渐进式训练方法、存储介质和电子设备,具体包括如下步骤:根据现实场景构建机械臂仿真工作环境,采用无模型算法完成渐进式训练系统的第一阶段训练任务;采用世界模型算法完成渐进式训练系统的第二阶段训练任务;采用训练后的无模型算法和用世界模型算法对机械臂进行具体的任务执行。本发明专利技术通过对复杂任务作分解,将工作空间由外向内分为粗操作区与精操作区,对机械臂的训练也据此按先后分为粗训练阶段和精训练阶段,通过结合了非端到端方式和端到端方式,系统中的训练方案在训练时间和训练精度上都优于单独采用无模型算法或世界模型算法,大大提升了机械臂训练效率。

【技术实现步骤摘要】

本专利技术涉及视觉机械臂,尤其涉及一种基于深度强化学习的机械臂渐进式训练方法。


技术介绍

1、目前,深度强化学习技术已扩展到机械臂领域,然而深度强化学习方法在现实中的应用通常都是sim-to-real模式,即在仿真环境中训练机械臂,将训练结果反馈到现实中,最具代表性的如openai的魔方,但是这种应用模式并不能适用于所有现实场景。物体的视觉识别和操纵对于人类来说是一项相对简单的任务,但对于机械臂来说,这仍是一项非常具有挑战性的任务。基于此,研究人员也对sim-to-real模式提出了各种改进措施,如采取示教式强化学习方式,利用基于稀疏奖励的无模型算法,将人类演示和实际交互作为经验池数据,并用人类的任务演示取代了难以调整的奖励函数,可以完成指定任务。但受限于人类的能力,有些任务可能过于危险、繁琐或超出人类的能力范围,无法进行演示,导致其人力成本高,缺乏灵活性;再比如谷歌团队提出的世界模型算法是对智能体所交互的环境进行建模,学习环境的压缩空间和时间表示,通过从模型中提取的特征作为智能体的输入,可以训练一个紧凑和简单的策略来解决所需的任务,机械臂在现实中采集数据来训练更新网络,训练效果优于无模型算法,但其训练时间过长,且训练时采用多个真实机械臂同时进行,导致其成本过高,不宜在现实中推广。

2、深度强化学习可分为非端到端的训练方式和端到端的训练方式。非端到端的训练方式,通常需要人工对原始数据进行特征提取预处理,利用提取到的非图像特征信息进行训练,如以坐标信息作为输入进行训练,可以减少训练所需的步数,从而缩短了机械臂的训练时间,但数据预处理时产生的误差会随着训练逐渐积累,面对精度要求高的复杂任务,其模型的训练效果不佳,因此模型通常适合完成对精度要求低的简单任务。端到端的训练方式是指直接从输入到输出进行端到端的训练,不需要人工特征提取或处理步骤,其训练方式是以图像作为输入对机械臂进行训练,能够很好的胜任对精度要求高的复杂任务,但由于在训练过程中,图像处理会产生大量的冗余信息,很大程度上增加了机械臂的训练时长。针对以上两种训练方式所存在的问题,国内外学者提出了各种改进措施,如采取非端到端训练方式的基于深度强化学习的机械臂抓取框架,其中视觉感知控制策略是单独训练的,视觉感知产生对所抓物体的物理描述,策略利用这些物理描述来决定最优的动作,训练时间只需30分钟左右就能获得良好的结果,但受限于固定高度的抓取,缺乏通用性。又如采取端到端训练方式的移动操作系统能够在各种仿真和真实场景下实现自主抓取,但这个过程需要有四百万次的训练,耗费了大量的训练时间,不适合落地应用。


技术实现思路

1、本专利技术的目的是提供一种基于深度强化学习的机械臂渐进式训练方法、存储介质和电子设备,能够提高机械臂训练过程中训练效果,且缩短训练时间。

2、本专利技术采用的技术方案为:

3、一种基于深度强化学习的机械臂渐进式训练方法,其步骤如下:

4、步骤1:根据现实场景构建机械臂仿真工作环境,具体的:

5、步骤1.1:参照现实场景在仿真环境中选择机械臂的类型、所需的机械臂末端夹爪和待放置零件;在机械臂周围放置多个相机,获取机械臂多视角图像;

6、步骤1.2:通过对仿真系统的校准保证仿真工作环境与现实场景一致;

7、步骤1.3:以预设的抓放目标点为球心的球形工作空间由外向内分为粗操作区与精操作区,其中球心处为精操作区,然后根据粗操作区与精操作区确定机械臂需要的动作数量以及动作执行的范围;

8、步骤1.4:其中机械臂的放置方向的训练为第一阶段训练任务即粗训练阶段,而机械臂放置方向确定后继续完成复杂放置任务的训练为第二阶段训练任务即精训练阶段,针对粗训练阶段和精训练阶段分别设定具体的任务奖励函数;

9、步骤1.5:随机执行数轮动作,得到相应的反馈;

10、步骤2:采用无模型算法完成渐进式训练系统的第一阶段训练任务;

11、步骤3:采用世界模型算法完成渐进式训练系统的第二阶段训练任务;

12、步骤4:采用训练后的无模型算法和用世界模型算法对机械臂进行具体的任务执行。

13、所述的步骤2具体包括如下步骤:

14、步骤2.1:在训练第一阶段训练任务模型时,首先使用优先经验回放选取样本,并暂时存储这一批样本;

15、步骤2.2:采用无模型算法中的ac架构网络模型对上面一批样本中任意一个进行训练;

16、步骤2.3:更新第一阶段训练中的ac架构网络模型的参数;

17、步骤2.4:观察回报函数是否收敛,若未收敛,则继续重复步骤2.3进行下一个样本迭代训练,若收敛,则机械臂末端夹爪到达待放置范围,进入下一个训练阶段。

18、所述的步骤3具体包括如下步骤:

19、步骤3.1:机械臂在待放置范围内执行数回合随机动作,采集对应步数轨迹,填充至经验池;

20、步骤3.2:从经验池中随机选取一段连续的轨迹序列,用于训练世界模型中的参数;

21、步骤3.3:利用世界模型预测器中的网络模型来推测未来的奖励值,并更新第二阶段训练中世界模型规划器中的ac网络模型参数;

22、步骤3.4:机械臂利用世界模型中的隐藏变量选出动作并和环境进行交互,继续填充经验池;

23、步骤3.5:观察回报函数是否收敛,若未收敛,则继续迭代训练,若收敛,则可将算法用于机械臂的具体任务中。

24、步骤3.2中的从数据集中随机选取一段连续的轨迹序列,包括机械臂末端夹爪和目标物体组成的局部场景图像,以更多地保留图像中有用信息,图像经过编码器后压缩为隐藏变量,与世界模型的隐藏变量融合后,会让世界模型隐藏变量学习并表示三维状态压缩信息。

25、所述的步骤1.4中训练系统的粗训练阶段的奖励函数公式如下:

26、

27、其中,dist[0]和dist[1]是末端夹爪中心点到目标物体中心点的下x,y方向的距离;

28、训练系统的精训练阶段奖励函数分为三部分,接近奖励rreach,抓起奖励rgrap和举起奖励rlift,其中抓起奖励和举起奖励分别为{0,0.25}和{0,1},接近奖励rreach计算公式如下:

29、rreach=(1-tanh(10*d))    (2)

30、其中,d是末端夹爪中心与目标物体中心点的欧式距离,tanh是双曲正切函数。

31、一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,使所述计算机可读存储介质所在设备执行如上所述的基于深度强化学习的机械臂渐进式训练方法。

32、一种电子设备,包括:存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,所述处理器执行所述程序时实现如上所述的基于深度强化学习的机械臂渐进式训练方法。

33、本专利技术通过以预设的抓放目标点为球心的球形工作空间由外向内分为粗操作区与本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的机械臂渐进式训练方法,其特征在于:

2.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法,其特征在于:所述的步骤2具体包括如下步骤:

3.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法,其特征在于:所述的步骤3具体包括如下步骤:

4.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法,其特征在于:步骤3.2中的从数据集中随机选取一段连续的轨迹序列,包括机械臂末端夹爪和目标物体组成的局部场景图像,以更多地保留图像中有用信息,图像经过编码器后压缩为隐藏变量,与世界模型的隐藏变量融合后,会让世界模型隐藏变量学习并表示三维状态压缩信息。

5.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法,其特征在于:所述的步骤1.4中训练系统的粗训练阶段的奖励函数公式如下:

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述的计算机程序被处理器执行时,使所述计算机可读存储介质所在设备执行权利要求1-5任意一项所述的基于深度强化学习的机械臂渐进式训练方法。

7.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-5任一所述的基于深度强化学习的机械臂渐进式训练方法。

...

【技术特征摘要】

1.一种基于深度强化学习的机械臂渐进式训练方法,其特征在于:

2.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法,其特征在于:所述的步骤2具体包括如下步骤:

3.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法,其特征在于:所述的步骤3具体包括如下步骤:

4.根据权利要求1所述的基于深度强化学习的机械臂渐进式训练方法,其特征在于:步骤3.2中的从数据集中随机选取一段连续的轨迹序列,包括机械臂末端夹爪和目标物体组成的局部场景图像,以更多地保留图像中有用信息,图像经过编码器后压缩为隐藏变量,与世界模型的隐藏变量融合后,会让世界模型隐藏变...

【专利技术属性】
技术研发人员:王赞陈慧彬连晨轩董孟豪吴俊霆万富瑞喻方胡淏泓孙龙辉陈立家
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1