一种基于持续强化学习的机械臂避障抓取方法技术

技术编号:34930139 阅读:23 留言:0更新日期:2022-09-15 07:25
本发明专利技术涉及一种基于持续强化学习的机械臂避障抓取方法,包括:获取并执行第一阶段任务,当训练周期内获得的奖励达到阈值,且各训练周期内所获得的奖励差值位于阈值内时,执行第二阶段任务;获取并执行第二阶段任务,当训练周期内获得的奖励达到阈值,且各训练周期内所获得的奖励差值位于阈值内时,执行第三阶段任务;获取并执行第三阶段任务,当训练周期内获得的奖励达到阈值,且各训练周期内所获得的奖励差值位于阈值内时,训练完成;所述第三阶段障碍物其位置随机生成,本发明专利技术针对实际工业环境,结合抓握和避障设置环境和任务并提出了一种更有效的状态表示和奖励设计,从而提高了机器人在该任务上的学习效果。机器人在该任务上的学习效果。机器人在该任务上的学习效果。

【技术实现步骤摘要】
一种基于持续强化学习的机械臂避障抓取方法


[0001]本专利技术涉及智能学习
,具体地说,是一种基于持续强化学习的机械臂避障抓取方法。

技术介绍

[0002]目前,机械臂可以应用于不同的任务,如组装、取放、食品切割等。
[0003]机械臂应抓住目标物体并将物体放置在目标位置以完成取放任务。整个过程包括抓取物体和运动规划以到达目标点。目前研究专注于如何抓住不同形状的物体,或从杂乱中挑选物体。然而,尽管抓地力有所提高,但在实际工业环境中完成拾放任务需要考虑障碍物,这些障碍物可能是放置在工作区或操作员附近的盒子。因此,另一部分工作集中在避障问题的机械臂上。部分研究采用RL方法来解决机械臂的避障问题:将人工势场法(APFM)与RL方法相结合,解决了动态障碍物的避障问题。但是尽管RL在抓取和避障领域取得了显著成果,但如何将这两项任务结合起来,在工业环境中完成一项取放任务,仍然是一个有待解决的问题。
[0004]具体的,对于长周期的组合任务,由于观察周期长或网络架构的特征提取能力不足,RL算法的训练效率较低。研究人员通过使算法更有效地使用训练样本,或者通过构建能够高效提取特征的网络来解决这些问题。对于一些长周期的任务,大多数工作依赖于调整良好的整形奖励,这不仅有利于向代理交付目标,同时也减轻探索问题。然而,在不导致解决方案退化的情况下调整适当的奖励是非常困难的。如一种非战略RL算法,该算法使用演示轨迹快速引导具有挑战性的长周期运动任务,例如各种类似的插入任务。他们研究作用人工演示任务取代了这些难以调整的形状奖励函数。再如一种几何感知操作空间控制器,用于丰富的接触操作,结合PPO算法完成轨迹跟随、块推送和长周期任务开门三项任务。也有相似的研究设计了一种新的经验回放机制、或有效的奖励塑造方法来解决长周期任务难以训练的问题。部分研究已经考虑了长周期任务,但在实际工业场景中解决长周期任务的工作还很欠缺。此外,RL方法对长周期任务的训练效率仍然不佳,如何有效地训练长周期任务是一个挑战。
[0005]而长周期抓取和避障问题定义为马尔可夫决策过程(MDP):在时间t的任何给定状态s
t
∈S下,代理(即机器人)基于状态空间s
t
∈A在∈A处执行动作环境的S和策略π
(st)
,代理根据设定的奖励函数R
(St,at)
获得相应的奖励r
t
。掌握问题的目标是找到一个最优策略π
*
来最大化贴现未来奖励的预期总和,即从t到∞的所有未来回报的γ

贴现总和。
[0006]在问题中,RL被用于寻找最优策略π
*
来优化抓取过程,降低碰撞概率并最大化任务完成的成功率。此外,还需要优化训练效率,使机械臂能够有效地学习如何完成设计的长周期任务。
[0007]综上所述,亟需一种针对实际工业环境,结合了抓握和避障设置环境和任务,具有更有效的状态表示和奖励设计,且提高了机器人的学习效果的基于持续强化学习的机械臂避障抓取方法。

技术实现思路

[0008]本专利技术的目的是,提供一种种针对实际工业环境,结合了抓握和避障设置环境和任务,具有更有效的状态表示和奖励设计,且提高了机器人的学习效果的基于持续强化学习的机械臂避障抓取方法。
[0009]为实现上述目的,本专利技术采取的技术方案是:一种基于持续强化学习的机械臂避障抓取方法,包括以下步骤:
[0010](1)依次执行训练任务,所述训练任务至少包括难度依次递增的第一阶段训练任务、第二阶段训练任务和第三阶段训练任务;
[0011](2)获取避障抓取模型,所述避障抓取模型通过对执行训练任务进行深度学习获得;
[0012](3)基于获取的避障抓取模型,输入需要执行的任务,实现机械臂避障抓取。
[0013]进一步地,获取避障抓取模型包括:
[0014]获取第一阶段任务训练模型,所述第一阶段任务训练模型由对执行第一阶段训练任务进行深度学习获得,其中,执行第一阶段任务时,当训练周期内获得的奖励达到阈值,且各训练周期内所获得的奖励差值位于阈值内时,第一阶段任务训练任务完成;
[0015]获取第二阶段任务训练模型,所述第二阶段任务训练模型由对执行第二阶段训练任务进行深度学习获得,所述第二阶段训练任务由第一阶段任务训练模型执行,其中,执行第二阶段任务时,当训练周期内获得的奖励达到阈值,且各训练周期内所获得的奖励差值位于阈值内时,第二阶段任务训练任务完成;
[0016]获取第三阶段任务训练模型,所述第三阶段任务训练模型由对执行第三阶段训练任务进行深度学习获得,所述第三阶段训练任务由第二阶段任务训练模型执行,其中,执行第三阶段任务时,当训练周期内获得的奖励达到阈值,且各训练周期内所获得的奖励差值位于阈值内时,训练完成。
[0017]进一步地,所述第一阶段训练任务为设有第一阶段障碍物的目标物体拾取任务;且所述第一阶段障碍物位置固定;
[0018]所述第二阶段训练任务为设有第二阶段障碍物的目标物体拾取任务,所述第二阶段障碍物位置固定且数量多于所述第一阶段障碍物;
[0019]所述第三阶段训练任务为设有第三阶段障碍物的目标物体拾取任务,所述第三阶段障碍物其位置随机生成,且障碍物数量等同于第二阶段障碍物数量。
[0020]进一步地,执行训练任务包括:
[0021]状态获取,所述状态获取用于识别机械臂与目标物体和障碍物相对位置,包括获取机械臂与障碍物之间的最小距离;
[0022]运动控制,所述运动控制用于控制机械臂运动,包括将机械臂运动转换为在笛卡尔坐标系中的位置控制;
[0023]奖励获取,其中,所述奖励获取为成功完成目标动作的记录;所述目标动作包括到达、抓握、举起和悬停。
[0024]进一步地,所述状态获取包括:将机械臂上的若干连接臂、末端执行器和障碍物视为线段,每条线段分为若干点、这些机械臂上的点和障碍物上的点之间的距离表示机械臂与障碍物之间的距离,将机械臂与障碍物之间的最小距离d
min
作为状态的第一部分,机械臂
夹爪的两个手指相对于末端执行器坐标系下的y轴方向上的位置y
f
作为状态的第二部分,目标物体三维空间下的位置p
o
作为状态的第三部分,末端执行器三维空间下的位置p
e
作为状态的第四部分:
[0025]S1={d
min
,y
f
,p
o
,p
e
}
[0026]每个状态的范围如下:
[0027]d
min1
,d
min2
∈[0,1.3][0028]y
left
∈[0,0.04],y
right
∈[

0.04,0][0029]x
o
∈[

2,2],y
o<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于持续强化学习的机械臂避障抓取方法,其特征在于,包括以下步骤:(1)依次执行训练任务,所述训练任务至少包括难度依次递增的第一阶段训练任务、第二阶段训练任务和第三阶段训练任务;(2)获取避障抓取模型,所述避障抓取模型通过对执行训练任务进行深度学习获得;(3)基于获取的避障抓取模型,输入需要执行的任务,实现机械臂避障抓取。2.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法,其特征在于,获取避障抓取模型包括:获取第一阶段任务训练模型,所述第一阶段任务训练模型由对执行第一阶段训练任务进行深度学习获得,其中,执行第一阶段任务时,当训练周期内获得的奖励达到阈值,且各训练周期内所获得的奖励差值位于阈值内时,第一阶段任务训练任务完成;获取第二阶段任务训练模型,所述第二阶段任务训练模型由对执行第二阶段训练任务进行深度学习获得,所述第二阶段训练任务由第一阶段任务训练模型执行,其中,执行第二阶段任务时,当训练周期内获得的奖励达到阈值,且各训练周期内所获得的奖励差值位于阈值内时,第二阶段任务训练任务完成;获取第三阶段任务训练模型,所述第三阶段任务训练模型由对执行第三阶段训练任务进行深度学习获得,所述第三阶段训练任务由第二阶段任务训练模型执行,其中,执行第三阶段任务时,当训练周期内获得的奖励达到阈值,且各训练周期内所获得的奖励差值位于阈值内时,训练完成。3.根据权利要求2所述的基于持续强化学习的机械臂避障抓取方法,其特征在于,所述第一阶段训练任务为设有第一阶段障碍物的目标物体拾取任务;且所述第一阶段障碍物位置固定;所述第二阶段训练任务为设有第二阶段障碍物的目标物体拾取任务,所述第二阶段障碍物位置固定且数量多于所述第一阶段障碍物;所述第三阶段训练任务为设有第三阶段障碍物的目标物体拾取任务,所述第三阶段障碍物其位置随机生成,且障碍物数量等同于第二阶段障碍物数量。4.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法,其特征在于,执行训练任务包括:状态获取,所述状态获取用于识别机械臂与目标物体和障碍物相对位置,包括获取机械臂与障碍物之间的最小距离;运动控制,所述运动控制用于控制机械臂运动,包括将机械臂运动转换为在笛卡尔坐标系中的位置控制;奖励获取,其中,所述奖励获取为成功完成目标动作的记录。5.根据权利要求4所述的基于持续强化学习的机械臂避障抓取方法,其特征在于,所述状态获取包括:将机械臂上的若干连接臂、末端执行器和障碍物视为线段,每条线段分为若干点、这些机械臂上的点和障碍物上的点之间的距离表示机械臂与障碍物之间的距离,将机械臂与障碍物之间的最小距离d
min
作为状态的第一部分,机械臂夹爪的两个手指相对于末端执行器坐标系下的y轴方向上的位置y
f
作为状态的第二部分,目标物体三维空间下的位置p
o
作为状态的第三部分,末端执行器三维空间下的位置p
e
作为状态的第四部分:S1={d
min
,y
f
,p
o
,p
e
}
每个状态的范围如下:d
min1
,d
min2
∈[0,1.3]y
left
∈[0,0.04],y
right
∈[

0.04,0]X
o
∈[

2,2],y
o
∈[

2,2],z
o

【专利技术属性】
技术研发人员:蔡尚雷林志赟王博韩志敏
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1