一种基于持续强化学习的机械臂避障抓取方法技术

技术编号：34930139 阅读：23 留言：0更新日期：2022-09-15 07:25

本发明专利技术涉及一种基于持续强化学习的机械臂避障抓取方法，包括：获取并执行第一阶段任务，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，执行第二阶段任务；获取并执行第二阶段任务，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，执行第三阶段任务；获取并执行第三阶段任务，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，训练完成；所述第三阶段障碍物其位置随机生成，本发明专利技术针对实际工业环境，结合抓握和避障设置环境和任务并提出了一种更有效的状态表示和奖励设计，从而提高了机器人在该任务上的学习效果。机器人在该任务上的学习效果。机器人在该任务上的学习效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于持续强化学习的机械臂避障抓取方法

[0001]本专利技术涉及智能学习
，具体地说，是一种基于持续强化学习的机械臂避障抓取方法。

技术介绍

[0002]目前，机械臂可以应用于不同的任务，如组装、取放、食品切割等。
[0003]机械臂应抓住目标物体并将物体放置在目标位置以完成取放任务。整个过程包括抓取物体和运动规划以到达目标点。目前研究专注于如何抓住不同形状的物体，或从杂乱中挑选物体。然而，尽管抓地力有所提高，但在实际工业环境中完成拾放任务需要考虑障碍物，这些障碍物可能是放置在工作区或操作员附近的盒子。因此，另一部分工作集中在避障问题的机械臂上。部分研究采用RL方法来解决机械臂的避障问题：将人工势场法(APFM)与RL方法相结合，解决了动态障碍物的避障问题。但是尽管RL在抓取和避障领域取得了显著成果，但如何将这两项任务结合起来，在工业环境中完成一项取放任务，仍然是一个有待解决的问题。
[0004]具体的，对于长周期的组合任务，由于观察周期长或网络架构的特征提取能力不足，RL算法的训练效率较低。研究人员通过使算法更有效地使用训练样本，或者通过构建能够高效提取特征的网络来解决这些问题。对于一些长周期的任务，大多数工作依赖于调整良好的整形奖励，这不仅有利于向代理交付目标，同时也减轻探索问题。然而，在不导致解决方案退化的情况下调整适当的奖励是非常困难的。如一种非战略RL算法，该算法使用演示轨迹快速引导具有挑战性的长周期运动任务，例如各种类似的插入任务。他们研究作用人工演示任务取代了这些难以调整的形状...

【技术保护点】

【技术特征摘要】
1.一种基于持续强化学习的机械臂避障抓取方法，其特征在于，包括以下步骤：(1)依次执行训练任务，所述训练任务至少包括难度依次递增的第一阶段训练任务、第二阶段训练任务和第三阶段训练任务；(2)获取避障抓取模型，所述避障抓取模型通过对执行训练任务进行深度学习获得；(3)基于获取的避障抓取模型，输入需要执行的任务，实现机械臂避障抓取。2.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，获取避障抓取模型包括：获取第一阶段任务训练模型，所述第一阶段任务训练模型由对执行第一阶段训练任务进行深度学习获得，其中，执行第一阶段任务时，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，第一阶段任务训练任务完成；获取第二阶段任务训练模型，所述第二阶段任务训练模型由对执行第二阶段训练任务进行深度学习获得，所述第二阶段训练任务由第一阶段任务训练模型执行，其中，执行第二阶段任务时，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，第二阶段任务训练任务完成；获取第三阶段任务训练模型，所述第三阶段任务训练模型由对执行第三阶段训练任务进行深度学习获得，所述第三阶段训练任务由第二阶段任务训练模型执行，其中，执行第三阶段任务时，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，训练完成。3.根据权利要求2所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，所述第一阶段训练任务为设有第一阶段障碍物的目标物体拾取任务；且所述第一阶段障碍物位置固定；所述第二阶段训练任务为设有第二阶段障碍物的目标物体拾取任务，所述第二阶段障碍物位置固定且数量多于所述第一阶段障碍物；所述第三阶段训练任务为设有第三阶段障碍物的目标物体拾取任务，所述第三阶段障碍物其位置随机生成，且障碍物数量等同于第二阶段障碍物数量。4.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，执行训练任务包括：状态获取，所述状态获取用于识别机械臂与目标物体和障碍物相对位置，包括获取机械臂与障碍物之间的最小距离；运动控制，所述运动控制用于控制机械臂运动，包括将机械臂运动转换为在笛卡尔坐标系中的位置控制；奖励获取，其中，所述奖励获取为成功完成目标动作的记录。5.根据权利要求4所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，所述状态获取包括：将机械臂上的若干连接臂、末端执行器和障碍物视为线段，每条线段分为若干点、这些机械臂上的点和障碍物上的点之间的距离表示机械臂与障碍物之间的距离，将机械臂与障碍物之间的最小距离d
min
作为状态的第一部分，机械臂夹爪的两个手指相对于末端执行器坐标系下的y轴方向上的位置y
f
作为状态的第二部分，目标物体三维空间下的位置p
o
作为状态的第三部分，末端执行器三维空间下的位置p
e
作为状态的第四部分：S1＝{d
min
，y
f
，p
o
，p
e
}
每个状态的范围如下：d
min1
，d
min2
∈[0，1.3]y
left
∈[0，0.04]，y
right
∈[
‑
0.04，0]X
o
∈[
‑
2，2]，y
o
∈[
‑
2，2]，z
o

【专利技术属性】
技术研发人员：蔡尚雷，林志赟，王博，韩志敏，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人