一种基于深度强化学习的机械臂运动规划方法和系统技术方案

技术编号:34771619 阅读:70 留言:0更新日期:2022-08-31 19:34
本发明专利技术公开了一种基于深度强化学习的机械臂运动规划方法和系统,其中方法包括:在仿真环境中的不同任务场景下对深度强化学习网络进行训练,将训练过程中产生的经验数据分别存储在成功经验回放池和失败经验回放池;将深度强化学习网络训练得到的损失值和奖励值输入神经网络,输出权重,按照权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练,循环迭代至收敛,得到训练好的深度强化学习网络;将真实环境下识别的目标物体位姿映射到仿真环境中,将仿真环境中机械臂的状态空间信息和目标物体位姿输入训练好的深度强化学习网络,得到最优路径。本发明专利技术数据利用率高、时间复杂度低、学习效率高、算法应用部署难度小。算法应用部署难度小。算法应用部署难度小。

【技术实现步骤摘要】
一种基于深度强化学习的机械臂运动规划方法和系统


[0001]本专利技术属于智能机械臂控制领域,更具体地,涉及一种基于深度强化学习的机械臂运动规划方法和系统。

技术介绍

[0002]在科学技术的推动下,机器人逐渐进入到各行各业,其可以代替或协助人类高效的完成复杂多样的任务,提高生产效率并且降低生产成本。但是传统机器人控制大都以人为主导,即机器人只会按照人所设定的程序逻辑进行相应动作,难以适应非结构化、不确定性环境。而人工智能技术的发展催生了智能机器人,相比一般机器人而言,其对随机变化环境的适应性更强,在智能算法的驱动下可以根据真实环境做出合理决策,且具有自主学习能力,可减少对人类专家知识经验的依赖。智能机器人兼具感知、运动、决策等多个要素,能够在一定程度上融合真实场景信息做出最合理的动作,更符合人类发展的需求。因此机器人智能化已然成为机器人未来发展的趋势,机械臂是机器人的一种,其应用广泛,有着丰富的应用场景。
[0003]近些年来,深度强化学习(Deep Reinforcement Learning,DRL)的发展如火如荼,并在游戏、智能交通、自动驾驶、智能医疗等领域都发挥了极大的作用。DRL结合了深度学习对环境信息的感知能力同时也兼具强化学习对经验数据的决策能力,通过模仿人的学习过程使智能体拥有类人化的思维。目前,DRL也被广泛应用于机械臂控制领域中,基于DRL的机械臂运动规划方法实现了深度学习和强化学习的优势互补,并结合常规的控制理论、机器人学等领域知识为机械臂智能控制提供新思路。
[0004]深度强化学习通常会利用传统经验回放机制来打破经验数据之间的相关性,以保证算法的稳定收敛,但是这种经验回放机制在抽样经验数据时并未考虑经验数据的重要程度,无法充分利用经验数据;之后有研究学者提出优先经验回放机制,利用经验数据的优先度选择性抽样,虽然在一定程度上解决了上述问题,但优先经验回放机制存在着时间复杂度高、超参数敏感的问题。其次,深度强化学习方法落地应用困难,目前基于深度强化学习的机械臂控制研究在仿真环境中大都能够取得很好的实验效果,但是迁移到真实机械臂上时实验效果往往会大打折扣。一方面是由于仿真环境与真实环境之间的差异,两者并不是完全对等的,在真实环境中存在很多干扰和噪声。另一方面,直接在真实机械臂上进行训练会对实体机械臂造成一定损耗,对于个人或小的研究机构而言是难以承受的损失。
[0005]由此可见,现有技术存在传统经验回放机制的经验数据利用率不足、优先经验回放机制时间复杂度高、超参数敏感、深度强化学习算法从仿真环境部署到真实环境的难度较大的技术问题。

技术实现思路

[0006]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于深度强化学习的机械臂运动规划方法和系统,由此解决现有技术存在传统经验回放机制的经验数据利用率不
足、优先经验回放机制时间复杂度高、超参数敏感、深度强化学习算法从仿真环境部署到真实环境的难度较大的技术问题。
[0007]为实现上述目的,按照本专利技术的一个方面,提供了一种基于深度强化学习的机械臂运动规划方法,包括:
[0008]在仿真环境中的不同任务场景下对深度强化学习网络进行训练,将训练过程中产生的经验数据按照任务执行状态分别存储在成功经验回放池和失败经验回放池;
[0009]当成功经验回放池和失败经验回放池中经验数据的数量均达到设定值时,将深度强化学习网络训练得到的损失值和奖励值输入神经网络,输出权重,按照权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练,将训练得到新的损失值和奖励值输入神经网络,输出新的权重,按照新的权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练,循环迭代至深度强化学习网络收敛,得到训练好的深度强化学习网络;
[0010]将真实环境下识别的目标物体位姿映射到仿真环境中,将仿真环境中机械臂的状态空间信息和目标物体位姿输入训练好的深度强化学习网络进行运动规划,得到真实环境下机械臂抓取目标物体的最优路径。
[0011]进一步地,所述训练时的任务场景包括:目标物体位置随机变化且在机械臂工作区域内无任何障碍物的任务一场景,以及目标物体位置随机变化且在机械臂工作区域内有多个障碍物的任务二场景。
[0012]进一步地,所述训练时的任务场景为任务一场景时,奖励值通过姿态奖励函数、步长奖励函数、人工设置动态域奖励函数或自适应动态域奖励函数计算得到。
[0013]进一步地,所述姿态奖励函数为:
[0014][0015]其中,R
original
(D
PT
)=J
reach
+R
dis
(D
PT
)+R
done
+R
obstacle
,J
reach
表示任务状态项,即是否完成运动规划任务,完成即为1,未完成即为0,R
dis
表示机械臂工具末端与目标点之间的曼哈顿距离D
PT
的相反数,R
done
表示机械臂在规定的时间步长内完成轨迹任务所得到的额外奖励,R
obstacle
表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值,表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值,表示机械臂期望运动方向与实际运动方向的两个空间三维向量的夹角,代表一个数学操作,兰的值小于π/2时,否则R
posture
表示姿态奖励值。
[0016]进一步地,所述步长奖励函数为:
[0017][0018]其中,R
stride
表示步长奖励值,表示机械臂的关节速度向量,表示机械臂的关节运动约束,Δt表示机械臂对控制信号的响应时间,N
J
表示机械臂的自由度。
[0019]进一步地,所述人工设置动态域奖励函数为:
[0020]R
MDA
=δ
·
[R
posture
R
stride
]T
=δ
posture
·
R
posture

stride
·
R
stride
[0021]其中,R
MDA
表示人工设置动态域奖励值,δ由姿态系数δ
posture
和步长系数δ
stride
组成,将机械臂的工作区域内机械臂工具末端与目标点之间的曼哈顿距离D
PT
大于等于预设值的区域作为快速搜索区域,其余区域为慢速调整区域,快速搜索区域内姿态系数和步长系数分别为1和0,慢速调整区域内姿态系数和步长系数分别为0和1。
[0022]进一步地,所述自适应动态域奖励函数为:
[0023]R
ADA
=ρ1R
stride
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的机械臂运动规划方法,其特征在于,包括:在仿真环境中的不同任务场景下对深度强化学习网络进行训练,将训练过程中产生的经验数据按照任务执行状态分别存储在成功经验回放池和失败经验回放池;当成功经验回放池和失败经验回放池中经验数据的数量均达到设定值时,将深度强化学习网络训练得到的损失值和奖励值输入神经网络,输出权重,按照权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练,将训练得到新的损失值和奖励值输入神经网络,输出新的权重,按照新的权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练,循环迭代至深度强化学习网络收敛,得到训练好的深度强化学习网络;将真实环境下识别的目标物体位姿映射到仿真环境中,将仿真环境中机械臂的状态空间信息和目标物体位姿输入训练好的深度强化学习网络进行运动规划,得到真实环境下机械臂抓取目标物体的最优路径。2.如权利要求1所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述训练时的任务场景包括:目标物体位置随机变化且在机械臂工作区域内无任何障碍物的任务一场景,以及目标物体位置随机变化且在机械臂工作区域内有多个障碍物的任务二场景。3.如权利要求2所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述训练时的任务场景为任务一场景时,奖励值通过姿态奖励函数、步长奖励函数、人工设置动态域奖励函数或自适应动态域奖励函数计算得到。4.如权利要求3所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述姿态奖励函数为:其中,R
original
(D
PT
)=J
reach
+R
dis
(D
PT
)+R
done
+R
obstacle
,J
reach
表示任务状态项,即是否完成运动规划任务,完成即为1,未完成即为0,R
dis
表示机械臂工具末端与目标点之间的曼哈顿距离D
PT
的相反数,R
done
表示机械臂在规定的时间步长内完成轨迹任务所得到的额外奖励,R
obstacle
表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值,表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值,表示机械臂期望运动方向与实际运动方向的两个空间三维向量的夹角,代表一个数学操作,当的值小于π/2时,否则R
posture
表示姿态奖励值。5.如权利要求4所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述步长奖励函数为:其中,R
stride
表示步长奖励值,表示机械臂的关节速度向量,表示机械臂的关节运动约束,/N
J
,Δt表示机械臂对控制信号的响应时间,N
J
表示机械臂的自由度。6.如权利要求5所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述人工设置动态域奖励函数为:
R
MDA
=δ
·
[R
posture
,R
stride
]
T
=δ
posture
·
R
posture

stride
·
R
stride
其中,R
MDA
表示人工设置动态域奖励值,δ由姿态系数δ
posture
和步长系数δ
stride
组成,将机械臂的工作区域内机械臂工具末端与目标点之间的曼哈顿距离D
PT
大于等于预设值的区域作为快速搜索区域,其余区域为慢速调整区域,快速搜索区域内姿态系数和步...

【专利技术属性】
技术研发人员:彭刚杨进
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1