一种基于强化学习的机器人关节运动控制方法及系统技术方案

技术编号：20848007 阅读：22 留言：0更新日期：2019-04-13 09:20

本发明专利技术公开了一种基于强化学习的机器人关节运动控制方法及系统。该方法包括：获取机器人末端的待运行轨迹；根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量；根据策略网络确定机器人关节每个插补周期的位置增量补偿；每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数，输入机器人，得到机器人关节每个插补周期实际的运动量；根据给定位置增量和实际运动量，对价值网络进行实时训练更新；待运行轨迹运行完毕后，根据每个插补周期更新的价值网络的参数，对策略网络进行训练更新；采用更新后的策略网络调控下一待运行轨迹中机器人关节的运动。本发明专利技术具有误差小、效率高的特点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的机器人关节运动控制方法及系统
本专利技术涉及机器人控制领域，特别是涉及一种基于强化学习的机器人关节运动控制方法及系统。
技术介绍
机器人末端在运行中存在轨迹偏差的问题，可以运用强化学习的方法进行补偿，减少偏差。目前强化学习在该领域的应用主要有两类。一种是基于价值函数的方法，也称为critic-only，这种方法是通过观测和评估系统的表现来导出相应的最优策略。这种方法的缺点是误差会不断的累加，策略的细微改变都会对价值函数造成很大影响。另外一种是基于策略搜索的方法，也称为actor-only，这种方法直接对策略进行改进，该方法解决连续状态问题表现良好，在机器人领域应用较多，但是训练过程中只考虑当前策略或者临近的几次策略，因此，存在局部最优的问题。因此，可以采用策略网络和价值网络结合的方法，通过价值网络的评价来实现策略网络的更新，从而达到更好的训练效果。
技术实现思路
本专利技术的目的是提供一种基于强化学习的机器人关节运动控制方法及系统，具有误差小、效率高的特点。为实现上述目的，本专利技术提供了如下方案：一种基于强化学习的机器人关节运动控制方法，包括：获取机器人末端的待运行轨迹；根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量，记为给定位置增量；获取策略网络，所述策略网络为以机器人关节的给定位置增量为输入，以机器人关节位置增量补偿为输出，训练得到的神经网络模型；根据策略网络确定机器人关节每个插补周期的位置增量补偿；每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数，输入机器人，得到机器人关节每...

【技术保护点】
1.一种基于强化学习的机器人关节运动控制方法，其特征在于，包括：获取机器人末端的待运行轨迹；根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量，记为给定位置增量；获取策略网络，所述策略网络为以机器人关节的给定位置增量为输入，以机器人关节位置增量补偿为输出，训练得到的神经网络模型；根据策略网络确定机器人关节每个插补周期的位置增量补偿；每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数，输入机器人，得到机器人关节每个插补周期实际的运动量；根据所述给定位置增量和实际运动量，对价值网络进行实时训练更新，所述价值网络用于确定所述策略网络的精度；所述待运行轨迹运行完毕后，根据每个插补周期更新的所述价值网络的参数，对所述策略网络进行训练更新；采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。

【技术特征摘要】
1.一种基于强化学习的机器人关节运动控制方法，其特征在于，包括：获取机器人末端的待运行轨迹；根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量，记为给定位置增量；获取策略网络，所述策略网络为以机器人关节的给定位置增量为输入，以机器人关节位置增量补偿为输出，训练得到的神经网络模型；根据策略网络确定机器人关节每个插补周期的位置增量补偿；每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数，输入机器人，得到机器人关节每个插补周期实际的运动量；根据所述给定位置增量和实际运动量，对价值网络进行实时训练更新，所述价值网络用于确定所述策略网络的精度；所述待运行轨迹运行完毕后，根据每个插补周期更新的所述价值网络的参数，对所述策略网络进行训练更新；采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。2.根据权利要求1所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述方法还包括：采用均值为0，方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化。3.根据权利要求1所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述根据所述给定位置增量和实际运动量，对价值网络进行实时训练更新，具体包括：根据θnew＝θold+α▽θlogπθ(st,at)rt对价值网络的权值进行更新，其中，θold为更新前的权值，θnew为更新后的权值，α为更新步长，▽θlogπθ(st,at)为策略的梯度，πθ(st,at)为所述策略网络在输入量为st时的输出，rt为在给定位置增量st下，采用补偿量at所获得的回报值，st为t时刻的给定位置增量，at为t时刻的补偿量。4.根据权利要求1所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述根据每个插补周期更新的所述价值网络的参数，对所述策略网络进行训练更新，具体包括：根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数，直至所述待运行轨迹运行完毕；根据各回报函数训练更新所述策略网络。5.根据权利要求4所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数，具体包括：根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r＝r(st,at)+v(st+1)-v(st)其中，r(st,at)＝-|e|，e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值；v(st)是t时刻所述价值网络的输出。6.根据权利要求4所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述根据各回报函数训练更新所述策略网络，具体包括；以所述策略网络的总体回报最大为训练目标，更新所述策略网络，所述总体回报为其中，R(τ)为运行轨迹τ的总体回报，P(τ,θ)为运行轨迹τ出现的概率。7.根据权利要求1-6任一项所述的基于强...

【专利技术属性】
技术研发人员：刘暾东，贺苗，吴晓敏，高凤强，王若宇，
申请(专利权)人：厦门大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人