当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于强化学习的机器人关节运动控制方法及系统技术方案

技术编号:20848007 阅读:22 留言:0更新日期:2019-04-13 09:20
本发明专利技术公开了一种基于强化学习的机器人关节运动控制方法及系统。该方法包括:获取机器人末端的待运行轨迹;根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量;根据策略网络确定机器人关节每个插补周期的位置增量补偿;每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;根据给定位置增量和实际运动量,对价值网络进行实时训练更新;待运行轨迹运行完毕后,根据每个插补周期更新的价值网络的参数,对策略网络进行训练更新;采用更新后的策略网络调控下一待运行轨迹中机器人关节的运动。本发明专利技术具有误差小、效率高的特点。

【技术实现步骤摘要】
一种基于强化学习的机器人关节运动控制方法及系统
本专利技术涉及机器人控制领域,特别是涉及一种基于强化学习的机器人关节运动控制方法及系统。
技术介绍
机器人末端在运行中存在轨迹偏差的问题,可以运用强化学习的方法进行补偿,减少偏差。目前强化学习在该领域的应用主要有两类。一种是基于价值函数的方法,也称为critic-only,这种方法是通过观测和评估系统的表现来导出相应的最优策略。这种方法的缺点是误差会不断的累加,策略的细微改变都会对价值函数造成很大影响。另外一种是基于策略搜索的方法,也称为actor-only,这种方法直接对策略进行改进,该方法解决连续状态问题表现良好,在机器人领域应用较多,但是训练过程中只考虑当前策略或者临近的几次策略,因此,存在局部最优的问题。因此,可以采用策略网络和价值网络结合的方法,通过价值网络的评价来实现策略网络的更新,从而达到更好的训练效果。
技术实现思路
本专利技术的目的是提供一种基于强化学习的机器人关节运动控制方法及系统,具有误差小、效率高的特点。为实现上述目的,本专利技术提供了如下方案:一种基于强化学习的机器人关节运动控制方法,包括:获取机器人末端的待运行轨迹;根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;根据策略网络确定机器人关节每个插补周期的位置增量补偿;每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。可选的,所述方法还包括:采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化。可选的,所述根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,具体包括:根据对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量。可选的,所述根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新,具体包括:根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;根据各回报函数训练更新所述策略网络。可选的,所述根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,具体包括:根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出。可选的,所述根据各回报函数训练更新所述策略网络,具体包括;以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。可选的,所述位置增量包括角度值和角速度值,所述位置增量补偿包括角度补偿和角速度补偿。本专利技术还提供了一种基于强化学习的机器人关节运动控制系统,包括:待运行轨迹获取模块,用于获取机器人末端的待运行轨迹;位置增量计算模块,用于根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;策略网络获取模块,用于获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;位置增量补偿确定模块,用于根据策略网络确定机器人关节每个插补周期的位置增量补偿;实际运动量确定模块,用于每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;价值网络更新模块,用于根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;策略网络更新模块,用于在所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;关节运动调控模块,用于采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。可选的,所述系统还包括:初始化模块,用于采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化;所述价值网络更新模块,具体包括:价值网络更新单元,用于根据对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量;所述策略网络更新模块,具体包括:回报函数确定单元,用于根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;策略网络更新单元,用于根据各回报函数训练更新所述策略网络;可选的,所述回报函数确定单元,具体包括:回报函数确定子单元,用于根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出;所述策略网络更新单元,具体包括;策略网络更新子单元,用于以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术提供的基于强化学习的机器人关节运动控制方法及系统构建了策略网络和价值网络,然后根据给定工业机器人末端运行轨迹,计算出机器人关节每个插补周期的位置增量,并根据策略网络进行位置增量补偿。在运行过程中,根据机器人末端运行轨迹偏差进行策略网络和价值网络参数的实时调整与优化,使工业机器人末端运行轨迹达到理想的效果。价值网络训练和策略网络训练相结合,可以避免价值函数误差在训练过程中不断累加,有效减少策略变化对价值函数的影响,使训练向着有利的误差减少的方向进行,相较于单一网络的补偿方式更加准确和高效。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例基于强化学习的机器人关节运动控制方法流程示意图;图2为本专利技术实施例机器人关本文档来自技高网...

【技术保护点】
1.一种基于强化学习的机器人关节运动控制方法,其特征在于,包括:获取机器人末端的待运行轨迹;根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;根据策略网络确定机器人关节每个插补周期的位置增量补偿;每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。

【技术特征摘要】
1.一种基于强化学习的机器人关节运动控制方法,其特征在于,包括:获取机器人末端的待运行轨迹;根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;根据策略网络确定机器人关节每个插补周期的位置增量补偿;每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。2.根据权利要求1所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述方法还包括:采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化。3.根据权利要求1所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,具体包括:根据θnew=θold+α▽θlogπθ(st,at)rt对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,▽θlogπθ(st,at)为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量。4.根据权利要求1所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新,具体包括:根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;根据各回报函数训练更新所述策略网络。5.根据权利要求4所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,具体包括:根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出。6.根据权利要求4所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据各回报函数训练更新所述策略网络,具体包括;以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。7.根据权利要求1-6任一项所述的基于强...

【专利技术属性】
技术研发人员:刘暾东贺苗吴晓敏高凤强王若宇
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1