一种安全强化学习的狭窄空间机器人作业规划方法技术

技术编号:35225782 阅读:28 留言:0更新日期:2022-10-15 10:44
本发明专利技术公开了一种安全强化学习的狭窄空间机器人作业规划方法,包括:在机械臂运动之前,设置规划任务以及目标点;根据机械臂当前的状态信息以及相关运动学约束,计算出期望的加速度,同时计算制动加速度;对关节的期望加速度进行测试,若执行该动作后机械臂未发生碰撞且未违反关节的运动学约束,则期望加速度是可行的,将期望加速度作为替代动作进行执行;否则将计算的制动加速度作为替代动作进行执行;由机械臂每个关节的替代动作组成了机械臂可行的动作空间;利用深度强化学习算法在所述动作空间下为机械臂规划运动轨迹并获得最优策略。本发明专利技术结合了替代动作的思想,重新设计了用于强化学习训练的动作空间,进一步保证了规划结果的安全性。规划结果的安全性。规划结果的安全性。

【技术实现步骤摘要】
一种安全强化学习的狭窄空间机器人作业规划方法


[0001]本专利技术涉及机器人作业规划研究领域,具体涉及一种安全强化学习的狭窄空间机器人作业规划方法。

技术介绍

[0002]机器人在狭窄空间进行作业需要在有障碍物约束的环境下,自主地从当前的位置快速且无碰撞地运动到给定的位置。通过给定起始位置和终点位置,在机器人的工作空间中寻找到一条符合一定约束的路径,如无碰撞,满足运动学条件等,且路径也要尽可能短。在进行路径规划时,首先是要对障碍物空间进行建模,将机器人放置在空间中,使用传统的规划算法如遗传算法、人工势场法,或者深度强化学习算法进行训练。可这些算法在高维情况下的规划计算复杂度也呈指数型增长,往往导致难以实时规划。安全强化学习作为强化学习的衍生方法,在学习阶段和部署过程中都遵守安全约束。在环境由可控机器人和静态障碍物组成且每个对象的形状和位置都是已知的情况下,在训练过程中考虑碰撞以及相关运动学限制等约束,将替代安全行为的概念应用于强化学习,极大的提高了规划结果的可行性,同时适用于高维度的机器人系统中。

技术实现思路

[0003]本专利技术的目的是提供一种安全强化学习的狭窄空间机器人作业规划方法,用于进一步提升规划结果的安全性。
[0004]为了实现上述任务,本专利技术采用以下技术方案:
[0005]一种安全强化学习的狭窄空间机器人作业规划方法,包括:
[0006]在机械臂运动之前,设置规划任务以及目标点;
[0007]根据机械臂当前的状态信息以及相关运动学约束,计算出期望的加速度a
t+1N
,同时计算制动加速度a
t+1B
,从而构建机械臂可行的动作空间,包括:
[0008]定义关节的运动学约束;
[0009]在离散的时间点里检测机器人与障碍物以及机器人的机械臂连杆之间的最小距离来确定碰撞情况,若最小距离小于预设的安全距离阈值,则视为发生碰撞;
[0010]通过pybullet环境中内置的传感器获取机械臂的状态信息;
[0011]建立一个神经网络作为动作预测网络用以预测下一时刻的动作,将关节的状态信息输入到动作预测网络中,预测每个关节相应的动作标量m
t+1
∈[

1,1],再由式a
t+1N
=a
t+1min
+(1+m
t+1
)/2
·
(a
t+1max

a
t+1min
)得到关节的期望加速度a
t+1N
,其中a
t+1min
、a
t+1max
分别为关节的最小、最大安全加速度;知道期望加速度之后,便可求得关节在下一时刻t+1的速度以及位置;
[0012]计算制动加速度:当前时刻t对应的关节速度v
t
>0时,取m

t+1
=2*m
t+1

1,否则取m

t+1
=2(1

m
t+1
)

1,将m

t+1
带入a
t+1B
=a
t+1min
+(1+m

t+1
)/2
·
(a
t+1max

a
t+1min
)计算得到制动加速度;
[0013]对关节的期望加速度进行a
t+1N
进行测试,若执行该动作后机械臂未发生碰撞且未违反定义的关节的运动学约束,则期望加速度a
t+1N
是可行的,将期望加速度a
t+1N
作为替代动作进行执行;否则将计算的制动加速度a
t+1B
作为替代动作进行执行;各关节所计算出的期望加速度a
t+1N
在进行制动后执行;从当前时刻t对应的状态信息开始,执行相应的动作后若无碰撞发生,则行为是安全的,否则停止运动;
[0014]由机械臂每个关节的替代动作组成了机械臂可行的动作空间;利用深度强化学习算法在所述动作空间下为机械臂规划运动轨迹并获得最优策略。
[0015]进一步地,所述目标点为焊接的起点,规划任务为规划出一条安全的路径使得机械臂末端运动到焊接起点。
[0016]进一步地,所述状态信息包括每个关节的位置、速度、加速度以及与障碍物之间的距离。
[0017]进一步地,在运动过程为了防止中发生振荡现象,取a
t+1max
=m

t+1
*(a
t+1max

a
t+1min
),a
t+1min
=a
t+1min
+(1

m

t+1
)*(a
t+1max

a
t+1min
)。
[0018]进一步地,所述深度强化学习算法,包括:
[0019]设置Actor网络和Critic网络作为强化学习网络,Actor更新使用的loss函数采用了自适应KL惩罚系数的loss函数,critic采用TD

error更新,隐藏层使用swish作为激活函数,输出层使用tanh作为激活函数;
[0020]在所述动作空间下进行路径规划的训练;
[0021]设置训练结束的条件,当机械臂末端连续多次到达预设的目标点可视为规划。成功停止训练。
[0022]进一步地,深度强化学习算法的输入量为机械臂的状态信息s
t
,设置Actor网络和Critic网络用于训练。网络结构为400
×
300
×
10
×
1,隐藏层均使用swish作为激活函数,Actor网络的输出层使用tanh作为激活函数,输出动作范围为[

1,1]。
[0023]进一步地,在所述动作空间下进行路径规划的训练,可以得到机械臂的期望动作,即为动作空间中使得Q值最大化的动作并让机械臂执行,Q值即强化学习中的动作函数值,它代表了机器人选择这个动作后,一直到最终状态奖励总和的期望;执行每个动作会得到相应的奖励值,当奖励稳定收敛可视为规划成功并停止训练,此时经过训练得到的策略即为最优策略。
[0024]进一步地,所述用于深度强化学习的奖励函数为R=R
target

R
action

R
adaptation

R
distance
包括四项,第一项R
target
为机械臂末端到目标点距离的奖励项,用以训练机械臂接近目标点;第二项R
action
为动作惩罚项本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种安全强化学习的狭窄空间机器人作业规划方法,其特征在于,包括:在机械臂运动之前,设置规划任务以及目标点;根据机械臂当前的状态信息以及相关运动学约束,计算出期望的加速度a
t+1N
,同时计算制动加速度a
t+1B
,从而构建机械臂可行的动作空间,包括:定义关节的运动学约束;在离散的时间点里检测机器人与障碍物以及机器人的机械臂连杆之间的最小距离来确定碰撞情况,若最小距离小于预设的安全距离阈值,则视为发生碰撞;通过pybullet环境中内置的传感器获取机械臂的状态信息;建立一个神经网络作为动作预测网络用以预测下一时刻的动作,将关节的状态信息输入到动作预测网络中,预测每个关节相应的动作标量m
t+1
∈[

1,1],再由式a
t+1N
=a
t+1min
+(1+m
t+1
)/2
·
(a
t+1max

a
t+1min
)得到关节的期望加速度a
t+1N
,其中a
t+1min
、a
t+1max
分别为关节的最小、最大安全加速度;知道期望加速度之后,便可求得关节在下一时刻t+1的速度以及位置;计算制动加速度:当前时刻t对应的关节速度v
t
>0时,取m

t+1
=2*m
t+1

1,否则取m

t+1
=2(1

m
t+1
)

1,将m

t+1
带入a
t+1B
=a
t+1min
+(1+m

t+1
)/2
·
(a
t+1max

a
t+1min
)计算得到制动加速度;对关节的期望加速度进行a
t+1N
进行测试,若执行该动作后机械臂未发生碰撞且未违反定义的关节的运动学约束,则期望加速度a
t+1N
是可行的,将期望加速度a
t+1N
作为替代动作进行执行;否则将计算的制动加速度a
t+1B
作为替代动作进行执行;各关节所计算出的期望加速度a
t+1N
在进行制动后执行;从当前时刻t对应的状态信息开始,执行相应的动作后若无碰撞发生,则行为是安全的,否则停止运动;由机械臂每个关节的替代动作组成了机械臂可行的动作空间;利用深度强化学习算法在所述动作空间下为机械臂规划运动轨迹并获得最优策略。2.根据权利要求1所述的安全强化学习的狭窄空间机器人作业规划方法,其特征在于,所述目标点为焊接的起点,规划任务为规划出一条安全的路径使得机械臂末端运动到焊接起点。3.根据权利要求1所述的安全强化学习的狭窄空间机器人作业规划...

【专利技术属性】
技术研发人员:王涛许银涛
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1