一种基于深度强化学习的空间双臂系统约束运动规划方法技术方案

技术编号:26959904 阅读:22 留言:0更新日期:2021-01-05 23:37
本发明专利技术公开了一种基于深度强化学习的空间双臂系统约束运动规划方法,步骤如下:1)利用广义雅可比矩阵建立自由漂浮空间双机械臂系统的运动学模型;2)基于上述的空间双臂系统的运动学模型,结合DDPG算法,设计空间双臂系统运动规划算法;3)对DDPG算法中奖励函数进行设计,以实现对空间双臂系统运动规划算法中各约束条件的满足,包括机械臂末端执行机构的速度约束和双机械臂协同运动的自碰撞约束。本发明专利技术提高了运动规划算法的泛用性与安全性。

【技术实现步骤摘要】
一种基于深度强化学习的空间双臂系统约束运动规划方法
本专利技术属于空间机械臂运动规划
,具体涉及一种基于深度强化学习的空间双臂系统约束运动规划方法。
技术介绍
空间机械臂作为空间操控任务中十分有效的一种执行机构,在修复故障卫星、清除空间碎片、组装大型空间结构等空间操控任务中都具有很高的工程应用价值。由于空间中微重力环境的影响,空间机械臂的运动特性与地面机械臂存在明显的差异,具体体现在地面机械臂一般具有固定的基座,而空间机械臂在执行任务的过程中基座一般都处于自由漂浮的状态。空间双机械臂系统相比于空间单机械臂系统而言在执行操控任务时更加安全可靠,且具有更高的灵活性,空间双臂系统的运动规划技术是研发空间双臂系统的一项关键技术。目前,针对空间双臂系统的运动规划问题,往往采用遗传算法或粒子群算法等启发式算法进行寻优处理,然而采用启发式算法往往只能针对特定的一组空间机械臂初始构型与目标未知进行点对点的运动规划,而当空间机械臂初始构型或目标抓取点位置发生变化时,则需要从头开始重新进行一次运算,因此该方法的泛用性较差。
技术实现思路
针对于上述现有技术的不足,本专利技术的目的在于提供一种基于深度强化学习的空间双臂系统约束运动规划方法,以解决现有技术中传统运动规划方法泛用性差,以及无约束的基于深度强化学习算法的运动规划方法造成的机械臂碰撞损伤等问题。为达到上述目的,本专利技术采用的技术方案如下:本专利技术的一种基于深度强化学习的空间双臂系统约束运动规划方法,步骤如下:1)利用广义雅可比矩阵建立自由漂浮空间双机械臂系统的运动学模型;2)基于上述的空间双臂系统的运动学模型,结合DDPG算法,设计空间双臂系统运动规划算法;3)对DDPG算法中奖励函数进行设计,以实现对空间双臂系统运动规划算法中各约束条件的满足,包括机械臂末端执行机构的速度约束和双机械臂协同运动的自碰撞约束。进一步地,所述步骤1)具体包括:根据下式(1)建立空间双机械臂系统的运动学模型:其中,Iv0与Iω0分别为空间机械臂基座在惯性参考系下的速度矢量与角速度矢量;与分别为第1个机械臂在惯性参考系下的速度矢量与角速度矢量;与分别为第2个机械臂在惯性参考系下的速度矢量与角速度矢量;和分别为两臂各关节角的角速度;M为空间机械臂系统的质量矩阵,r0g=rg-r0,rg表示系统质心位置,r0表示空间机械臂基座位置,算子×表示斜对称矩阵;J0和Jφ为机械臂系统分别对关节角和基座的雅可比矩阵,其中:式中,为第i关节的角速度方向矢量,为第i关节的位置矢量,为第i连杆的质心位置矢量,I为惯性张量矩阵。进一步地,所述步骤2)具体包括:21)在python编程环境中将上述建立的空间双机械臂系统的运动学模型构建为DDPG算法中的环境部分,与DDPG算法之间的信息交互,具体为:由DDPG算法生成具体需要执行的动作(即机械臂各关节的角速度信息)作为输入信息,输入到构建的上述环境部分中,通过运动学递推更新机械臂的状态信息,从而计算执行该动作所获得的即时奖励,最后由环境反馈更新后的机械臂状态信息、单步即时奖励以及是否已完成目标的标志位;22)DDPG算法采用actor-critic模式,利用actor做出决策、critic做出评价:从环境中观测得到状态s,传递给actor根据所述状态s凭当前的策略网络做出决定得到动作a,将动作a作用于环境之后,给出当前步的奖励反馈r和新的状态,根据奖励反馈r,critic更新对actor的行为评价网络,actor再沿着critic建议的方向更新自身的策略网络,从而完成了一步训练,继续循环直到训练成功;DDPG采用记忆池的设计,将与环境交互得到的数据样本存储在记忆池中,再从中随机选择一条数据进行训练,打破数据间的关联,实现了样本的独立;DDPG采用四个神经网络:将actor对应的网络称为策略网络,分为现实策略网络和目标策略网络,将critic对应的网络称为价值网络即Q网络,分为现实Q网络和目标Q网络;现实策略网络用于与环境进行交互,根据当前的状态s选择相应的动作a,并更新策略网络中的参数θμ;目标策略网络采用从记忆池中抽取的数据进行训练,完成根据下一状态s'选择合适的下一动作a'这一任务,该网络的网络参数θμ'定期从现实策略网络中进行复制更新;现实Q网络用于计算当前的Q值Q(s,a|θQ)和目标Q值y=r+γQ′(s′,a′|θQ'),并更新Q网络中的参数θQ;目标Q网络用于计算目标Q值中的Q′(s′,a′|θQ),该网络的网络参数θQ'定期从现实Q网络中进行复制更新;23)基于DDPG算法设计空间双臂系统约束运动规划算法包括以下步骤:231)初始化现实策略网络与现实Q网络的网络参数θμ与θQ,并赋予目标策略网络与目标Q网络相同的网络参数值;232)初始化步骤21)中构建的环境;233)根据当前的状态s选取动作a,将动作a作为环境的输入,在环境中执行动作a并给出下一时刻的状态s'、当前单步的即时奖励以及是否完成目标的标志位;234)判断重放缓存区是否存满,若未存满,则将当前时刻状态、当前执行的动作、当前单步奖励以及下一时刻状态(s,a,r,s')存入重放缓存区,并使用s'更新s,继续执行步骤233),若已存满,则将重放缓存区中最早的一组数据删除,并将当前时刻状态、当前执行的动作、当前单步奖励以及下一时刻状态(s,a,r,s')存入重放缓存区,继续执行步骤235);235)从重放缓存区中随机选取一批数据(s,a,r,s'),开始进行步骤22)中的训练过程,对网络参数进行更新并判断,若未完成目标或未到达设置的最大单回合步数,则继续执行步骤233),若已完成目标或到达设置的最大单回合步数,则判断是否达到了最大回合数,若未达到,则继续执行步骤232),若已达到,则结束。进一步地,所述步骤3)具体包括:31)机械臂运动规划的成功与否取决于机械臂末端执行器是否能够到达目标点,两个机械臂末端执行器与其对应的目标点之间的距离d1、d2是设计奖励函数的依据;设计一种线性函数与对数函数混合形式的奖励函数如下所示:r=-(d1+d2)-lg(d1+10-8)-lg(d2+10-8)(3)其中,r表示奖励值,线性函数项为r=k(d1+d2),k为负常数,值为-1,用于保证两个机械臂末端执行机构有向其各自目标点靠近的趋势,而只使用线性函数形式的奖励函数只能保证部分收敛趋势,而很难保证两个末端执行机构同时精准地到达目标位置,因此添加对数函数项lg(d1+10-8)-lg(d2+10-8),10-8项用于避免对数函数产生奇异,同时约束对数函数项的最大值,用于在末端执行器到达目标点附近时,使其能够加速收敛到目标点处并获得该决策方法(即当末端执行器到达目标点附近时,做出决策让末端执行器加速向目标点靠近);32)对机械臂末端执行器速度设置如下约束:当机械臂末端执行器距离其对应的抓取目标点较远时,速度约束项对整体奖励没有影响;当机械臂末端执行器与本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的空间双臂系统约束运动规划方法,其特征在于,步骤如下:/n1)利用广义雅可比矩阵建立自由漂浮空间双机械臂系统的运动学模型;/n2)基于上述的空间双臂系统的运动学模型,结合DDPG算法,设计空间双臂系统运动规划算法;/n3)对DDPG算法中奖励函数进行设计,以实现对空间双臂系统运动规划算法中各约束条件的满足,包括机械臂末端执行机构的速度约束和双机械臂协同运动的自碰撞约束。/n

【技术特征摘要】
1.一种基于深度强化学习的空间双臂系统约束运动规划方法,其特征在于,步骤如下:
1)利用广义雅可比矩阵建立自由漂浮空间双机械臂系统的运动学模型;
2)基于上述的空间双臂系统的运动学模型,结合DDPG算法,设计空间双臂系统运动规划算法;
3)对DDPG算法中奖励函数进行设计,以实现对空间双臂系统运动规划算法中各约束条件的满足,包括机械臂末端执行机构的速度约束和双机械臂协同运动的自碰撞约束。


2.根据权利要求1所述的基于深度强化学习的空间双臂系统约束运动规划方法,其特征在于,所述步骤1)具体包括:根据下式(1)建立空间双机械臂系统的运动学模型:



其中,Iv0与Iω0分别为空间机械臂基座在惯性参考系下的速度矢量与角速度矢量;与分别为第1个机械臂在惯性参考系下的速度矢量与角速度矢量;与分别为第2个机械臂在惯性参考系下的速度矢量与角速度矢量;和分别为两臂各关节角的角速度;M为空间机械臂系统的质量矩阵,r0g=rg-r0,rg表示系统质心位置,r0表示空间机械臂基座位置,算子×表示斜对称矩阵;

J0和Jφ为机械臂系统分别对关节角和基座的雅可比矩阵,其中:



式中,为第i关节的角速度方向矢量,为第i关节的位置矢量,为第i连杆的质心位置矢量,I为惯性张量矩阵。


3.根据权利要求1所述的基于深度强化学习的空间双臂系统约束运动规划方法,其特征在于,所述步骤2)具体包括:
21)在python编程环境中将上述建立的空间双机械臂系统的运动学模型构建为DDPG算法中的环境部分,与DDPG算法之间的信息交互,具体为:由DDPG算法生成具体需要执行的动作作为输入信息,输入到构建的上述环境部分中,通过运动学递推更新机械臂的状态信息,从而计算执行该动作所获得的即时奖励,最后由环境反馈更新后的机械臂状态信息、单步即时奖励以及是否已完成目标的标志位;
22)DDPG算法采用actor-critic模式,利用actor做出决策、critic做出评价:从环境中观测得到状态s,传递给actor根据所述状态s凭当前的策略网络做出决定得到动作a,将动作a作用于环境之后,给出当前步的奖励反馈r和新的状态,根据奖励反馈r,critic更新对actor的行为评价网络,actor再沿着critic建议的方向更新自身的策略网络,从而完成了一步训练,继续循环直到训练成功;DDPG采用记忆池的设计,将与环境交互得到的数据样本存储在记忆池中,再从中随机选择一条数据进行训练,打破数据间的关联,实现了样本的独立;DDPG采用四个神经网络:将actor对应的网络称为策略网络,分为现实策略网络和目标策略网络,将critic对应的网络称为价值网络即Q网络,分为现实Q网络和目标Q网络;现实策略网络用于与环境进行交互,根据当前的状态s选择相应的动作a,并更新策略网络中的参数θμ;目标策略网络采用从记忆池中抽取的数据进行训练,完成根据下一状态s'选择合适的下一动作a'这一任务,该网络的网络参数θμ'定期从现实策略网络中进行复制更新;现实Q网络用于计算当前的Q值Q(s,a|θQ)和目标Q值y=r+γQ′(s′,a′|θQ'),并更新Q网络中的参数θQ;目标Q网络用于计算目标Q值中的Q′(s′,a′|θQ),该网络的网络参数θQ'定期从现实Q网络中进行复制更新;
23)基于DDPG算法设计空间双臂系统约束运动规划算法。


4.根据权利要求3所述的基于深度强化学习的空间双臂系统约束运动规划方法,其特征在于,所述步骤23)具体包括:
231)初始化现实策略网络与现实Q网络的网络参数θμ与θQ,并赋予目标策略网络与目标Q网络相同的网络参数值;
232)初始化步骤21)中构建的环境;
233)根据当前的状态s选取动作a,将动作a作为环境的输入,在环境中执行动作a并给出下一时刻的状态s'、当前单步的即时奖励以及是否完成目标的标志位;
234)判断重放缓存区是否存满,若未存满,则将当前时刻状态、当前执行的动作、当前单步奖励以及下一时刻状态(s,a,r,s')存入重放缓存区,并使用s'更新s,继续执行步骤233),若已存满,则将重放缓存区中最早的一组数据删除,并将当前时刻状态、当前执行的动作、当前单步奖励以及下一时刻状态(s,...

【专利技术属性】
技术研发人员:李爽李胤慷佘宇琛
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1