一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法技术方案

技术编号:22323379 阅读:37 留言:0更新日期:2019-10-19 10:44
本发明专利技术提供一种空间机器人机械臂抓捕控制系统、强化学习方法及动力学建模方法。本发明专利技术一部分,在考虑碰撞的情况下,设计基于强化学习的机械臂运动控制器,对非合作目标进行抓捕机动;另外一部分,分别设计PID控制器对空间机器人基座平台的姿态与轨道进行稳定控制。本发明专利技术相比传统的PD或PID控制,结合强化学习RL控制下的基座平台姿态与轨道扰动更小,机械臂末端运动过程更平稳,控制精度更高,而且强化学习RL控制下的机械臂运动灵活性好,更具有自主智能性。

【技术实现步骤摘要】
一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法
本专利技术涉及机器人控制领域,尤其涉及一种空间机器人机械臂抓捕控制系统、强化学习方法及动力学建模方法。
技术介绍
空间机器人在轨服务已是目前太空技术的重要发展方向。空间机器人可广泛用于在轨维修、燃料加注与在轨组装等多方面的在轨服务中,可替代航天员完成舱外空间作业,使航天员避免来自外太空恶劣环境的伤害。机械臂与基座平台组成高度耦合的动力学系统,机械臂的运动会影响空间机器人基座平台的姿态稳定与轨道精度,同时,基座平台的姿态扰动与轨道运动也会影响机械臂的操作精度与稳定性。为保证空间机器人的姿态与轨道稳定,保证抓捕非合作目标空间任务的成功执行,本专利技术专利提出一种智能控制方法对空间机器人进行控制。针对空间机器人系统稳定控制问题,国内外许多学者提出了相应的解决措施。有针对空间机器人基座平台可控的情况设计了自适应控制方法,并在关节空间中对机械臂控制进行了仿真计算。有提出了带扰动观测器的鲁棒控制策略,将模型的不确定性与外界的干扰集中在一起,在机械臂的每个关节处设计了扰动观测器,结合PD控制完成对机械臂的控制。有提出了自适应神经网络控制方法,对不确定部分用神经网络近似,并证明了系统的稳定性。有将H∞控制与神经网络结合在一起,对自由漂浮空间机器人的操作手进行了控制,并考虑了模型的不确定性与外界的扰动。有针对载体位置、姿态均不受控并具有有界外部扰动的漂浮基柔性两杆空间机械臂振动进行了不主动抑制的全局鲁棒Terminal滑模控制。有在自由漂浮空间机器人系统中,考虑基座平台的反作用干扰,对机械臂运动进行了轨迹优化。有通过估计机械臂产生的角动量,然后对基座平台姿态进行补偿控制,对机械臂运动与基座平台姿态进行了协调控制。有提出在自由漂浮基下,由空间机械臂自身的控制实现机械臂与基座平台协调运动的方法。有考虑反应轮的方面来重新描述自由飞行空间机器人的动力学方程,应用一种新的自适应变结构控制方法实现了受系统不确定性影响的空间机器人鲁棒协调控制器。有针对空间机械手轨迹跟踪问题,使用分散递推控制策略,设计了分散鲁棒控制器。空间机械臂的运动与基座平台的运动相互耦合,为提高机械臂抓捕的精度与稳定度,需要同时控制机械臂和基座平台的运动。此外,机械臂的运动导致系统的动力学参数发生变化,因此抓捕过程中的空间机器人是一个时变的非线性耦合系统。传统的控制器需要已知空间机器人系统精确的动力学模型,而且没有考虑目标的非合作特性。
技术实现思路
根据上述提出的技术问题,而提供一种基于强化学习的空间机械手臂抓捕控制系统,该控制系统包括两部分,一部分,通过基于强化学习的机械臂运动控制器,对非合作目标进行抓捕机动;另外一部分,通过PID控制器保证抓捕过程中,空间机器人基座平台的姿态稳定与轨道精度。本专利技术还进一步提出了一种基于强化学习空间机械臂抓捕控制方法,在与外界环境的交互中学习得到控制律,提高空间机器人系统在轨工作的自主性。本专利技术采用的技术手段如下:一种空间机器人机械臂抓捕控制系统,所述控制系统包括两部分:一部分为基于强化学习设计的机械臂控制器,其用于在考虑与目标航天器之间的碰撞干扰情况下,控制机械臂完成对非合作目标的抓捕;另一部分为PID控制的基座控制器,其用于进行基座平台的姿态与轨道稳定,减少基座平台的扰动运动,保证机械臂抓捕非合作目标的精度与稳定度。本专利技术还提供了一种用于上述控制系统中的强化学习控制方法,只需要以状态变量(机械臂末端与目标航天器之间的位置误差Δ与速度误差)作为数据输入,无需获知空间机器人准确动力学模型,在强化学习控制系统中经过不断训练优化,获得最优的机械臂控制力矩τθ。其中:Δ=Lt-Le(1)式(1)、(2)中,Lt为机械臂末端期望位置,Le为机械臂末端实际位置。进一步的,所述强化学习方法中将模糊理论与强化学习中的Q-learning技术结合,采用高斯函数对所述状态变量进行模糊化处理,使得连续变化的状态变量以模糊离散表格形式存在。通过如下公式获得每个状态分量的隶属度函数:式(3)中,j为输入变量的模糊层数;χ为输入变量,即χj(i)为每层模糊层的中心值,σ控制高斯隶属度函数的“宽度”。将每一个变量模糊为3层,则两个变量分量两两组合为9种离散状态,针对每一种离散状态设计一种模糊规则。{u1,u2,u3,u4,u5}是与每条模糊规则所匹配的控制输出集合,分别表示{大、负、零、正、正大}5个模糊级别的输出。进一步的,设计其中的模糊规则如下:如果模糊变量χ(1)、χ(2)满足第j条模糊规则,那么控制输出Q(j,*)为q表中第j行中使得q值最小的那一列所对应的控制输出,根据每一条模糊规则中的最优输出去模糊化计算,得到连续性机械臂控制力矩:式(4)中,μj为每一条模糊规则的权重,可由式(5)获得:uj=ζ(χ(1))ζ(χ(2))(5)进一步的,所述强化学习的更新步骤如下:S1,q表初始化,对q表中的值进行随机赋值;S2,采用贪心算法以ε的概率选择动作作为实际的输出动作并通过模糊规则的权重μj去模糊化计算得到实际机械臂输出力矩如式(6)、(7)所示:S3,实际Q值计算:S4,目标Q值的计算。在施加机械臂控制力矩后,使机械臂状态变量由χ变为状态χ′,在状态χ′时,通过q表获得最优控制力矩并计算在最优控制力矩下的目标Q值为:S5,f为成本函数,机械臂末端距离目标位置点越远,成本越大,并考虑机械臂末端的速度与目标位置点之间的速度差,将成本函数定义为:S6,可得到Q值更新公式:式(11)中,λ为学习率;γ为折扣系数。经过强化学习的训练过程,q表中的值不断更新收敛,最终获得空间机械臂控制力矩τθ:进一步地,所述考虑与目标航天器之间的碰撞干扰具体为:构建空间机器人机械臂抓捕控制系统的碰撞模型,具体地,以目标航天器位置为球心设置一个半径为R的球域,作为碰撞发生区域,在机械臂末端进入碰撞区域时,机械臂末端与目标航天器会不断地发生接触碰撞,接触力作用接触点处发生局部变形,变形量δ为沿接触点公法线方向n的相互侵入量,当抓取操作时,变形量δ<0时发生碰撞,采用赫兹接触力模型计算碰撞力为:式中Kc和Cc为接触碰撞刚度系数和阻尼系数;为侵入速度,即机械臂末端速度,如式(15)所示,式中n=N。一种用于上述控制系统的空间机器人动力学建模方法,包括以下步骤:S1,空间机器人的可控基座平台与机械臂组成一个多体链,由N+1个刚体和N个关节组成,N个关节从1到N分别进行编号,θ=(θ1,θ2,...,θN)用来表示这些关节转动的角度,θP=(θPx,θPy,θPz)T用来表示基座平台的姿态角,rP=(rPx,rPy,rPz)T用来表示基座平台的轨道位置。S2,将轨道坐标系作为惯性坐标系ΣI,以空间机器人质心为原点;定义基座平台坐标系ΣP,以基座平台质心为原点;坐标系ΣP的ox轴与空间机器人轴对称轴重合,稳定状态下指向前进方向,oy轴垂直于纵对称面,oz轴与其它两轴互补成右旋坐标系;所述基座平台与空间机器人固联,Ln与ln分别表示惯性坐标系ΣI与基座平台坐标系ΣP第n个连杆质心的位置矢量,Ln=ln+Lp(13)Le=T(θp)R(θ)(14)其中,Lp表示坐标系ΣI下基座平台质心的位置矢量;Le表示坐标系ΣI下的机械臂末端位本文档来自技高网
...

【技术保护点】
1.一种空间机器人机械臂抓捕控制系统,其特征在于,所述控制系统包括两部分:一部分为基于强化学习设计的机械臂控制器,其用于在考虑与目标航天器之间的碰撞干扰情况下,控制机械臂完成对非合作目标的抓捕;另一部分为PID控制的基座控制器,其用于进行基座平台的姿态与轨道稳定,减少基座平台的扰动运动,保证机械臂抓捕非合作目标的精度与稳定度。

【技术特征摘要】
2018.10.30 CN 20181128080841.一种空间机器人机械臂抓捕控制系统,其特征在于,所述控制系统包括两部分:一部分为基于强化学习设计的机械臂控制器,其用于在考虑与目标航天器之间的碰撞干扰情况下,控制机械臂完成对非合作目标的抓捕;另一部分为PID控制的基座控制器,其用于进行基座平台的姿态与轨道稳定,减少基座平台的扰动运动,保证机械臂抓捕非合作目标的精度与稳定度。2.一种用于权利要求1所述空间机器人机械臂抓捕控制系统的强化学习方法,其特征在于,只需要以状态变量作为数据输入,无需获知空间机器人准确动力学模型,强化学习控制系统中经过不断训练优化,获得最优的机械臂控制力矩τθ,所述状态变量包括机械臂末端与目标航天器之间的位置误差Δ与速度误差其中:Δ=Lt-Le(1)式(1)、(2)中,Lt为机械臂末端期望位置,Le为机械臂末端实际位置。3.根据权利要求2所述的强化学习方法,其特征在于,所述强化学习方法中将模糊理论与强化学习中的Q-learning技术结合,采用高斯函数对所述状态变量进行模糊化处理,使得连续变化的状态变量以模糊离散表格形式存在,通过如下公式获得每个状态变量的隶属度函数:式(3)中,j为输入变量的模糊层数;χ为输入变量,即χj(i)为每层模糊层的中心值,σ控制高斯隶属度函数的“宽度”;将每一个变量模糊为3层,则两个变量分量两两组合为9种离散状态,针对每一种离散状态设计一种模糊规则,{u1,u2,u3,u4,u5}是与每条模糊规则所匹配的控制输出集合,分别表示{大、负、零、正、正大}5个模糊级别的输出。4.根据权利要求3所述的强化学习方法,其特征在于,设计其中的模糊规则如下:如果模糊变量χ(1)、χ(2)满足第j条模糊规则,那么控制输出Q(j,*)为q表中第j行中使得q值最小的那一列所对应的控制输出,根据每一条模糊规则中的最优输出去模糊化计算,得到连续性机械臂控制力矩:式(4)中,μj为每一条模糊规则的权重,可由式(5)获得:uj=ζ(χ(1))ζ(χ(2))(5)。5.根据权利要求2~4任一项所述的强化学习方法,其特征在于,强化学习的q表更新计算步骤如下:S1,q表初始化,对q表中的值进行随机赋值;S2,采用贪心算法以ε的概率选择动作作为实际的输出动作,并通过模糊规则的权重μj进行去模糊化计算得到实际机械臂输出力矩如式(6)、(7)所示:S3,实际Q值计算:S4,目标Q值的计算,在施加机械臂控制力矩后,使机械臂状态变量由χ变为状态χ′,在状态χ′时,通过q表获得最优控制力矩并计算在最优控制力矩下的目标Q值为:S5,成本函数f的计算,机械臂末端距离目标位置点越远,成本越大,并考虑机械臂末端的速度与目标位置点之间的速度差,将成本函数定义为:S6,可得到Q值更新公式:式(11)中,λ为学习率;γ为折扣系数;经过强化学习不断训练,q表中的值不断更新收敛,最终获得空间机械臂控制力矩τθ:6.根据权利要求2所述的强化学习方法,其特征在于,所述考虑与目标航天器之间的碰撞干扰具体为:构建空间机器人机械臂抓捕控...

【专利技术属性】
技术研发人员:邬树楠刘帅吴志刚初未萌王恩美
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1