一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法技术方案

技术编号：22323379 阅读：37 留言：0更新日期：2019-10-19 10:44

本发明专利技术提供一种空间机器人机械臂抓捕控制系统、强化学习方法及动力学建模方法。本发明专利技术一部分，在考虑碰撞的情况下，设计基于强化学习的机械臂运动控制器，对非合作目标进行抓捕机动；另外一部分，分别设计PID控制器对空间机器人基座平台的姿态与轨道进行稳定控制。本发明专利技术相比传统的PD或PID控制，结合强化学习RL控制下的基座平台姿态与轨道扰动更小，机械臂末端运动过程更平稳，控制精度更高，而且强化学习RL控制下的机械臂运动灵活性好，更具有自主智能性。

全部详细技术资料下载

【技术实现步骤摘要】
一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法
本专利技术涉及机器人控制领域，尤其涉及一种空间机器人机械臂抓捕控制系统、强化学习方法及动力学建模方法。
技术介绍
空间机器人在轨服务已是目前太空技术的重要发展方向。空间机器人可广泛用于在轨维修、燃料加注与在轨组装等多方面的在轨服务中，可替代航天员完成舱外空间作业，使航天员避免来自外太空恶劣环境的伤害。机械臂与基座平台组成高度耦合的动力学系统，机械臂的运动会影响空间机器人基座平台的姿态稳定与轨道精度，同时，基座平台的姿态扰动与轨道运动也会影响机械臂的操作精度与稳定性。为保证空间机器人的姿态与轨道稳定，保证抓捕非合作目标空间任务的成功执行，本专利技术专利提出一种智能控制方法对空间机器人进行控制。针对空间机器人系统稳定控制问题，国内外许多学者提出了相应的解决措施。有针对空间机器人基座平台可控的情况设计了自适应控制方法，并在关节空间中对机械臂控制进行了仿真计算。有提出了带扰动观测器的鲁棒控制策略，将模型的不确定性与外界的干扰集中在一起，在机械臂的每个关节处设计了扰动观测器，结合PD控制完成对机械臂的控制。有提出了自适应神经网络控制方法,对不确定部分用神经网络近似，并证明了系统的稳定性。有将H∞控制与神经网络结合在一起，对自由漂浮空间机器人的操作手进行了控制，并考虑了模型的不确定性与外界的扰动。有针对载体位置、姿态均不受控并具有有界外部扰动的漂浮基柔性两杆空间机械臂振动进行了不主动抑制的全局鲁棒Terminal滑模控制。有在自由漂浮空间机器人系统中，考虑基座平台的反作用干扰，对机械臂运动进行了轨迹优化。有通过...

【技术保护点】
1.一种空间机器人机械臂抓捕控制系统，其特征在于，所述控制系统包括两部分：一部分为基于强化学习设计的机械臂控制器,其用于在考虑与目标航天器之间的碰撞干扰情况下，控制机械臂完成对非合作目标的抓捕；另一部分为PID控制的基座控制器，其用于进行基座平台的姿态与轨道稳定，减少基座平台的扰动运动，保证机械臂抓捕非合作目标的精度与稳定度。

【技术特征摘要】
2018.10.30 CN 20181128080841.一种空间机器人机械臂抓捕控制系统，其特征在于，所述控制系统包括两部分：一部分为基于强化学习设计的机械臂控制器,其用于在考虑与目标航天器之间的碰撞干扰情况下，控制机械臂完成对非合作目标的抓捕；另一部分为PID控制的基座控制器，其用于进行基座平台的姿态与轨道稳定，减少基座平台的扰动运动，保证机械臂抓捕非合作目标的精度与稳定度。2.一种用于权利要求1所述空间机器人机械臂抓捕控制系统的强化学习方法，其特征在于，只需要以状态变量作为数据输入，无需获知空间机器人准确动力学模型，强化学习控制系统中经过不断训练优化，获得最优的机械臂控制力矩τθ，所述状态变量包括机械臂末端与目标航天器之间的位置误差Δ与速度误差其中：Δ＝Lt-Le(1)式(1)、(2)中，Lt为机械臂末端期望位置，Le为机械臂末端实际位置。3.根据权利要求2所述的强化学习方法，其特征在于，所述强化学习方法中将模糊理论与强化学习中的Q-learning技术结合，采用高斯函数对所述状态变量进行模糊化处理，使得连续变化的状态变量以模糊离散表格形式存在，通过如下公式获得每个状态变量的隶属度函数：式(3)中，j为输入变量的模糊层数；χ为输入变量，即χj(i)为每层模糊层的中心值，σ控制高斯隶属度函数的“宽度”；将每一个变量模糊为3层，则两个变量分量两两组合为9种离散状态，针对每一种离散状态设计一种模糊规则，{u1,u2,u3,u4,u5}是与每条模糊规则所匹配的控制输出集合，分别表示{大、负、零、正、正大}5个模糊级别的输出。4.根据权利要求3所述的强化学习方法，其特征在于，设计其中的模糊规则如下：如果模糊变量χ(1)、χ(2)满足第j条模糊规则，那么控制输出Q(j,*)为q表中第j行中使得q值最小的那一列所对应的控制输出，根据每一条模糊规则中的最优输出去模糊化计算,得到连续性机械臂控制力矩：式(4)中，μj为每一条模糊规则的权重，可由式(5)获得：uj＝ζ(χ(1))ζ(χ(2))(5)。5.根据权利要求2～4任一项所述的强化学习方法，其特征在于，强化学习的q表更新计算步骤如下：S1,q表初始化，对q表中的值进行随机赋值；S2,采用贪心算法以ε的概率选择动作作为实际的输出动作，并通过模糊规则的权重μj进行去模糊化计算得到实际机械臂输出力矩如式(6)、(7)所示:S3,实际Q值计算：S4，目标Q值的计算，在施加机械臂控制力矩后，使机械臂状态变量由χ变为状态χ′,在状态χ′时,通过q表获得最优控制力矩并计算在最优控制力矩下的目标Q值为：S5,成本函数f的计算，机械臂末端距离目标位置点越远，成本越大，并考虑机械臂末端的速度与目标位置点之间的速度差，将成本函数定义为：S6,可得到Q值更新公式：式(11)中，λ为学习率；γ为折扣系数；经过强化学习不断训练，q表中的值不断更新收敛，最终获得空间机械臂控制力矩τθ：6.根据权利要求2所述的强化学习方法，其特征在于，所述考虑与目标航天器之间的碰撞干扰具体为：构建空间机器人机械臂抓捕控...

【专利技术属性】
技术研发人员：邬树楠，刘帅，吴志刚，初未萌，王恩美，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人