一种基于深度强化学习的非合作目标捕获方法技术

技术编号:40251137 阅读:18 留言:0更新日期:2024-02-02 22:45
一种基于深度强化学习的非合作目标捕获方法,它属于空间机械臂控制与非合作目标捕获领域。本发明专利技术解决了当同时要求目标捕获和能量、时间损失性能优化时,现有深度强化学习算法训练的时间成本高以及目标捕获的成功率低的问题。本发明专利技术针对空间机械臂非合作目标抓捕这类复杂高维控制问题,提出了预训练加主任务训练的方法,在预训练过程中完成目标抓捕任务,并在主任务训练过程中对抓捕时的待优化目标函数进行优化,解决了在训练过程中同时进行抓捕和目标函数优化时存在的训练成功率低,算法难以收敛的问题,而且训练时间成本较低、利用训练好的控制策略进行目标捕获的成功率高。本发明专利技术方法可以应用于非合作目标捕获。

【技术实现步骤摘要】

本专利技术属于空间机械臂控制与非合作目标捕获领域,具体涉及一种在输出受限的情况下以能量和时间损耗为优化目标的基于深度强化学习的非合作目标捕获方法


技术介绍

1、随着人类对太空探索的不断深入,空间任务日趋复杂与多样,这使得空间机器人在空间任务中发挥出了越来越重要的作用。空间机械臂作为一种功能强大的空间机器人,可用于航天器燃料补充,在轨维修,设备装配、拆卸以及各种实验任务。其中非合作目标捕获是空间机械臂最基础和重要的能力之一,也是实现其他诸多空间任务的基础。由于空间机械臂能源十分宝贵,因此优化任务的能量损失有助于延长空间机械臂在轨服务时间,同时,减小空间机械臂执行目标捕获任务的时间可以提升机械臂工作效率,有利于后续任务开展。因而对空间漂浮机械臂非合作目标捕获时的时间与能量损失进行优化具有重要的意义。传统的优化方法需要建立空间机械臂系统的解析动力学模型,而空间机械臂系统处于零重力环境下,机械臂和基座的运动学与动力学之间存在耦合关系,这使得高维空间机械臂的动力学模型十分复杂,而燃料消耗及动力学参数误差等问题进一步提升了获取空间机械臂精确动力学模型的难度,从而使得本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的非合作目标捕获方法,其特征在于,所述方法具体包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的非合作目标捕获方法,其特征在于,所述待优化目标函数为C=k1ct+k2ceng,其中,ct=T是任务耗费的总时长,ceng是能量损耗,k1是时间的权重,k2是能量损耗的权重;

3.根据权利要求2所述的一种基于深度强化学习的非合作目标捕获方法,其特征在于,所述状态向量为其中,bp为基座的位置,bo为基座的姿态,为基座的线速度,为基座角速度,q为漂浮基空间机械臂关节位置,为漂浮基空间机械臂关节速度向量,τb为基座控制力矩,τm为漂浮基空间...

【技术特征摘要】

1.一种基于深度强化学习的非合作目标捕获方法,其特征在于,所述方法具体包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的非合作目标捕获方法,其特征在于,所述待优化目标函数为c=k1ct+k2ceng,其中,ct=t是任务耗费的总时长,ceng是能量损耗,k1是时间的权重,k2是能量损耗的权重;

3.根据权利要求2所述的一种基于深度强化学习的非合作目标捕获方法,其特征在于,所述状态向量为其中,bp为基座的位置,bo为基座的姿态,为基座的线速度,为基座角速度,q为漂浮基空间机械臂关节位置,为漂浮基空间机械臂关节速度向量,τb为基座控制力矩,τm为漂浮基空间机械臂关节控制力矩,fb是基座的控制力,ep为末端夹持器的位置向量,tp为目标的位置向量。

4.根据权利要求3所述的一种基于深度强化学习的非合作目标捕获方法,其特征在于,所述动作向量为[τb,τm]。

5.根据权利要求4所述的一种基于深度强化学...

【专利技术属性】
技术研发人员:邵翔宇雷文骁赵彤宇张欧阳陈伟良孙光辉
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1