【技术实现步骤摘要】
航天器在轨博弈的仿真模拟方法、系统及存储介质
本专利技术涉及航天器轨道控制
,特别涉及一种航天器在轨博弈的仿真模拟方法、系统及存储介质。
技术介绍
空间博弈任务实时性要求高,传统依靠地面指令上传的方式,受限于通信延时和测控弧段约束,难以满足动态博弈态势的需求。亟需提升空间博弈任务的自主能力,使得航天器能够根据目标状态和空间环境,自主地调整自身的姿态、轨道、载荷控制策略,以应对动态变化的空间态势。
技术实现思路
鉴于上述技术问题,本专利技术实施例提供一种航天器在轨博弈的仿真模拟方法、系统及存储介质,以通过该仿真模拟方法和系统获取航天器的实时在轨运行状态,进而实现航天器的在轨博弈。本专利技术解决上述技术问题是通过如下技术方案予以实现的:一种航天器在轨博弈的仿真模拟系统,包括:运动学模型装置,用于根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算;场景定义装置,用于对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义,所述观测量包括:所述航天器的位置信息和速度信息,所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的;神经网络模型建立装置,用于建立智能算法的神经网络模型,所述神经网络模型包括:动作网络和评价网络的网络激活函数及网络结构;智能算法装置,用于获取航天器运行过程中多个时刻的观测量 ...
【技术保护点】
1.一种航天器在轨博弈的仿真模拟系统,其特征在于,包括:/n运动学模型装置,用于根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算;/n场景定义装置,用于对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义,所述观测量包括:所述航天器的位置信息和速度信息,所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的;/n神经网络模型建立装置,用于建立智能算法的神经网络模型,所述神经网络模型包括:动作网络和评价网络的网络激活函数及网络结构;/n智能算法装置,用于获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数,调用所述神经网络模型,根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练,根据预设智能算法建立对应的算法模型,利用算法模型对所述动作网络和评价网络的网络权值进行更新,得到训练效果逐渐收敛的动作网络和评价网络;/n结果输出与性能评估装置,用于将神经网 ...
【技术特征摘要】
1.一种航天器在轨博弈的仿真模拟系统,其特征在于,包括:
运动学模型装置,用于根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算;
场景定义装置,用于对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义,所述观测量包括:所述航天器的位置信息和速度信息,所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的;
神经网络模型建立装置,用于建立智能算法的神经网络模型,所述神经网络模型包括:动作网络和评价网络的网络激活函数及网络结构;
智能算法装置,用于获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数,调用所述神经网络模型,根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练,根据预设智能算法建立对应的算法模型,利用算法模型对所述动作网络和评价网络的网络权值进行更新,得到训练效果逐渐收敛的动作网络和评价网络;
结果输出与性能评估装置,用于将神经网络模型的训练过程数据通过图形方式呈现,呈现的内容包括:不同算法模型训练过程的收敛曲线,航天器的运动轨迹,同时对航天器的运行状态进行数值评估;
场景实时显示装置,用于可视化地呈现所述航天器的运动轨迹。
2.根据权利要求1所述的系统,其特征在于,所述场景实时显示装置,进一步用于根据用户输入调整所述航天器的运动轨迹,所述航天器用实心圆表示。
3.根据权利要求1所述的系统,其特征在于,所述动作网络和评价网络,包括:前馈全连接网络、卷积神经网络、长短期记忆网络。
4.根据权利要求1所述的系统,其特征在于,
所述智能算法包括:单体强化学习算法DDPG、单体强化学习算法PPO、多体强化学习算法MADDPG。
5.根据权利要求1所述的系统,其特征在于,
所述运动学模型装置,用于调用开普勒轨道运动学模型、CW轨道运动学模型或刚体六自由度姿态动力学模型,解算出各航天器的位置信息、速度信息、姿态、姿态角速度,调用相对指向模型,解算各航天器之间的相对位置、相对速度和相对指向关系。
6.根据权利要求1所述的系统,其特征在于,所述在轨博弈的航天器包括:第一航天器和第二航天器;
智能算法装置,进一步用于根据所述多个时刻中每个时刻所述第一航天器和第二航天器对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在所述仿真环境中分别对所述第一航天器和第二航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络,所述超参数包括:学习率、长期回报折扣因子、每次训练次数和批学习数据量。
7.根据权利要求6所述的系统,其特征在于,
所述智能算法装置,进一步用于执行
步骤1:在所述仿真环境中对所述第一航天器、第二航天器的初始轨道参数进行初始化,所述第一航天器和第二航天器处于同一轨道面内;
步骤2:初始化所述第一航天器和第二航天器的初始动作网络和初始评价网络;
步骤3:从gym仿真环境中获取t1时刻所述两个航天器的观测量,进行归一化处理后,输入到各自的初始动作网络中,得到t1时刻每个航天器在二维平面内的速度增量;
步骤4:在所述gym仿真环境中分别执行所述两个航天器的速度增量,对所述两个航天器进行轨道控制;
步骤5:从所述gym仿真环境中分别获取t1+T时刻所述两个航天器的观测量,确定两个航天器t1+T时刻的即时奖励函数;
步骤6:生成一条训练样本并存入样本库,所述训练样本包括:t1时刻所述第一航天器和第二航天器的观测量、速度增量,t1+T时刻所述两个航天器的即时奖励函数和观测量;
步骤7:重复执行步骤3至步骤6,直至样本库中的样本的数量达到预设值;
步骤8:对所述第一航天器和第二航天器的初始动作网络及初始评价网络进行训练;
步骤9:重复步骤7-8直至达到指定训练次数;
步骤10:返回步骤1,对所述初始轨道参数加入随机扰动,并重新开始所述两个航天器的动作网络及评价网络的训练,直至得到训练效果收敛的所述动作网络及评价网络。
8.根据权利要求7所述的系统,其特征在于,
所述智能算法装置,进一步用于
针对第一航天器和第二航天器,从所述样本库中随机抽取n个训练样本;
将所述n个训练样本中的每个训练样本输入各自的初始评价网络,根据所述各自的初始评价网络的输出以及各自的即时奖励值,以及长期回报折扣因子,计算所述第一航天器和第二航天器的每条训练样本所对应的长期奖励值;
以所述各自的长期奖励值为期望输出,按照预设的每次训练次数、批学习的数据量,分别对所述第一航天器和第二航天器的初始评价网络进行训练,得到所述第一航天器和第二航天器的第一评价网络,确定所述第一评...
【专利技术属性】
技术研发人员:袁利,黄煌,汤亮,石恒,韩冬,应磊,
申请(专利权)人:北京控制工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。