航天器在轨博弈的仿真模拟方法、系统及存储介质技术方案

技术编号:29703943 阅读:52 留言:0更新日期:2021-08-17 14:32
本发明专利技术实施例提供一种航天器在轨博弈的仿真模拟系统,包括实时解算航天器随时间变化的位置、速度、姿态、姿态角信息的运动学模型装置,对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义的场景定义装置,建立智能算法的神经网络模型的神经网络模型建立装置,调用神经网络模型并根据航天器观测量及速度增量、t0+T时刻航天器观测量及即时奖励函数对动作网络、评价网络进行训练的智能算法装置,将神经网络模型的训练过程数据通过图形方式呈现的结果输出与性能评估装置,可视化地呈现所述航天器的运动轨迹的场景实时显示装置,利用本技术方案可以实现航天器运行状态及运动轨迹的精确模拟与评估。

【技术实现步骤摘要】
航天器在轨博弈的仿真模拟方法、系统及存储介质
本专利技术涉及航天器轨道控制
,特别涉及一种航天器在轨博弈的仿真模拟方法、系统及存储介质。
技术介绍
空间博弈任务实时性要求高,传统依靠地面指令上传的方式,受限于通信延时和测控弧段约束,难以满足动态博弈态势的需求。亟需提升空间博弈任务的自主能力,使得航天器能够根据目标状态和空间环境,自主地调整自身的姿态、轨道、载荷控制策略,以应对动态变化的空间态势。
技术实现思路
鉴于上述技术问题,本专利技术实施例提供一种航天器在轨博弈的仿真模拟方法、系统及存储介质,以通过该仿真模拟方法和系统获取航天器的实时在轨运行状态,进而实现航天器的在轨博弈。本专利技术解决上述技术问题是通过如下技术方案予以实现的:一种航天器在轨博弈的仿真模拟系统,包括:运动学模型装置,用于根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算;场景定义装置,用于对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义,所述观测量包括:所述航天器的位置信息和速度信息,所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的;神经网络模型建立装置,用于建立智能算法的神经网络模型,所述神经网络模型包括:动作网络和评价网络的网络激活函数及网络结构;智能算法装置,用于获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数,调用所述神经网络模型,根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练,根据预设智能算法建立对应的算法模型,利用算法模型对所述动作网络和评价网络的网络权值进行更新,得到训练效果逐渐收敛的动作网络和评价网络;结果输出与性能评估装置,用于将神经网络模型的训练过程数据通过图形方式呈现,呈现的内容包括:不同算法模型训练过程的收敛曲线,航天器的运动轨迹,同时对航天器的运行状态进行数值评估;场景实时显示装置,用于可视化地呈现所述航天器的运动轨迹。本专利技术实施例提供一种航天器在轨博弈的仿真模拟方法,该方法包括:根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算;对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义,所述观测量包括:所述航天器的位置信息和速度信息,所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的;建立智能算法的神经网络模型,所述神经网络模型包括:动作网络和评价网络的网络激活函数及网络结构;获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数,调用神经网络模型,根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练,根据预设智能算法建立对应的算法模型,利用算法模型对所述动作网络和评价网络的网络权值进行更新,得到训练效果逐渐收敛的动作网络和评价网络;将神经网络模型的训练过程数据通过图形方式呈现,呈现的内容包括:不同算法模型训练过程的收敛曲线,航天器的运动轨迹,同时对航天器的运行状态进行数值评估;其中,航天器的运动轨迹通过可视化方法进行呈现。本专利技术实施例提供一种非易失性存储介质,该非易失性存储介质包括:软件程序,当该软件程序被执行时执行上述方法。在本专利技术实施例中,通过建立各航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算;获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数,根据t0时刻所述航天器的观测量、速度增量,一个控制周期T后t0+T时刻航天器的观测量和即时奖励函数对动作网络、评价网络进行训练并建立对应算法模型,将神经网络模型训练过程以图形方式进行呈现,实现航天器运行状态的呈现及数值评估。在现有技术中,传统依靠地面指令上传的方式,受限于通信延时和测控弧段约束,难以满足动态博弈态势的需求,由于缺少航天器在轨博弈博弈的深度强化学习训练系统,不能为后续多类空间场景下单个或多个航天器博弈提供便捷的学习训练环境,在空间博弈多智能体深度强化学习训练系统方面存在技术的空白。利用本专利技术的技术方案,建立了一套全新的面相空间博弈任务的数字仿真环境和学习训练框架,可以实现航天器在轨博弈的深度强化模拟控制,实现对空间态势的准确掌握,可根据用户需要对航天器个数、速度增量幅值、航天器抽象化参数、太阳方位等进行个性化设置,能够满足不同博弈场景的需求。附图说明图1为专利技术提供的航天器在轨博弈的仿真模拟系统组成示意图;图2为专利技术提供的航天器在轨博弈的仿真模拟方法流程示意图;图3为专利技术提供的深度强化学习训练系统各装置组成及调用关系示意图;具体实施方式图1为本专利技术实施例提供的一种航天器在轨博弈的仿真模拟系统的组成示意图,如图1所示,包括:运动学模型装置101、场景定义装置102、神经网络模型建立装置103、智能算法装置104、结果输出与性能评估装置105、场景实时显示装置106。运动学模型装置101,用于根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算;场景定义装置102,用于对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义,所述观测量包括:所述航天器的位置信息和速度信息,所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的;神经网络模型建立装置103,用于建立智能算法的神经网络模型,所述神经网络模型包括:动作网络和评价网络的网络激活函数及网络结构;智能算法装置104,用于获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数,调用所述神经网络模型,根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练,根据预设智能算法建立对应的算法模型,利用算法模型对所述动作网络和评价网络的网络权值进行更新,得到训练效果逐渐收敛的动作网络和评价网络;结果输出与性能评估装置105,用于将神经网络模型的训练过程数据通过图形方式呈现,呈现的内容包括:不同算法模型训练过程的收敛曲线,航天器的运动轨迹,同时对航天器的运行状态进行数值评估;场景实时显示装置106,用于可视化地呈现所述航天器的运动轨迹,并进一步用于根据用户输入调整所述航天器的运动轨迹,所述航天器用实心圆表示。在本专利技术实施例中,当网络权值更新量小于预设值时,判定该动作网络和评价网络收敛。判断权值更新量小于预本文档来自技高网...

【技术保护点】
1.一种航天器在轨博弈的仿真模拟系统,其特征在于,包括:/n运动学模型装置,用于根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算;/n场景定义装置,用于对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义,所述观测量包括:所述航天器的位置信息和速度信息,所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的;/n神经网络模型建立装置,用于建立智能算法的神经网络模型,所述神经网络模型包括:动作网络和评价网络的网络激活函数及网络结构;/n智能算法装置,用于获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数,调用所述神经网络模型,根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练,根据预设智能算法建立对应的算法模型,利用算法模型对所述动作网络和评价网络的网络权值进行更新,得到训练效果逐渐收敛的动作网络和评价网络;/n结果输出与性能评估装置,用于将神经网络模型的训练过程数据通过图形方式呈现,呈现的内容包括:不同算法模型训练过程的收敛曲线,航天器的运动轨迹,同时对航天器的运行状态进行数值评估;/n场景实时显示装置,用于可视化地呈现所述航天器的运动轨迹。/n...

【技术特征摘要】
1.一种航天器在轨博弈的仿真模拟系统,其特征在于,包括:
运动学模型装置,用于根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算;
场景定义装置,用于对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义,所述观测量包括:所述航天器的位置信息和速度信息,所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的;
神经网络模型建立装置,用于建立智能算法的神经网络模型,所述神经网络模型包括:动作网络和评价网络的网络激活函数及网络结构;
智能算法装置,用于获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数,调用所述神经网络模型,根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练,根据预设智能算法建立对应的算法模型,利用算法模型对所述动作网络和评价网络的网络权值进行更新,得到训练效果逐渐收敛的动作网络和评价网络;
结果输出与性能评估装置,用于将神经网络模型的训练过程数据通过图形方式呈现,呈现的内容包括:不同算法模型训练过程的收敛曲线,航天器的运动轨迹,同时对航天器的运行状态进行数值评估;
场景实时显示装置,用于可视化地呈现所述航天器的运动轨迹。


2.根据权利要求1所述的系统,其特征在于,所述场景实时显示装置,进一步用于根据用户输入调整所述航天器的运动轨迹,所述航天器用实心圆表示。


3.根据权利要求1所述的系统,其特征在于,所述动作网络和评价网络,包括:前馈全连接网络、卷积神经网络、长短期记忆网络。


4.根据权利要求1所述的系统,其特征在于,
所述智能算法包括:单体强化学习算法DDPG、单体强化学习算法PPO、多体强化学习算法MADDPG。


5.根据权利要求1所述的系统,其特征在于,
所述运动学模型装置,用于调用开普勒轨道运动学模型、CW轨道运动学模型或刚体六自由度姿态动力学模型,解算出各航天器的位置信息、速度信息、姿态、姿态角速度,调用相对指向模型,解算各航天器之间的相对位置、相对速度和相对指向关系。


6.根据权利要求1所述的系统,其特征在于,所述在轨博弈的航天器包括:第一航天器和第二航天器;
智能算法装置,进一步用于根据所述多个时刻中每个时刻所述第一航天器和第二航天器对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在所述仿真环境中分别对所述第一航天器和第二航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络,所述超参数包括:学习率、长期回报折扣因子、每次训练次数和批学习数据量。


7.根据权利要求6所述的系统,其特征在于,
所述智能算法装置,进一步用于执行
步骤1:在所述仿真环境中对所述第一航天器、第二航天器的初始轨道参数进行初始化,所述第一航天器和第二航天器处于同一轨道面内;
步骤2:初始化所述第一航天器和第二航天器的初始动作网络和初始评价网络;
步骤3:从gym仿真环境中获取t1时刻所述两个航天器的观测量,进行归一化处理后,输入到各自的初始动作网络中,得到t1时刻每个航天器在二维平面内的速度增量;
步骤4:在所述gym仿真环境中分别执行所述两个航天器的速度增量,对所述两个航天器进行轨道控制;
步骤5:从所述gym仿真环境中分别获取t1+T时刻所述两个航天器的观测量,确定两个航天器t1+T时刻的即时奖励函数;
步骤6:生成一条训练样本并存入样本库,所述训练样本包括:t1时刻所述第一航天器和第二航天器的观测量、速度增量,t1+T时刻所述两个航天器的即时奖励函数和观测量;
步骤7:重复执行步骤3至步骤6,直至样本库中的样本的数量达到预设值;
步骤8:对所述第一航天器和第二航天器的初始动作网络及初始评价网络进行训练;
步骤9:重复步骤7-8直至达到指定训练次数;
步骤10:返回步骤1,对所述初始轨道参数加入随机扰动,并重新开始所述两个航天器的动作网络及评价网络的训练,直至得到训练效果收敛的所述动作网络及评价网络。


8.根据权利要求7所述的系统,其特征在于,
所述智能算法装置,进一步用于
针对第一航天器和第二航天器,从所述样本库中随机抽取n个训练样本;
将所述n个训练样本中的每个训练样本输入各自的初始评价网络,根据所述各自的初始评价网络的输出以及各自的即时奖励值,以及长期回报折扣因子,计算所述第一航天器和第二航天器的每条训练样本所对应的长期奖励值;
以所述各自的长期奖励值为期望输出,按照预设的每次训练次数、批学习的数据量,分别对所述第一航天器和第二航天器的初始评价网络进行训练,得到所述第一航天器和第二航天器的第一评价网络,确定所述第一评...

【专利技术属性】
技术研发人员:袁利黄煌汤亮石恒韩冬应磊
申请(专利权)人:北京控制工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1