【技术实现步骤摘要】
一种静默协同下多航天器协同轨道博弈控制方法
[0001]本专利技术涉及一种静默协同下多航天器协同轨道博弈控制方法,属于航天器轨道控制
技术介绍
[0002]多航天器轨道博弈是未来太空博弈的主要方式,多颗航天器协同配合,对目标星进行卡位、驱离、逆光区成像等行为。然而,在多航天器博弈场景中联合动作通常产生全局奖励,缺乏单一航天器对整体任务完成贡献度的量化指标。另一方面,在多航天器博弈场景学习训练过程中,每一个航天器的策略均在变化,带来了学习训练效率低、博弈控制效果差的问题。
[0003]现有技术中,尚未发现多航天器协同轨道博弈控制的相关技术方案。
技术实现思路
[0004]本专利技术要解决的技术问题是:克服现有技术的不足,解决了静默协同下多航天器协同轨道博弈控制问题。
[0005]本专利技术目的通过以下技术方案予以实现:
[0006]一种静默协同下多航天器协同轨道博弈控制方法,包括:
[0007](1)选取被护卫航天器为参考点,建立CW轨道相对运动学模型及坐标系; >[0008](2)本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种静默协同下多航天器协同轨道博弈控制方法,其特征在于,包括:(1)选取被护卫航天器为参考点,建立CW轨道相对运动学模型及坐标系;(2)初始化2Q颗在轨博弈航天器的位置、速度,预设2Q颗在轨博弈航天器的质量、体积、敏感器能力与机动能力,并预设2Q颗在轨博弈航天器的观测量与控制量;所述2Q颗在轨博弈航天器包括Q颗红方航天器和Q颗蓝方航天器;(3)为红蓝双方航天器设置即时奖励函数,用于激励航天器之间的协同行为;(4)为红蓝双方航天器设置策略网络及价值网络;(5)设置多智能体强化学习算法的超参数,用于辅助学习训练算法的收敛;(6)对红蓝双方策略网络及价值网络进行左右互搏学习训练,根据红蓝双方策略网络给出的速度增量分别对红蓝双方航天器进行轨道控制,完成左右互搏学习训练后获得自主变轨博弈策略;(7)在静默状态下,多航天器利用自主变轨博弈策略对被护卫航天器进行护卫。2.根据权利要求1所述的轨道博弈控制方法,其特征在于,所述观测量包括航天器自身位置及速度、队友航天器的相对位置及相对速度、对手航天器的相对位置、速度关系,所述控制量为CW轨道相对运动学模型内xyz三轴的速度增量;其中,CW轨道相对运动学模型坐标系中,原点为被护卫航天器,即CW轨道相对运动学模型的参考点,z轴垂直向下指向地心,y轴垂直于被护卫航天器的轨道平面,x轴根据右手直角坐标系定义。3.根据权利要求1所述的轨道博弈控制方法,其特征在于,蓝方航天器的即时奖励分为两部分,第一部分为Q颗蓝方航天器与被护航天器的相对距离之和,第二部分为被红方航天器占据逆光区的蓝方航天器数量;红方航天器的即时奖励分为三部分,第一部分为Q颗红方航天器与其距离最近蓝方航天器的相对距离之和,第二部分为Q颗蓝方航天器与其距离最近红方航天器的相对距离之和,第三部分为被红方航天器占据逆光区的蓝方航天器数量。4.根据权利要求1所述的轨道博弈控制方法,其特征在于,所述超参数包括累积奖励折扣率、学习率、批处理数据量。5.根据权利要求1所述的轨道博弈控制方法,其特征在于,所述左右互搏学习训练为:在多航天器轨道博弈场景中,通过红蓝双方智能体博弈的方式,实现红蓝双方智能的螺旋式提升。6.根据权利要求1所述的轨道博弈控制方法,其特征在于,所述对策略网络及价值网络进行学习训练包括:(6
‑
1)初始化被护卫航天器的轨道高度;(6
‑
2)初始化红蓝双方航天器的控制周期;(6
‑
3)初始化红蓝双方航天器在CW轨道相对运动学模型内的初始位置、速度;(6
‑
4)分别初始化红蓝双方航天器的策略网络和价值网络,设置多智能体强化学习算法的初始化超参数;(6
‑
5)初始化CW轨道相对运动学模型解算;(6
‑
6)读取t0时刻Q颗蓝方航天器的初始位置及初始速度、Q颗红方航天器的初始位置及初始速度;
(6
‑
...
【专利技术属性】
技术研发人员:袁利,王英杰,汤亮,刘磊,张聪,黄煌,马亮,耿远卓,
申请(专利权)人:北京控制工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。