一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质制造方法及图纸

技术编号:37433266 阅读:13 留言:0更新日期:2023-05-05 19:48
本发明专利技术实施例公开了一种基于蒙特卡洛树搜索的航天器序列博弈方法,属于航天器轨道控制技术领域;该方法包括:在当前回合,构建当前回合的初始状态信息s0;以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。策航天器控制后的运动状态进行动作决策。策航天器控制后的运动状态进行动作决策。

【技术实现步骤摘要】
一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质


[0001]本专利技术实施例涉及航天器轨道控制
,尤其涉及一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质。

技术介绍

[0002]传统的航天器轨道博弈问题往往基于航天器连续机动假设,而实际任务场景下航天器更多的是采用脉冲机动方式,脉冲机动下的航天器轨道博弈问题缺乏统一的描述。
[0003]航天器轨道博弈问题终端奖励曲面的设计没有统一的形式,不具有通用性与灵活性。
[0004]扩展性博弈问题通常使用博弈树方法进行求解,往往需要对节点进行状态评估,传统的博弈树方法需要对每一个节点进行状态评估,计算资源消耗大。

技术实现思路

[0005]有鉴于此,本专利技术实施例期望提供一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质;能够针对脉冲机动下的航天器轨道博弈问题进行建模并在有限的时间及计算资源场景给出子博弈问题的较优解。
[0006]本专利技术实施例的技术方案是这样实现的:
[0007]第一方面,本专利技术实施例提供了一种基于蒙特卡洛树搜索的航天器序列博弈方法,包括:
[0008]在当前回合,构建当前回合的初始状态信息s0;
[0009]以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;
[0010]根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;
[0011]根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;
[0012]根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。
[0013]第二方面,本专利技术实施例提供了一种基于蒙特卡洛树搜索的航天器序列博弈装置,包括第一构建部分、第二构建部分、更新部分、决策部分和控制部分;其中,
[0014]所述第一构建部分,经配置为在当前回合,构建当前回合的初始状态信息s0;
[0015]所述第二构建部分,经配置为以当前回合的初始状态信息为博弈树的根节点,从离散动作空间形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;
[0016]所述更新部分,经配置为根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;
[0017]所述决策部分,经配置为根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;
[0018]所述控制部分,经配置为根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。
[0019]第三方面,本专利技术实施例提供了一种计算设备,所述计算设备包括:通信接口,存储器和处理器;各个组件通过总线系统耦合在一起;其中,
[0020]所述通信接口,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
[0021]所述存储器,用于存储能够在所述处理器上运行的计算机程序;
[0022]所述处理器,用于在运行所述计算机程序时,执行第一方面中所述基于蒙特卡洛树搜索的航天器序列博弈方法步骤,这里不再进行赘述。
[0023]第四方面,本专利技术实施例提供了一种计算机存储介质,所述计算机存储介质存储有基于蒙特卡洛树搜索的航天器序列博弈程序,所述基于蒙特卡洛树搜索的航天器序列博弈程序被至少一个处理器执行时实现第一方面所述基于蒙特卡洛树搜索的航天器序列博弈方法步骤。
[0024]本专利技术实施例提供了一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质;首先构建当前回合的初始状态信息,能够对脉动机动下的博弈问题进行离散化模型描述;接着在离散动作空间展开形成的候选状态中选择对效用估计有利的方向构建待探索子树,然后对其叶节点进行状态信息评估并反向更新搜索路径上所有节点的效用估计信息后做出最优动作决策,使得博弈动作的选择能够体现最终的博弈目标,缩小了博弈树的搜索范围,并且无需对每一个节点进行状态评估,从而降低了计算量,能够在计算资源有限的情况下对博弈问题求取较优解。
附图说明
[0025]图1为本专利技术实施例提供的监视卫星太阳光干扰约束示意图;
[0026]图2为本专利技术实施例提供的一种基于蒙特卡洛树搜索的航天器序列博弈方法流程示意图;
[0027]图3为本专利技术实施例提供的序列博弈状态转移过程示意图;
[0028]图4为本专利技术实施例提供的离散脉冲动作空间示意图;
[0029]图5为本专利技术实施例提供的完整博弈与子博弈对比图;
[0030]图6为本专利技术实施例提供的状态转移过程示意图;
[0031]图7为本专利技术实施例提供的探索新的节点示意图;
[0032]图8为本专利技术实施例提供的叶节点状态评估示意图;
[0033]图9为本专利技术实施例提供的追逃航天器对抗序列博弈树构建示意图;
[0034]图10为本专利技术实施例提供的一种基于蒙特卡洛树搜索的航天器序列博弈装置组成示意图;
[0035]图11为本专利技术实施例提供的一种计算设备的硬件结构示意图。
具体实施方式
[0036]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0037]考虑存在太阳光干扰约束下的监视博弈问题,具体的太阳光干扰下的可见性如图1所示。参与博弈的航天器双方博弈的目标对于追踪航天器来说是实现最佳的接近观测,对于逃跑航天器来说是破坏其最佳观测。追踪航天器的主要目标是实现接近观测中保证最佳的观测角度和相对距离。逃跑航天器的主要目标是实现破环观测条件。由于相对夹角是相对的,当破坏了对手航天器的观测夹角时自然处于顺光观测位置。
[0038]参见图2,本专利技术实施例提供的一种基于蒙特卡洛树搜索的航天器序列博弈方法,所述方法可以应用于决策航天器,可以理解地,决策航天器既可以是追踪航天器,也可以是逃跑航天器,所述方法包括:
[0039]S201:在当前回合,构建当前回合的初始状态信息s0;
[0040]S202:以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;
[0041]S203:根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;
[0042]S204:根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;
[0043]S205:根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。
[0044]上述方案表述了脉冲机动下的航天器轨道博弈中,决策航天器根据当前状态进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于蒙特卡洛树搜索的航天器序列博弈方法,其特征在于,包括:在当前回合,构建当前回合的初始状态信息s0;以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。2.根据权利要求1所述的方法,其特征在于,所述初始状态信息包括:根据自身的运动信息、观测对手航天器基于前一回合执行动作决策所形成的运动信息以及太阳相对位置,且被描述为下式所示:其中,x
sun
表示太阳的相对位置;x
i
,i=e,p表示决策航天器e和对手航天器p的包含有位置r
i
和速度v
i
的运动信息;下标t表示离散时间。3.根据权利要求2所述的方法,其特征在于,所述以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树,包括:以当前回合的初始状态信息为博弈树的根节点,将基于所述初始状态信息在离散动作空间上所产生的全部候选状态作为博弈树的第一层子节点S

;从所述第一层子节点S

中选择一个或多个节点作为待展开节点;预测自身和对手航天器后续设定数量回合的动作,并基于预测的动作对所述待展开节点的每一个进行展开,以形成与所述待展开节点的每一个所对应的待探索子树。4.根据权利要求3所述的方法,其特征在于,所述以当前回合的初始状态信息为博弈树的根节点,将基于所述初始状态信息在离散动作空间上所产生的全部候选状态作为博弈树的第一层子节点S

,包括:将连续动作空间根据进行均匀划分,获得离散动作空间;根据所述离散动作空间中的每一个采样空间对应的方向形成所述离散动作空间中的每一个采样空间对应的候选动作;根据所述初始状态信息以及每一个候选动作,通过下式进行状态转移,获得每一个候选动作对应的候选状态;其中,Φ(n)表示相对运动C

W方程的状态转移矩阵;n表示离散时间;x
i,n
表示在n时刻追踪航天器或逃跑航天器的运动状态;r
n
表示基于LVLH坐标系下追踪航天器或逃跑航天器
的位置向量;v
n
表示基于LVLH坐标系下追踪航天器或逃跑航天器的速度向量;a
n
表示基于LVLH坐标系下的动作向量;将全部候选状态作为所述博弈树的第一层子节点S

。5.根据权利要求4所述的方法,其特征在于,所述从所述S

中选择一个或多个节点作为待展开节点,包括:通过下式计算所述第一层子节点S

中每一个候选状态s

对应的置信上界UCB值:其中,前一部分Q(s

)表示节点状态的效用估计,体现对信息的利用,初始值为0,后续根据叶节点状态评估信息反向回溯更新;后一部分表示探索新的节点带来的信息;n(s)=∑
a∈A(s)
n(s,a)表示访问状态s的次数;c为常数,通过配置获得,一般地,当所述决策航天器为逃跑航天器时,c取正数,当所述决策航天器为追踪航天器时,c取负数;如果所述决策航天器为逃跑航天器,将所述第一层子节点S

中UCB最大值所对应的节点作为待展开节点;如果所述决策航天器为追踪航天器,将所述第一层子节点S

中UCB最小值所对应的节点作为待展开节点。6.根据权利要求3所述的方法,其特征在于,所述预测自身和对手航天器后续设定数量回合的动作,并基于预测的动作对所述待展开节点的每一个进行展开,以形成与所述待展开节点的每一个所对应的待探索子树,包括:步骤1:设置所述待展开节点对应展开的所述待探索子树展开层数最大值为M,设置m初始值为0,表征所述待探索子树的层号,所述待展开节点状态记录为s

m
,此时为对手航天器决策时刻;步骤2:在离散动作空间上随机选择一个动作a
p
∈A(s),按照被选动作对所述s

m
进行展开,状态迁移到s

m+1
=f(s
...

【专利技术属性】
技术研发人员:叶东贾振姜锐田鑫龙张剑桥
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1