一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质制造方法及图纸

技术编号：37433266 阅读：13 留言：0更新日期：2023-05-05 19:48

本发明专利技术实施例公开了一种基于蒙特卡洛树搜索的航天器序列博弈方法，属于航天器轨道控制技术领域；该方法包括：在当前回合，构建当前回合的初始状态信息s0；以当前回合的初始状态信息为博弈树的根节点，从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树；根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息，通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息；根据所述博弈树更新后的效用估计信息，做出当前回合的最优动作决策；根据所述最优动作决策控制决策航天器自身的运动状态，以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。策航天器控制后的运动状态进行动作决策。策航天器控制后的运动状态进行动作决策。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质

[0001]本专利技术实施例涉及航天器轨道控制
，尤其涉及一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质。

技术介绍

[0002]传统的航天器轨道博弈问题往往基于航天器连续机动假设，而实际任务场景下航天器更多的是采用脉冲机动方式，脉冲机动下的航天器轨道博弈问题缺乏统一的描述。
[0003]航天器轨道博弈问题终端奖励曲面的设计没有统一的形式，不具有通用性与灵活性。
[0004]扩展性博弈问题通常使用博弈树方法进行求解，往往需要对节点进行状态评估，传统的博弈树方法需要对每一个节点进行状态评估，计算资源消耗大。

技术实现思路

[0005]有鉴于此，本专利技术实施例期望提供一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质；能够针对脉冲机动下的航天器轨道博弈问题进行建模并在有限的时间及计算资源场景给出子博弈问题的较优解。
[0006]本专利技术实施例的技术方案是这样实现的：
[0007]第一方面，本专利技术实施例提供了一种基于蒙特卡洛树搜索的航天器序列博弈方法，包括：
[0008]在当前回合，构建当前回合的初始状态信息s0；
[0009]以当前回合的初始状态信息为博弈树的根节点，从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树；
[0010]根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息，通过回溯传播更新由所述根节点到所述叶节点之间路径上的...

【技术保护点】

【技术特征摘要】
1.一种基于蒙特卡洛树搜索的航天器序列博弈方法，其特征在于，包括：在当前回合，构建当前回合的初始状态信息s0；以当前回合的初始状态信息为博弈树的根节点，从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树；根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息，通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息；根据所述博弈树更新后的效用估计信息，做出当前回合的最优动作决策；根据所述最优动作决策控制决策航天器自身的运动状态，以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。2.根据权利要求1所述的方法，其特征在于，所述初始状态信息包括：根据自身的运动信息、观测对手航天器基于前一回合执行动作决策所形成的运动信息以及太阳相对位置，且被描述为下式所示：其中，x
sun
表示太阳的相对位置；x
i
，i＝e,p表示决策航天器e和对手航天器p的包含有位置r
i
和速度v
i
的运动信息；下标t表示离散时间。3.根据权利要求2所述的方法，其特征在于，所述以当前回合的初始状态信息为博弈树的根节点，从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树，包括：以当前回合的初始状态信息为博弈树的根节点，将基于所述初始状态信息在离散动作空间上所产生的全部候选状态作为博弈树的第一层子节点S
′
；从所述第一层子节点S
′
中选择一个或多个节点作为待展开节点；预测自身和对手航天器后续设定数量回合的动作，并基于预测的动作对所述待展开节点的每一个进行展开，以形成与所述待展开节点的每一个所对应的待探索子树。4.根据权利要求3所述的方法，其特征在于，所述以当前回合的初始状态信息为博弈树的根节点，将基于所述初始状态信息在离散动作空间上所产生的全部候选状态作为博弈树的第一层子节点S
′
，包括：将连续动作空间根据进行均匀划分，获得离散动作空间；根据所述离散动作空间中的每一个采样空间对应的方向形成所述离散动作空间中的每一个采样空间对应的候选动作；根据所述初始状态信息以及每一个候选动作，通过下式进行状态转移，获得每一个候选动作对应的候选状态；其中，Φ(n)表示相对运动C
‑
W方程的状态转移矩阵；n表示离散时间；x
i,n
表示在n时刻追踪航天器或逃跑航天器的运动状态；r
n
表示基于LVLH坐标系下追踪航天器或逃跑航天器
的位置向量；v
n
表示基于LVLH坐标系下追踪航天器或逃跑航天器的速度向量；a
n
表示基于LVLH坐标系下的动作向量；将全部候选状态作为所述博弈树的第一层子节点S
′
。5.根据权利要求4所述的方法，其特征在于，所述从所述S
′
中选择一个或多个节点作为待展开节点，包括：通过下式计算所述第一层子节点S
′
中每一个候选状态s
′
对应的置信上界UCB值：其中，前一部分Q(s
′
)表示节点状态的效用估计，体现对信息的利用，初始值为0，后续根据叶节点状态评估信息反向回溯更新；后一部分表示探索新的节点带来的信息；n(s)＝∑
a∈A(s)
n(s,a)表示访问状态s的次数；c为常数，通过配置获得，一般地，当所述决策航天器为逃跑航天器时，c取正数，当所述决策航天器为追踪航天器时，c取负数；如果所述决策航天器为逃跑航天器，将所述第一层子节点S
′
中UCB最大值所对应的节点作为待展开节点；如果所述决策航天器为追踪航天器，将所述第一层子节点S
′
中UCB最小值所对应的节点作为待展开节点。6.根据权利要求3所述的方法，其特征在于，所述预测自身和对手航天器后续设定数量回合的动作，并基于预测的动作对所述待展开节点的每一个进行展开，以形成与所述待展开节点的每一个所对应的待探索子树，包括：步骤1：设置所述待展开节点对应展开的所述待探索子树展开层数最大值为M，设置m初始值为0，表征所述待探索子树的层号，所述待展开节点状态记录为s
′
m
，此时为对手航天器决策时刻；步骤2：在离散动作空间上随机选择一个动作a
p
∈A(s)，按照被选动作对所述s
′
m
进行展开，状态迁移到s
′
m+1
＝f(s
...

【专利技术属性】
技术研发人员：叶东，贾振，姜锐，田鑫龙，张剑桥，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人