一种回合制轨道追逃博弈的智能控制方法技术

技术编号:39295549 阅读:25 留言:0更新日期:2023-11-07 11:03
本发明专利技术公开了一种回合制轨道追逃博弈的智能控制方法,包括:对回合制轨道追逃博弈过程进行分析,建立回合制轨道追逃博弈问题模型;基于回合制轨道追逃博弈问题模型,针对回合制轨道追逃博弈建立对应的回合制马尔科夫决策过程,设计回合制轨道追逃博弈中双方的奖励函数;根据双方的奖励函数,利用MADDPG对回合制轨道追逃博弈智能控制的策略网络进行训练;追逃双方航天器利用训练好的策略网络,根据自身对环境的观测信息输出控制指令,实现回合制轨道追逃博弈的智能控制。本发明专利技术充分考虑了轨道动力学约束、非完备信息约束以及航天器轨道机动特点,更加符合实际空间场景,在回合制轨道追逃博弈建模及策略设计方面具有重要价值。价值。价值。

【技术实现步骤摘要】
一种回合制轨道追逃博弈的智能控制方法


[0001]本专利技术属于航空航天领域,涉及一种回合制轨道追逃博弈的智能控制方法。

技术介绍

[0002]空间轨道追逃博弈问题的研究起源于非合作目标交会问题的延伸,当非合作目标具备决策、机动能力时,非合作目标交会问题就发展成为了轨道追逃博弈问题。逃方作为非合作目标同样具备典型的非合作性:信息层面不沟通、机动行为不配合、先验知识不完备等特性。在实际航天工程中,对非合作目标进行测定轨是需要一段时间的,而在航天器轨道追逃博弈这种对抗场景中更是如此,当一方航天器机动后,另一方需要花费一段时间才能重新完成对对手的测定轨,获得对方的状态信息。因此双方航天器的行动会有先后顺序,且后者可以观察到先者的行动并据此做出相应决策,呈现回合制特点,即行动有先后、信息有差异、测控有延时,该博弈属于动态追逃博弈类型。
[0003]而现有的研究多集中在基于传统微分博弈理论的连续同时轨道博弈模型,近些年随着人工智能技术的发展,有一些研究者开始尝试利用深度强化学习解决脉冲式轨道同时博弈问题。但是目前针对回合制轨道追逃博弈问题的研究仍本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种回合制轨道追逃博弈的智能控制方法,其特征在于,包括:对回合制轨道追逃博弈过程进行分析,建立回合制轨道追逃博弈问题模型;基于回合制轨道追逃博弈问题模型,针对回合制轨道追逃博弈建立对应的回合制马尔科夫决策过程,设计回合制轨道追逃博弈中双方的奖励函数;根据双方的奖励函数,利用MADDPG对回合制轨道追逃博弈智能控制的策略网络进行训练;追逃双方航天器利用训练好的策略网络,根据自身对环境的观测信息输出控制指令,实现回合制轨道追逃博弈的智能控制。2.根据权利要求1所述的一种回合制轨道追逃博弈的智能控制方法,其特征在于,所述回合制轨道追逃博弈过程的分析包括:博弈参与者包括追逃双方航天器,定义为{P,E},其中P表示追击航天器,E表示逃跑航天器;在回合制轨道追逃博弈中,双方均采用脉冲式轨道机动模型,航天器的控制模型如下:其中,φ(t,t0)为根据C

W方程解析解整理得到的从t0时刻到t时刻的状态转移矩阵:φ(t,t0)=[φ1(Δt) φ2(Δt)],φ
v
(t,t
i
)=φ2(t

t
i
)=φ2(Δt),u
i
=[Δv
i,x Δv
i,y
]
T
在追逃博弈的开始阶段,追击航天器首先进行决策控制,该决策时刻为该时刻追击航天器的控制指令为在追击航天器施加控制后,逃跑航天器需要经过ΔT
E
的反应时间后才能完成对追击航天器的重新测定轨,然后逃跑航天器会根据双方的状态进行决策控制,决策时刻为控制指令为然后类似的,追击航天器经过ΔT
P
的反应时间后完成对逃跑航天器的测定轨,然后进入到第二回合,追击航天器根据观测的状态完成决策控制,决策时刻为控制指令为第一回合的时间是从到基于上述回合制轨道追逃博弈过程的分析,构建回合制轨道追逃博弈的多阶段机动方式约束:第i回合的时间是到即从追击航天器的第i次决策时刻到第i+1次决策时刻;第i回合的过程为:时刻追击航天器执行控制指令然后经过逃跑航
天器的反应时间ΔT
E
后,时刻逃跑航天器执行控制指令然后经过追击航天器的反应时间ΔT
P
后,进入到下一回合;多阶段机动方式约束的具体数学表征如下:3.根据权利要求1所述的一种回合制轨道追逃博弈的智能控制方法,其特征在于,所述回合制轨道追逃博弈问题模型的建立过程为:航天器机动能力的约束和满足其中,分别表示追逃双方的单次速度增量上限;航天器的燃料储备约束表示为:其中,表示追逃双方的燃料储备上限;任务时间t满足t≤tmax其中,任务时间上限t
max
;在回合制轨道追逃博弈中双方航天器能够得到的信息是非完备的,只有经过反应时间后才能够得到对方的状态信息,则非完备信息的约束表征如下:后才能够得到对方的状态信息,则非完备信息的约束表征如下:其中,表示在t时刻追击航天器对逃跑航天器状态的观测值,由于反应时间的存在,逃跑航天器在时刻决策控制后,追击航天器需要经过ΔT
p
才可以重新完成对逃跑航
天器的状态观测,同样的表示在t时刻追击航天器对逃跑航天器状态的观测值,上式表示逃跑航天器需要在追击航天器决策机动后经过ΔT
e
的反应时间后才可以完成状态观测;航天器追逃博弈中双方的目标用以下公式描述:其中,T
c
为追击航天器成功追上逃逸航天器所需的时间,即追逐时间,公式表示追击航天器的目标是找到自身能够使追逐时间最短的脉冲控制序列与之相反逃跑航天器的目标是找到自身能够最大化追逐时间的脉冲控制序列Para表示与博弈结果相关的约束条件参数:其中,表示机动能力约束,表示燃料储备约束,t
max
表示任务时间约束;因此,回合制轨道追逃博弈问题模型为:因此,回合制轨道追逃博弈问题模型为:因此,回合制轨道追逃博弈问题模型为:因此,回合制轨道追逃博弈问题模型为:
4.根据权利要求1所述的一种回合制...

【专利技术属性】
技术研发人员:党朝辉赵力冉唐生勇卫国宁吴斌陈瑛
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1