一种基于深度强化学习的航天器集群博弈智能决策方法技术

技术编号:38740727 阅读:15 留言:0更新日期:2023-09-08 23:25
本发明专利技术公开了一种基于深度强化学习的航天器集群博弈智能决策方法,包括:S1、对航天器集群博弈进行数学描述,构建己方航天器和目标航天器的追逃模型,建立相对运动动力学模型;S2、根据航天器集群博弈的特点,设计不同的奖励函数来区分航天器间合作或非合作博弈关系,设计全局、局部奖励引导集群协作完成任务;S3、将元学习算法与深度强化学习算法相结合,设计一种对不同空间任务具有强适应性的决策算法;S4、根据步骤S2和S3中设计的航天器集群智能决策算法进行训练,对训练好的决策网络进行测试。本发明专利技术针对目标的特征,自主生成利用己方数量优势的博弈策略,有效解决在非合作目标部分信息未知且策略不明的情况下己方航天器的决策问题。决策问题。决策问题。

【技术实现步骤摘要】
一种基于深度强化学习的航天器集群博弈智能决策方法


[0001]本专利技术属于航空航天
,具体涉及一种基于深度强化学习的航天器集群博弈智能决策方法。

技术介绍

[0002]随着航天器智能化程度不断增加,航天器技术在传统轨道博弈与任务分配技术的基础上,逐渐朝着智能决策、协同工作的方向发展。太空环境日益复杂,失效航天器和太空垃圾的数量也越来越多,这些都会对在轨驻留航天器构成潜在威胁,若其运行轨道靠近高价值航天器轨道,就有产生碰撞风险。对于这些非合作目标带来的潜在威胁,传统轨道博弈技术能应对部分确定性场景,但是在强不确定性博弈态势中就显得能力不足,对其清除任务的核心在于航天器安全、精准抵达非合作目标附近,但面临多源复杂干扰、信息不完备等不利因素。
[0003]以微分对策、最优控制等为代表的传统博弈控制方法难以解决上述问题,需要提出新型智能决策方法来推动集群博弈技术的发展。结合博弈论和马尔可夫决策过程,深度强化学习能够在多源复杂干扰、信息不完备等不利因素下处理合作和非完全合作系统智能决策问题,在机器人控制与规划领域已经取得一定研究成果。但神经网络复杂参数带来的不确定性,容易导致算法收敛性和适应性差的问题,需要在深度强化学习的基础上加以改进,以提高算法的收敛性和适应性,从而为航天器集群博弈领域提供一种可行的智能决策方法。

技术实现思路

[0004]本专利技术所要解决的技术问题是,在非合作目标部分信息未知、目标具有自主决策能力的情况下,设计一种算法,根据己方航天器数量以及机动能力制定出能利用己方优势的博弈方案。基于本专利技术设计的算法框架,在目标航天器机动策略未知的情况下,训练完成后的航天器集群能够自主协同完成对目标的追捕。
[0005]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于深度强化学习的航天器集群博弈智能决策方法,包括以下步骤:
[0006]S1、基于博弈论对航天器集群博弈进行数学描述,构建己方航天器和目标航天器的追逃模型,基于二体轨道运动方程,建立相对运动动力学模型;
[0007]S2、根据航天器集群博弈的特点,设计不同的奖励函数来区分航天器间合作或非合作博弈关系,设计全局、局部奖励引导航天器集群协作完成任务;
[0008]S3、将元学习算法与深度强化学习算法相结合,设计一种对不同空间任务具有强适应性的智能决策算法;
[0009]S4、根据步骤S2和步骤S3中设计的航天器集群智能决策算法进行训练,并对训练好的决策网络随机设计初始状态,进行测试。
[0010]本专利技术的有益效果是:本专利技术通过构建己方航天器集群与目标航天器的博弈模
型,考虑在椭圆轨道附近的航天器相对运动,将多智能体强化学习方法引入到航天器博弈模型,设计与实际任务相契合的奖励函数,以引导航天器在训练过程中收敛,从而克服了在非合作目标部分信息未知、策略不明时己方航天器控制策略效率不高的问题,实现了在不同情形下,算法生成控制策略的有效性。
[0011]进一步地,所述步骤S1包括以下步骤:
[0012]S101、基于博弈论知识,结合空间任务场景对博弈要素进行定义,引入纳什均衡解来描述博弈双方的最佳博弈策略;
[0013]S102、基于二体轨道动力学,忽略摄动因素,考虑虚拟主航天器在椭圆轨道上运行的情况,建立T

H方程来描述航天器的相对运动。
[0014]上述进一步方案的有益效果是:以航天器和目标航天器为博弈的参与者,对各自的目标函数进行设计,再考虑以椭圆轨道上运行的虚拟航天器为参考,建立相对运动模型。
[0015]再进一步地,所述步骤S101中双方博弈策略的数学模型如下:
[0016][0017]其中,J为参与者的价值函数,表达式为:min是求最小值函数,r
E
表示目标航天器的地心矢径,表示己方航天器的地心矢径,v
E
表示目标航天器的速度,表示己方航天器的速度,u
E
表示目标航天器的控制输入,表示己方航天器的控制输入,N表示己方航天器的数量。
[0018]上述进一步方案的有益效果是:本方案通过对双方的博弈策略进行建模,使用纳什均衡解对双方的最优策略进行解释,为深度强化学习方法学习到结果提供了理论支撑。
[0019]再进一步地,所述步骤S102中航天器相对运动动力学模型如下:
[0020][0021]其中,为位置的归一化坐标,f为真近点角,和分别是u对自变量f的二阶、一阶导数,和分别是v对自变量f的二阶、一阶导数,是w对自变量f的二阶导数,R
ref
为参考航天器的地心矢径,e为参考主航天器的轨道偏心率,a
u
,a
v
,a
w
为航天器施加的主动控制加速度。
[0022]上述进一步方案的有益效果是:本方案从二体动力学出发,建立了双方航天器相对于运行在椭圆轨道上的虚拟参考航天器的相对运动动力学模型,精确描述了的状态,为强化学习算法提供输入。
[0023]再进一步地,所述步骤S2包括以下步骤:
[0024]S201、对己方航天器追捕目标航天器成功与否的判定标准进行定义,同时考虑航天器位置与速度约束;
[0025]S202、针对多智能体强化学习算法中的全局评论家网络设计全局奖励设计;
[0026]S203、结合每个航天器的任务目标,针对每个智能体的评论家网络设计局部奖励设计。
[0027]上述进一步方案的有益效果是:本方案航天器追捕的任务特点进行奖励函数塑造,分别设计了全局和局部两种奖励函数。
[0028]再进一步地,所述步骤S201中针对航天器集群追逃任务成功完成的判定条件定义如下:
[0029][0030]其中,min是求最小值函数,R
pi
是己方航天器的位置,R
e
是目标航天器的位置,R
d
是据不同任务定义的距离阈值,V
pi
是己方航天器的速度,V
e
是目标航天器的速度,V
d
是据不同任务定义的速度阈值,N表示己方航天器的数量。
[0031]上述进一步方案的有益效果是:通过上述公式实现对于航天器追捕目标时是否成功判定条件的量化定义。
[0032]再进一步地,所述步骤S202中针对航天器集群的全局奖励表达式如下:
[0033][0034]其中,m为全局奖励系数,.min.是求最小值函数,u
pi
为己方航天器在X方向的归一化坐标,v
pi
为己方航天器在Y方向的归一化坐标,w
pi
为己方航天器在Z方向的归一化坐标,u
e
为目标航天器在X方向的归一化坐标,v
e
为目标航天器在Y方向的归一化坐标,w
e
为目标航天器在Z方向的归一化坐标,N表示己方航天器的数量。
[0035]上述进一步方案的有益效果是:本专利技术通过设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的航天器集群博弈智能决策方法,其特征在于,包括以下步骤:S1、基于博弈论对航天器集群博弈进行数学描述,构建己方航天器和目标航天器的追逃模型,基于二体轨道运动方程,建立相对运动动力学模型;S2、根据航天器集群博弈的特点,设计不同的奖励函数来区分航天器间合作或非合作博弈关系,设计全局、局部奖励引导航天器集群协作完成任务;S3、将元学习算法与深度强化学习算法相结合,设计一种对不同空间任务具有强适应性的智能决策算法;S4、根据步骤S2和步骤S3中设计的航天器集群智能决策算法进行训练,并对训练好的决策网络进行测试。2.根据权利要求1所述的一种基于深度强化学习的航天器集群博弈智能决策方法,其特征在于,所述步骤S1包括以下内容:基于博弈论知识,结合空间任务场景对博弈要素进行定义,引入纳什均衡解来描述博弈双方的最佳博弈策略,基于二体轨道动力学,忽略摄动因素,考虑虚拟主航天器在椭圆轨道上运行的情况,建立T

H方程来描述航天器的相对运动。3.根据权利要求1所述的一种基于深度强化学习的航天器集群博弈智能决策方法,其特征在于,所述步骤S2包括以下步骤:S201、对己方航天器追捕目标航天器成功与否的判定标准进行定义,同时考虑航天器位置与速度约束;S202、针对多智能体强化学习算法中的全局评论家网络设计全局奖励设计;S203、结合子航天器的任务目标,针对每个智能体的评论家网络设计局部奖励设计。4.根据权利要求3所述的基于深度强化学习的多航天器智能决策方法,其特征在于,所述步骤S201中判定条件为:其中,min是求最小值函数,R
pi
是己方...

【专利技术属性】
技术研发人员:余卫倬岳晓奎刘闯黄盘兴
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1