一种基于多智能体强化学习的机场滑行智能调度方法技术

技术编号:38147125 阅读:7 留言:0更新日期:2023-07-13 09:11
本发明专利技术提供了一种基于多智能体强化学习的机场滑行智能调度方法,包括:步骤1,接收机场场面上每架飞机的状态信息;步骤2,使用基于集中式学习分布式执行框架的多智能体强化学习算法对所有飞机的状态信息进行分布式策略训练,获得场面上的每一架飞机的分布式策略;步骤3,根据生成的分布式策略为对应的飞机选择动作,并发送至场面上的飞机,场面上的飞机根据分布式策略生成的动作进行滑行;步骤4,执行步骤1至步骤3重复上述学习过程,最终所有的飞机都能够在避免滑行冲突的前提下,按照最优路径轨迹进行滑行。该方法可以根据机场场面信息决定每架飞机的移动方向和移动速度,在避免冲突的条件下,最小化飞机的滑行时间。最小化飞机的滑行时间。最小化飞机的滑行时间。

【技术实现步骤摘要】
一种基于多智能体强化学习的机场滑行智能调度方法


[0001]本专利技术属于空中交通管理领域,具体涉及一种基于多智能体强化学习的机场滑行智能调度方法。

技术介绍

[0002]随着空中交通运输量的增长,民航机场的运行管理面临着越来越大的压力。机场基础设施扩建的周期远远跟不上航空运输需求的增长,所以当务之急是提高整个机场系统的运作效率,以相对经济的方式解决机场资源的冲突。
[0003]传统调度方式依靠人工指派滑行路径,由于塔台管制员高强度工作负荷,在监视指挥航空器运行的同时,还需规划路径,受限于场面的复杂环境以及人员因素等,存在安全风险高、效率低下等不足。现有技术“多智能体强化学习在直升机机场调度中的应用”(《计算机工程与应用》,2022年9月8日)设计了简易直升机调度实验平台,并在此实验平台的基础上完成了几种多智能体强化学习算法对直升机的路径引导,其所使用的机场调度环境仅是二维网格环境,场面环境复杂程度远小于现实场景下的大型机场,且使用的多智能体强化学习算法,只是简单的将单智能体强化学习算法复用在多智能体环境下,当环境的空间维度增加时,很难训练出一个有效的调度策略,因此不能很好地应用在大型机场的场面调度中。

技术实现思路

[0004]专利技术目的:本专利技术所要解决的技术问题是针对现有机场调度效率低的问题,提供一种基于多智能体强化学习的机场滑行智能调度方法。
[0005]为了解决上述技术问题,本专利技术公开了一种基于多智能体强化学习的机场滑行智能调度方法,包含以下步骤:
[0006]步骤1,接收机场场面上每架飞机的状态信息,所述状态信息包括所述飞机当前时刻的位置信息、上一时刻的位置信息和滑行终点位置信息;
[0007]步骤2,使用基于集中式学习分布式执行框架的多智能体强化学习算法对所有飞机的状态信息进行分布式策略训练,获得场面上的每一架飞机的分布式策略;
[0008]步骤3,根据生成的分布式策略为对应的飞机选择动作,将每架飞机对应的动作发送给场面上的飞机,场面上的飞机根据分布式策略生成的动作进行滑行;
[0009]步骤4,执行步骤1至步骤3重复上述学习过程,最终所有的飞机都能够在避免滑行冲突的前提下,按照最优路径轨迹进行滑行。
[0010]进一步地,步骤2中多智能体强化学习算法采用多智能体近端策略优化(Multi

Agent Proximal Policy Optimization,MAPPO)算法。
[0011]进一步地,步骤1中记机场场面上共有N架飞机,N≥2,第i架飞机记为E
i
,i=1,...,N,第i架飞机E
i
的状态信息包括t时刻的位置x
i
(t)、在上一时刻t

1的位置x
i
(t

1)和指定的滑行终点位置
[0012]第i架飞机E
i
的动作设计为一个元组对于每一个时隙t,第i架飞机E
i
沿着的方向以速度v
i
(t)进行移动,并且所有飞机的联合动作空间被定义为a
t
=(a
1,t
,a
2,t
,...,a
N,t
),每架飞机能观测到的数据z
i,t
包括场面上所有飞机在时隙t下的位置,自己在上一时刻和指定的滑行终点位置,即
[0013][0014]其中表示第i架飞机观测到在t时刻场面上所有飞机的当前位置,x
i
(t

1)表示在上一时刻t

1的位置,表示指定的滑行终点位置。
[0015]进一步地,步骤2中包括如下步骤:
[0016]步骤2

1,设置每架飞机在t时刻的奖励函数;
[0017]步骤2

2,根据所有飞机传入的状态信息计算联合价值函数,所述联合价值函数包括状态价值函数和优势函数;
[0018]步骤2

3,根据联合价值函数更新每架飞机的分布式策略。
[0019]进一步地,步骤2

1包括:
[0020]记第i架飞机的优势函数为A
i
(s
t
,a
t
),其中s
t
表示机场场面在t时刻下所有飞机的状态,a
t
表示机场场面在t时刻下所有飞机采取的动作集合;
[0021]考虑多架飞机滑行过程中的安全性约束。如果在滑行过程中飞机之间的距离小于安全距离时,则在奖励中扣除一个惩罚项。因此,将基础的飞机调度知识与安全性约束相结合,统一融入奖励函数中,令t时刻第i架飞机的奖励函数为:
[0022]r
i,t
(s
i,t
,a
i,t
)=r1
i,t
(s
i,t
,a
i,t
)+r2
i,t
(s
i,t
,a
i,t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0023]其中,r1
i,t
(s
i,t
,a
i,t
)是用来衡量飞机与目的地之间距离的奖励函数项,如果飞机在t时刻运动的方向是靠近终点的方向,则奖励值为0;相应的运动方向为其他远离终点的方向奖励值则为

2;此外,当飞机暂停时,其奖励值为

1,相应的表达式如下:
[0024][0025]r2
i,t
(s
i,t
,a
i,t
)是用来衡量飞机是否到达终点或发生滑行道碰撞的额外奖惩项,当飞机滑行到指定终点时,给予一个正数奖励项C,100≤C≤1000;如果场面上飞机之间发生了碰撞,则每架飞机都会得到一个负数惩罚项

C,相应表达式如下:
[0026][0027]进一步地,步骤2

2包括:
[0028]在每个时刻t的初始阶段,基于全局状态s
t
使用分布式策略π
i
给对应的飞机E
i
,,选择一个动作a
i,t
~π
i
(a
i,t
|s
t
),表示机场场面内所有飞机的集合,并将得到的动作发送给场面上对应的飞机让其执行;假设通过与所有飞机之间的通信,获得每一架飞机E
i
的(z
i,t
,a
i,t
,r
i,t
),从而获得场面上所有飞机整体的(s
t
,a
t
,r
t
);其中s
t

表示时刻t下场面上所有飞机的全局状态信息,表示环境全部的状态本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的机场滑行智能调度方法,其特征在于,包括以下步骤:步骤1,接收机场场面上每架飞机的状态信息,所述状态信息包括所述飞机当前时刻的位置信息、上一时刻的位置信息和滑行终点位置信息;步骤2,使用基于集中式学习分布式执行框架的多智能体强化学习算法对所有飞机的状态信息进行分布式策略训练,获得场面上的每一架飞机的分布式策略;步骤3,根据生成的分布式策略为对应的飞机选择动作,将每架飞机对应的动作发送给场面上的飞机,场面上的飞机根据分布式策略生成的动作进行滑行;步骤4,执行步骤1至步骤3重复上述学习过程,最终所有的飞机都能够在避免滑行冲突的前提下,按照最优路径轨迹进行滑行。2.根据权利要求1所述的一种基于多智能体强化学习的机场滑行智能调度方法,其特征在于,步骤2中多智能体强化学习算法采用多智能体近端策略优化算法。3.根据权利要求2所述的一种基于多智能体强化学习的机场滑行智能调度方法,其特征在于,步骤1中记机场场面上共有N架飞机,N≥2,第i架飞机记为E
i
,i=1,...,N,第i架飞机E
i
的状态信息包括t时刻的位置x
i
(t)、在上一时刻t

1的位置x
i
(t

1)和指定的滑行终点位置第i架飞机E
i
的动作设计为一个元组对于每一个时隙t,第i架飞机E
i
沿着的方向以速度v
i
(t)进行移动,并且所有飞机的联合动作空间被定义为a
t
=(a
1,t
,a
2,t
,...,a
N,t
),每架飞机能观测到的数据z
i,t
包括场面上所有飞机在时隙t下的位置,自己在上一时刻和指定的滑行终点位置,即其中表示第i架飞机观测到在t时刻场面上所有飞机的当前位置,x
i
(t

1)表示在上一时刻t

1的位置,表示指定的滑行终点位置。4.根据权利要求3所述的一种基于多智能体强化学习的机场滑行智能调度方法,其特征在于,步骤2中包括如下步骤:步骤2

1,设置每架飞机在t时刻的奖励函数;步骤2

2,根据所有飞机传入的状态信息计算联合价值函数,所述联合价值函数包括状态价值函数和优势函数;步骤2

3,根据联合价值函数更新每架飞机的分布式策略。5.根据权利要求4所述的一种基于多智能体强化学习的机场滑行智能调度方法,其特征在于,步骤2

1包括:记第i架飞机的优势函数为A
i
(s
t
,a
t
),其中s
t
表示机场场面在t时刻下所有飞机的状态,a
t
表示机场场面在t时刻下所有飞机采取的动作集合;令t时刻第i架飞机的奖励函数为:r
i,t
(s
i,t
,a
i,t
)=r1
i,t
(s
i,t
,a
i,t
)+r2
i,t
(s
i,t
,a
i,t
)
ꢀꢀꢀꢀ
(2)其中,r1
i,t
(s
i,t
,a
i,t
)是用来衡量飞机与目的地之间距离的奖励函数项,如果飞机在t时刻运动的方向是靠近终点的方向,则奖励值为0;相应的运动方向为其他远离终点的方向奖励值则为

2;此外,当飞机暂停时,其奖励值为

1,相应的表达式如下:
r2
i,t
(s
i,t
,a
i,t
)是用来衡量飞机是否到达终点或发生滑行道碰撞的额外奖惩项,当飞机滑行到指定终点时,给予一个正数奖励项C,100≤C≤1000;如果场面上飞机之间发生了碰撞,则每架飞机都会得到一个负数惩罚项

C,相应表达式如下:6.根据权利要求5所述的一种基于多智能体强化学习的机场滑行智能调度方法,其特征在于,步骤2

2包括:在每个时刻t的初始阶段,基于全局状态s
t
使用分布式策略π
i
给对应的飞机E
i
,,选择一个动作a
i,t
~π
i
(a
i,t
|s
t
),表示机场场面内所有飞机的集合,并将得到的动作发送给场面上对应的飞机让其执行;假设通过与所有飞机之间的通信,获得每一架飞机E
i
的(z
i,t
,a
i,t
,r
i,t
),从而获得场面上所有飞机整体的(s
t
,a
t
,r
t
);其中s
t
=表示时刻t下场面上所有飞机的全局状态信息,表示环境全部的状态信息的集合,所有的飞机共享同一个奖励函数r(s
t
,a
t
)=r
t
;在获得场面上所有飞机整体的状态信息后,通过集中式学习为每架飞机生成用以控制滑行调度的分布式策略;集中式学习是基于采样轨迹来实现的,其中T表示采样长度;对于第i架飞机E
i
,对应的分布式策略是π
i
(a
i,t
|s
t
),令折扣奖励为其中γ为折扣因子,τ为当前时刻与时刻t的时间差,如果用π={π1(a
1,t
|s
t
),π2(a
2,t
|s
t
),...,π
N
(a
N,t
|s
t
)表示联合策略,状态价值函数V
π

【专利技术属性】
技术研发人员:唐岚梁永胜黄泓毓丁辉付胜豪董斌王凯
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1