一种基于深度强化学习的机位调度方法技术

技术编号:39712667 阅读:4 留言:0更新日期:2023-12-17 23:21
本发明专利技术公开了一种基于深度强化学习的机位调度方法,该方法通过对民航机位调度问题以最大化民航机位调度结果的靠桥率作为优化目标进行马尔可夫建模,设定状态空间

【技术实现步骤摘要】
一种基于深度强化学习的机位调度方法


[0001]本专利技术属于民航机位调度
,具体地说,是涉及一种基于深度强化学习的机位调度方法


技术介绍

[0002]民航机场的停机位调度是在一天之前,根据次日的航班时间表,为即将在机场为起飞

降落和中转的航班分配适当的停机位,最后生成一个停机位调度表,并将此表发送至民航的相关部门以协调停机位的调度工作

在给航班分配停机位的过程中,一方面要考虑航班的类型限制和停留时间限制,避免航班使用停机位的时间产生碰撞

另外一方面需要在满足时间和类型约束的前提下,尽可能地提高安全

效率

经济

质量等指标

[0003]现有技术中,对于民航机位调度,国内外的研究主要关注了两个方面的优化目标:乘客体验和机场效率

从乘客体验的角度来看,停机位调度的优化目标研究早在上世纪
70
年代就已经开始


Braaksma

Shortreed
首次提出将乘客在机场的总行走距离最小化为目标,他们的目标是提升乘客的旅行便利性

随后,多位研究者纷纷展开相关研究,以深化从乘客体验视角优化停机位调度问题的理解

在这过程中,
Mangoubi
及其团队专注于最小化转机乘客的行走距离,以优化他们的旅行体验

后在
2001
年,
Xu

Bailey
把旅客的行走时间最小化作为优化目标,从时间角度进一步提升乘客的出行效率

[0004]除了运行效率,停机位调度的鲁棒性也是需要考虑的因素之一

在这方面,研究者们提出了多种优化目标,以保障停机位调度的鲁棒性

比如,降低停机位冲突的数量是一个关键目标

在面对多架航班同时需要使用同一停机位的情况下,如何合理调配,以规避冲突和延误,无疑是一个极富挑战性的问题


技术实现思路

[0005]本专利技术的目的在于提供一种基于深度强化学习的机位调度方法,主要解决现有民航机位使用效率低

鲁棒性低的问题

[0006]为实现上述目的,本专利技术采用的技术方案如下:
[0007]一种基于深度强化学习的机位调度方法,包括以下步骤:
[0008]S1
,将民航机位基础信息内置于智能体中,向智能体输入需要安排的航班的时刻表;
[0009]S2
,由智能体为时刻表中的航班以最大化民航机位调度结果的靠桥率作为优化目标依次安排机位,并为优化目标建立机位独占性约束和机位

航班类型匹配约束;
[0010]S3
,将智能体为当前航班安排的机位输入到民航机位调度环境中,首先由智能体判断大小类型是否匹配,其次再判断时间是否冲突,如果都符合,则进行状态转移操作,修改停机位和航班的状态;
[0011]其中,在智能体为当前航班安排的机位输入到民航机位调度环境的过程中,建立包括民航机位调度问题的状态空间模型和动作空间模型的马尔可夫模型,用于描绘智能体
与民航机位调度环境间的互动和最优策略的学习过程;
[0012]S4
,采用基于卷积神经网络的
Actor

Critic
算法对马尔可夫模型进行模型训练,引导智能体在民航机位调度环境中选择合适的动作对机位进行调度;
[0013]S5
,根据民航机位调度问题的约束条件和优化目标进行奖励函数的设计,判断安排的机位是近机位还是远机位,如果是近机位则给予近机位立即奖励,如果是远机位则给予远机位立即奖励;
[0014]S6
,判断所有航班是否都已经安排完毕,如果是,则安排结束,给出环境的总奖励,并修改状态为已完成

[0015]进一步地,在所述步骤
S2
中,最大化民航机位调度结果的靠桥率的优化目标表达式为:
[0016][0017]式中,
F
是航班数量,
S
是停机位的总数,
x
ij
是航班

机位分配的值,取值为0或1;
g

(g0

g1,


g
j


g
s
)
是机位远近类型
0/1
向量,0表示远机位,1表示近机位,
C
代表靠桥率;
[0018]所述优化目标的约束包括机位独占性约束和机位

航班类型匹配约束;
[0019]其中,机位独占性约束的表达式为:
[0020][0021]式中,
S
表示停机位的总数,而
x
ij
表示航班

机位分配的值,取值为0或1;
[0022]机位

航班类型匹配约束的表达式为:
[0023]M
i
≤M
j
[0024]式中,
M
i
代表航班
i
的机型类型,
M
j
代表机位
j
上最大可接受的航班机型类型,
M
共有两个取值,从大机型到小机型依次为
1、0。
[0025]进一步地,在本专利技术中,所述状态空间模型为一个由纵向合并的停机位状态矩阵和航班状态矩阵形成的多维矩阵;
[0026]所述停机位状态矩阵由停机位占用时间矩阵

停机位大小类型矩阵

停机位远近类型矩阵纵向合并构成;
[0027]其中,停机位占用时间矩阵的为一个
(T+1)
×
S

0/1
矩阵,其中0代表该时间步长的机位是空闲的,而1表示该时间步长的机位被占用;
[0028]所述停机位大小类型矩阵和停机位远近类型矩阵的表达式均为:
[0029][0030]其中
α
j

t

A
t
的列向量,
α
j

t
为一个全1列向量,对于停机位大小类型状态矩阵代表机位为最大能容纳大机型的机位,对于停机位远近类型矩阵代表机位是近机位,反之,
α
j

t
为一个全0列向量,对于停机位大小类型状态矩阵代表机位为最大只能容纳小机型的机位,对于停机位远近类型矩阵代表机位是远机位;所述航班状态矩阵由航班停留时间状态矩阵
和航班大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的机位调度方法,其特征在于,包括以下步骤:
S1
,将民航机位基础信息内置于智能体中,向智能体输入需要安排的航班的时刻表;
S2
,由智能体为时刻表中的航班以最大化民航机位调度结果的靠桥率作为优化目标依次安排机位,并为优化目标建立机位独占性约束和机位

航班类型匹配约束;
S3
,将智能体为当前航班安排的机位输入到民航机位调度环境中,首先由智能体判断大小类型是否匹配,其次再判断时间是否冲突,如果都符合,则进行状态转移操作,修改停机位和航班的状态;其中,在智能体为当前航班安排的机位输入到民航机位调度环境的过程中,建立包括民航机位调度问题的状态空间模型和动作空间模型的马尔可夫模型,用于描绘智能体与民航机位调度环境间的互动和最优策略的学习过程;
S4
,采用基于卷积神经网络的
Actor

Critic
算法对马尔可夫模型进行模型训练,引导智能体在民航机位调度环境中选择合适的动作对机位进行调度;
S5
,根据民航机位调度问题的约束条件和优化目标进行奖励函数的设计,判断安排的机位是近机位还是远机位,如果是近机位则给予近机位立即奖励,如果是远机位则给予远机位立即奖励;
S6
,判断所有航班是否都已经安排完毕,如果是,则安排结束,给出环境的总奖励,并修改状态为已完成
。2.
根据权利要求1所述的一种基于深度强化学习的机位调度方法,其特征在于,在所述步骤
S2
中,最大化民航机位调度结果的靠桥率的优化目标表达式为:式中,
F
是航班数量,
S
是停机位的总数,
x
ij
是航班

机位分配的值,取值为0或1;
g

(g0,
g1,


g
j


g
s
)
是机位远近类型
0/1
向量,0表示远机位,1表示近机位,
C
代表靠桥率;所述优化目标的约束包括机位独占性约束和机位

航班类型匹配约束;其中,机位独占性约束的表达式为:式中,
S
表示停机位的总数,而
x
ij
表示航班

机位分配的值,取值为0或1;机位

航班类型匹配约束的表达式为:
M
i
≤M
j
式中,
M
i
代表航班
i
的机型类型,
M
j
代表机位
j
上最大可接受的航班机型类型,
M
共有两个取值,从大机型到小机型依次为
1、0。3.
根据权利要求2所述的一种基于深度强化学习的机位调度方法,其特征在于,所述状态空间模型为一个由纵向合并的停机位状态矩阵和航班状态矩阵形成的多维矩阵;所述停机位状态矩阵由停机位占用时间矩阵

停机位大小类型矩阵

停机位远近类型矩阵纵向合并构成;其中,停机位占用时间矩阵的为一个
(T+1)
×
S

0/1
矩阵,其中0代表该时间步长的机
位是空闲的,而1表示该时间步长的机位被占用;所述停机位大小类型矩阵和停机位远近类型矩阵的表达式均为:其中
α
j

t

A
t
的列向量,
α
j

t
为一个全1列向量,对于停机位大小类型状态矩阵代表机位为最大能容纳大机型的机位,对于停机位远近类型矩阵代表机位是近机位,反之,
α
j

t
为一个全0列向量,对于停机位大小类型状态矩阵代表机位为最大只能容纳小机型的机位,对于停机位远近类型矩阵代表机位是远机位;所述航班状态矩阵由航班停留时间状态矩阵和航班大小类型状态矩阵纵向合并构成;所述航班停留时间状态矩阵和航班大小类型状态矩阵均用一个
(T+1)
×
S

0/1
矩阵表示;在航班停留时间状态矩阵中,全为0的一行代表航班在该时间步不使用机位,为1则代表航班在该时间步需要使用机位;在航班大小类型状态矩阵中,矩阵全为1时,代表的是大型机型的航班;相反,如果矩阵全为0,则表示的是小型机型的航班;所述航班停留时间状态矩阵和航班大小类型状态矩阵纵向合并后得到的所述航班状态矩阵表达式为:式中,
β
i

t

A
t
的行向量,若
β
i
为全1行向量,则代表航班在第
t+i
个时间步需要使用机位,反之,若
β
i
为全0行向量则代表航班在第
t+i
个时间步不使用机位
。4.
根据权利要求3所述的一种基于深度强化学习的机位调度方法,其特征在于,所述动作空间模型的表达式为:
a
i
∈{1
,2,


j



S}
其中
a
i
代表智能体为当前航班
i
分配机位的动作,这个动作的值是从机位编号1~
S
中选择的一个整数
。5.
根据权利要求4所述的一种基于深度强化学习的机位调度方法,其特征在于,在所述步骤
S3
中,所述状态转移操作包括停机位状态

航班队列状态和所有状态矩阵共同的纵向维度即时间步的状态更新;当智能体成功为当前航班选择机位后,更新停机位占用状态矩阵,将被选择机位的当前航班停留时间段标记为已被占用,即在停机位状态矩阵中,将对应机位的对应时间步由0变为1;当智能体成功为当前航班选择机位后,更新航班状态队列,当前航班的分配结束,将当前航班移出航班队列,添加一个新的航班到队列尾部,将队列头部的航班作为新的当前航班
。6.
根据权利要求5所述的一种基于深度强化学习的机位调度方法,其特征在于,所述奖励函数的表达式为:
式中,
δ
为基础奖励值,
r
t
表示当前的立即奖励,
r
f
是远机位的奖励,
r
n
是近机位的奖励,
w1与
w2是分别是远机位奖励与近机位奖励的权重值,
α
取值只有
0/1

α
=0时,代表分配没有结束,
α
=1时,代表分配结束
。7.
...

【专利技术属性】
技术研发人员:王瑞锦裴锡凯阳超张凤荔张杰周世杰陈栩霞赖金山
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1