当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于强化学习和四维轨迹的空中管制方法技术

技术编号:28500294 阅读:23 留言:0更新日期:2021-05-19 22:42
本发明专利技术公开了一种基于强化学习和四维轨迹的空中管制方法,首先建立不同机型的飞机气动性能模型;再根据飞机气动性能模型采集不同机型对不同航线的四维轨迹数据;通过数据回放,生成航线

【技术实现步骤摘要】
一种基于强化学习和四维轨迹的空中管制方法


[0001]本专利技术涉及智能空管
,具体为一种基于强化学习和四维轨迹的空中管制方法。

技术介绍

[0002]新一代的空中交通管制应该智能化。这是由于高密度的交通状况和大量的飞机数量给空中交通管制员(ATCos)带来了巨大的挑战,因此他们要求自动进场以降低复杂性,特别是在着陆(到达)和起飞时。自动实现空中交通管制问题的一个简单方法是由人工智能ATCos控制飞机沿着计算的4D轨迹飞行。
[0003]欧洲空管局已经确定数据驱动的轨迹预测是未来空中交通管理的关键支柱之一,其中的轨迹特别是指通常使用飞机气动性能模型预测的4D轨迹。它强调了基于轨迹和飞机性能模型的空中交通管制方法的重要性
[0004]基于轨迹或飞机性能模型的方法在空中交通管制领域得到了广泛的研究。Klomp在2019年提出了4D轨迹管理的概念决策支持工具,旨在通过直接可视化与动作相关的解空间来克服这些问题。通过对解空间表示的部分实现进行初步验证,验证了该概念的可行性。Jacco等人在2016年提出了一个研究空中交通模拟完全开源和开放数据方法的可行性的项目Bluesky。其中一个主要贡献是实现高保真度,例如飞机性能真实依据飞机气动性能模型。
[0005]在2018年Marc Britain关于自动空中交通控制方法的研究中得到了解决,该研究提出了一种深度强化学习方法,使用NASA创建的空中交通管制模拟器作为环境来测试他们的强化学习技术,为空中交通管制员提供战术决策支持,为每架飞机选择航路和改变速度,解决自主空中交通管制的排序和分离问题。他们设计了嵌套智能体结构,其中主智能体采取一个动作(改变路线),嵌套智能体负责速度控制,解决了由于该问题所涉及的非马尔可夫性而无法将环境规划为典型的单智能体环境的问题。嵌套智能体可以将更改路线和更改速度的动作集解耦。结果表明,在整个训练过程中,奖励数有频繁振荡的趋势,但呈上升趋势。然而,他们的方法并不适用于所有的情况。另外,在他们的研究中,以NASA33为模拟器,仅考虑飞机在固定地点出生、在有限路径上移动的情况,没有考虑飞机气动性能包对飞机飞行路径的影响。他们采用了基于DQN的深度嵌套agent方法,该方法是一种适用于离散环境,但不适用于连续环境的基于值的强化学习方法。
[0006]在2019年B.Vonk探讨了在飞机的排序和间隔中应用强化学习技术对空中交通控制的可能性。该实验旨在同时学习导航到FAF点,同时到达正确的时间,以模拟与到达智能体的交互。然而,结果并不稳定。这种方法的局限性是,他们只通过航向指令训练飞机,不考虑速度因素,在恒定速度下,他们不知道AI最终选择的轨迹也无法控制到达的方向。
[0007]至于最近的研究进展,有几个研究人员已经提出了嵌套的方法来强化学习。Supriyo Ghosh在2020年提出了一个基于多智能体强化学习算法的智能空中交通管制方法,他们的主要方法是培训一个单独的主要的神经网络解决多智能体之间的交互影响。他
们发现了多智能体强化学习最优学习范式,然而,他们的主要研究方向是空中交通冲突检测与回避。他们提出的方法不适用于基于四维轨迹的空中交通管制领域,因为他们没有考虑到达到目标的时间约束,这是基于四维轨迹的空中交通管制必然要考虑和依赖的条件。
[0008]综上所述,现有技术存在的问题是:
[0009](1)现有技术中,传统的强化学习方法解决基于四维轨迹的空中管制问题的过程中,会出现奖励稀疏的问题,如何解决稀疏奖励是其中一个难点;另外针对多目标的智能体的训练,奖励函数的设计也是一个难点。
[0010](2)现有技术中,多是类似于研究基于强化学习的空中交通管制领域的飞机冲突避免算法,这类算法针对特定领域的研究有一定帮助,但是并不是一种广泛适用的空中交通管制方法。而基于四维轨迹的智能空中管制方法是基本的广泛适用的方法之一。
[0011](3)现有技术中,基于强化学习和四维轨迹的空中管制方法具有很大的局限性,比如:稳定性差、准确率低、限制条件多等等。另外,由于算法准确性和复杂度的限制,不能同时考虑到多个因素的影响,大部分都只考虑一种影响因素,比如飞机的航向角或者飞机的速度,不能同时考虑多种因素的影响暂时不具备应用于现实使用的条件。
[0012]而且,针对多目标的智能体的奖励函数设计问题,自行设计奖励函数会有以下几个问题:1、奖励抽象,难以用公式表达2、参数多,难度大3、奖励函数效果差。

技术实现思路

[0013]针对上述问题,本专利技术的目的在于提供一种基于强化学习和四维轨迹的空中管制方法,能够为当前机场的面临的流量大,飞机调度方法复杂和空中管制困难等问题提出一种可行的解决办法。技术方案如下:
[0014]一种基于强化学习和四维轨迹的空中管制方法,包括以下步骤:
[0015]S1:通过对不同机型的发动机性能进行建模,建立不同机型的飞机气动性能模型;
[0016]S2:根据飞机气动性能模型采集不同机型对不同航线的四维轨迹数据;通过数据回放,生成航线

机型的四维轨迹模型;
[0017]S3:基于强化学习算法,搭建神经网络,对飞机运动压上四维轨迹进行训练,构建航向智能体中嵌套速度智能体的嵌套强化学习模型,通过选择飞行器的目标航向来实现飞机路线的选择,通过选择飞行器的目标速度来实现飞行器的到达时间的控制,从而实现飞机按照规定时间、速度、航向、高度压上四维轨迹模型的功能。
[0018]进一步的,所述S1的具体过程为:定义具有飞机运动状态信息的关键位置点,在带有飞机气动性能模型的飞行仿真模拟系统中选定特定机型的飞机按照规定位置点归纳的航线进行模拟飞行,每隔固定时间间隔记录下包括飞行时间、飞机六自由度,及环境因素的信息,保存到记录文件里。
[0019]更进一步的,所述S2的具体过程为:
[0020]S21:采集符合条件的航迹点,构成航迹点集合G,并将各航迹点映射到航线上,得到航线上离散的航迹点映射点集合G';
[0021]G={g
i
,i=1,2,3...,n}
ꢀꢀꢀ
(1)
[0022]G'={g'
i
,i=1,2,3...,n}
ꢀꢀꢀ
(2)
[0023]其中,g
i
为符合条件的航迹点,g'
i
为航迹点g
i
在航线上的映射点;n为样本个数;
[0024]S22:计算各航迹点映射点g'
i
到各航段起点的距离s
i
,得到航线上离散的航迹点映射点关于距离速度的样本集W';
[0025]W'={(s
i
,v
i
),i=1,2,

,n}
ꢀꢀꢀ
(3)
[0026]其中,s
i
为采样点到航段起点的距离,v
i
为一维输出向量,表示在距离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和四维轨迹的空中管制方法,其特征在于,包括以下步骤:S1:通过对不同机型的发动机性能进行建模,建立不同机型的飞机气动性能模型;S2:根据飞机气动性能模型采集不同机型对不同航线的四维轨迹数据;通过数据回放,生成航线

机型的四维轨迹模型;S3:基于强化学习算法,搭建神经网络,对飞机运动压上四维轨迹进行训练,构建航向智能体中嵌套速度智能体的嵌套强化学习模型,通过选择飞行器的目标航向来实现飞机路线的选择,通过选择飞行器的目标速度来实现飞行器的到达时间的控制,从而实现飞机按照规定时间、速度、航向、高度压上四维轨迹模型的功能。2.根据权利要求1所述的基于强化学习和四维轨迹的空中管制方法,其特征在于,所述S1的具体过程为:定义具有飞机运动状态信息的关键位置点,在带有飞机气动性能模型的飞行仿真模拟系统中选定特定机型的飞机按照规定位置点归纳的航线进行模拟飞行,每隔固定时间间隔记录下包括飞行时间、飞机六自由度,及环境因素的信息,保存到记录文件里。3.根据权利要求1所述的基于强化学习和四维轨迹的空中管制方法,其特征在于,所述S2的具体过程为:S21:采集符合条件的航迹点,构成航迹点集合G,并将各航迹点映射到航线上,得到航线上离散的航迹点映射点集合G';G={g
i
,i=1,2,3...,n}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)G'={g'
i
,i=1,2,3...,n}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,g
i
为符合条件的航迹点,g'
i
为航迹点g
i
在航线上的映射点;n为样本个数;S22:计算各航迹点映射点g'
i
到各航段起点的距离s
i
,得到航线上离散的航迹点映射点关于距离速度的样本集W';W'={(s
i
,v
i
),i=1,2,

,n}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,s
i
为采样点到航段起点的距离,v
i
为一维输出向量,表示在距离航段起点s
i
位置时航空器的速度;S23:对于采集到的样本集W',选择机器学习中的LSSVM,用各个样本点到各自超平面距离ξ
i
的平方和来表示LSSVM的经验风险,训练的经验风险最小即是最小,其数学模型为:其中,w为v
i
关于s
i
的线性参数;b为线性偏移量;根据结构风险最小化原则,LSSVM需保证两个分类超平面的距离最大化,求解的数学模型为在经验风险和结构风险之间的折中,即
其中,C为惩罚因子,样本点到其超平面的距离ξ
i
为训练误差;S33:为求解此优化问题,引入Lagrange函数:其中,α
i
,i=1,..,n为Lagrange乘子,e为单位向量;表示ws
i
w/|w|;由KKT条件得到如下关系式:核函数s
j
为航迹点映射点g

j
到各航段起点的距离;则将式(7)的求解形式转化为:其中,Q是元素为K
ij
的k
×
k阶核矩阵,I为单位矩阵,向量e=[1,

,1]
T
,向量α=[α1,


n
]
T
,向量v=[v1,

,v
n
]
T
;求解式(8)得到α
i
,b的值,将其代入式(6)中得到LSSVM的混沌时间序列回归模型为:对应的航线上的每一个位置点s,其速度值为:得到航线s

v的映射后,归纳出航线

机型的四维轨迹模型。4.根据权利要求3所述的基于强化学习和四维轨迹的空中管制方法,其特征在于,所述S21中将各航迹点映射到航线包括:直线航线数据映射:过每一个航迹点向直线航线l作垂线,与航线产生交点即对应航迹点的映射点;弧线航线数据映射:将每一个航迹点与弧线航线的圆心相连,构成的直线与弧线的交点即对应航迹点的映射点。5.根据权利要求1所述的基于强化学习和四维轨迹的空中管制方法,其特征在于,所述S3的具体包括:S31:在仿真系统中搭建实验环境,确定训练飞行器类型...

【专利技术属性】
技术研发人员:俎文强季玉龙何扬黄操
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1