一种基于进化欠抽样集成学习的航班延误预警方法技术

技术编号:13749196 阅读:61 留言:0更新日期:2016-09-24 09:16
本发明专利技术公开了一种基于进化欠抽样集成学习的航班延误预警方法,属于机场航班延误预警技术领域。本方法的具体步骤如下:首先,对航班延误实测数据集的目标属性进行离散化处理并清除噪声点,得到规范化的数据集;接着,使用进化欠抽样方法对这个类不平衡的数据集的多数类进行T次欠抽样,构建T个平衡的训练集;然后,使用网格搜索技术在每个平衡训练集上进行分类回归决策树分类器的参数寻优并生成分类器;最后,确定一种最佳集成方式将这些分类器构成一个集成系统EUS‑Bag,即为一个航班延误预警模型。该预警模型可为空管部门进行合理的空中交通调度提供决策依据。本方法智能化程度高,能有效的提高机场航班延误预警的准确度和可靠性。

【技术实现步骤摘要】

本专利技术涉及一种基于进化欠抽样集成学习的航班延误预警方法,属于机场航班延误预警方法

技术介绍
随着国民经济的持续快速健康发展,航空运输需求也在不断增加。然而近年来,大面积航班延误现象日益凸显,成为困扰着民航部门和广大旅客的一个世界性难题。由于航班延误导致的旅客拒绝登机、霸机、冲击机场、殴打工作人员等恶性事件屡见不鲜,造成民航优质服务形象受损,严重影响了机场的安全运行秩序。为了降低由于航空公司自身原因,尤其是因航班计划制定不当而导致的延误,民航总局提出了《民航局开展保障航班正常和大面积航班延误应急处置专项整治工作方案》,旨在降低航班平均延误时间,提升航班运行效率。然而,造成航班发生延误的原因很多,主要原因是机场和空域的容量不足,其他的一些原因,例如天气、机场调度、公司计划、旅客、行李等也都可能导致航班延误。另外,航班延误还存在一个链式反应的问题:当一架航班发生延误,如果计划紧凑,就会影响到下一个航班的正点到达或起飞,从而间接波及到更多下游航班和机场。由于众多不确定性因素的存在,不可能完全避免飞机延误事件,但是若能在预测到某个不确定事件将会发生后来及时进行预警并采取应对措施,就可以减小航班延误波及、降低经济损失、并提高民航信誉。因此,航班延误预警具有重要的现实意义。国内外对航班延误的预测和预警研究已经开展了多年并取得了一定的成果,研究内容主要集中在对智能算法的研究及其在航班延误预警中的应用。其中涉及到的方法种类繁多,各有利弊,问题主要体现在以下两个方面:①基于机器学习算法的预警模型种类繁多,难以在同一条件下客观评价其性能现有的各种基于机器学习算法的航班延误预警模型,均在各自的实验条件下得出了相应的结论。考虑到各种算法均有自己的适用场合,因此还无法确定哪一种预警模型更有效,或者总是最有效的。实际上,对于在航班延误数据集上使用某种分类器学习算法生成的一个预警模型而言,有时它不能充分的学习到数据集中所蕴含的分类知识。也就是说,个体预警模型的泛化能力是有限的。②各种算法普遍没有考虑实际航班延误数据集的类不平衡性对实际采集的航班延误数据集进行统计可知,各个延误等级的样例分布是不平衡的,有的延误级别所含样例极少,而有的级别所含样例很多。这种不平衡的样例分布对分类器学习算法的分类性能会产生很大的负面影响,从而容易导致预警失效。由于训练分类器时大多数分类器学习算法的优化目标是总体分类精度(overall classification accuracy),而包含样例的数目占训练集规模绝大多数的多数类通常对总体分类精度贡献最大,从而导致这些算法生成的分类器往往对多数类样例能够很好的进行分类,而对少数类样例的分类性能则非常差。然而少数类却通常包含一些对我们很有价值的信息并且比多数类重要的多,因此如何有效的改善对少数类延误级别的预警性能是需要解决的一个重要问题。
技术实现思路
本专利技术针对现有航班延误预警技术存在的缺陷,提出了一种基于进化欠抽样集成学习的航班延误预警方法,有效的提高航班延误预警的准确性和可靠性。本专利技术为解决其技术问题采用如下技术方案:一种基于进化欠抽样集成学习的航班延误预警方法,包括如下步骤:步骤1:获取机场航班延误实测数据集;步骤2:对实测数据集依次进行目标属性离散化、噪声数据点清除处理,创建航班延误数据集;步骤3:利用进化欠抽样方法,对航班延误数据集的多数类进行T次欠抽样,分别与初始少数类数据子集合并,得到T个平衡的训练集;步骤4:在每个平衡训练集上,使用网格搜索方法生成T个分类回归决策树分类器,构成一个集成系统EUS-Bag;步骤5:确定集成系统EUS-Bag中基分类器的一种集成方式,使得该系统能获得最佳的分类性能,并将该集成系统作为航班延误预警模型。所述步骤2的具体内容为:通过设定4个阈值,将实测数据集中每个样例的目标属性“延误时间长度”,分别转换为0、1、2、3、4,五种类别标签,即五个延误等级;采用基于k近邻样例的类标签对比方法来识别并清除实测数据集中的孤立点,得到航班延误数据集。在步骤3中,所述对航班延误数据集的多数类进行T次欠抽样,采用了一种同时考虑预测性能和多样性的适应度函数先选择出T个优质的多数类子集,再分别与初始少数类子集合并形成T个平衡的训练集。所述步骤4的具体内容为:利用网格搜索技术和交叉验证分别在T个平衡训练集上训练并选取平均分类精度最高的决策树,进而训练T个分类回归决策树分类器,构成了一个集成系统EUS-Bag。所述步骤5的具体内容为:分别用几种经典的分类器集成方法对EUS-Bag中的T个分类回归决策树分类器进行集成,选取分类精度最高的集成方式作为集成系统EUS-Bag的分类器集成方式,将EUS-Bag作为机场航班延误预警模型。本专利技术的有益效果如下:1、本方法具有智能学习能力,训练预警模型所需的航班延误数据集易于获取。2、采用进化欠抽样方法作为平衡训练集获取方法,进化欠抽样方法根据设计的新适应度函数在实测数据集的多数类上自动运行多次,从而得到一些平衡的训练集。3、采用Q统计多样性度量来衡量不同多数类子集之间的多样性程度,以客观的评估不同多数类子集之间的差别,从而确保得到的各个平衡训练集之间的多样性。4、本方法通过结合进化欠抽样和集成学习的优势,能够生成一个由一些精确的且多样化的分类器构成的集成系统。将该集成系统作为航班延误预警模型,从而有效地提高航班延误预警的准确性和可靠性。附图说明图1为本专利技术的方法流程图。具体实施方式下面结合附图对本专利技术创造做进一步详细说明。本专利技术基于进化欠抽样集成学习的航班延误预警方法的流程如图1所示,具体包括如下步骤:步骤1:获取机场航班延误实测数据集。根据机场航空管理部门提供的每一架次航班的相关信息,如飞机机型、载客人数、天气情况、起飞时间、降落时间、延误时间等,构造机场航班延误实测数据集D={(x11,...,x1d,y1),(x21,...,x2d,y2),...,(xM1,...,xMd,yM)本文档来自技高网
...

【技术保护点】
一种基于进化欠抽样集成学习的航班延误预警方法,其特征在于包括如下步骤:步骤1:获取机场航班延误实测数据集;步骤2:对实测数据集依次进行目标属性离散化、噪声数据点清除处理,创建航班延误数据集;步骤3:利用进化欠抽样方法,对航班延误数据集的多数类进行T次欠抽样,分别与初始少数类数据子集合并,得到T个平衡的训练集;步骤4:在每个平衡训练集上,使用网格搜索方法生成T个分类回归决策树分类器,构成一个集成系统EUS‑Bag;步骤5:确定集成系统EUS‑Bag中基分类器的一种集成方式,使得该系统能获得最佳的分类性能,并将该集成系统作为航班延误预警模型。

【技术特征摘要】
1.一种基于进化欠抽样集成学习的航班延误预警方法,其特征在于包括如下步骤:步骤1:获取机场航班延误实测数据集;步骤2:对实测数据集依次进行目标属性离散化、噪声数据点清除处理,创建航班延误数据集;步骤3:利用进化欠抽样方法,对航班延误数据集的多数类进行T次欠抽样,分别与初始少数类数据子集合并,得到T个平衡的训练集;步骤4:在每个平衡训练集上,使用网格搜索方法生成T个分类回归决策树分类器,构成一个集成系统EUS-Bag;步骤5:确定集成系统EUS-Bag中基分类器的一种集成方式,使得该系统能获得最佳的分类性能,并将该集成系统作为航班延误预警模型。2.根据权利要求1所述的一种基于进化欠抽样集成学习的航班延误预警方法,其特征在于:所述步骤2的具体内容为:通过设定4个阈值,将实测数据集中每个样例的目标属性“延误时间长度”,分别转换为0、1、2、3、4,五种类别标签,即五个延误等级;采用基于k近邻样例的类标签对比方法来识别并清除实测数据集中的孤立...

【专利技术属性】
技术研发人员:陈海燕孙博谢华
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1