【技术实现步骤摘要】
一种航班延误主要影响因素分析方法
[0001]本专利技术属于航班延误预测及分析
,具体涉及一种航班延误主要影响因素分析方法。
技术介绍
[0002]航班延误是航空旅行中的一个普遍问题。延误错误会给旅客带来不便,也会给航空公司带来经济上的损失。航班延误的原因有很多,比如气象条件、机械故障、交通管制等等。因此,准确预测航班延误并分析原因可以帮助航空公司提前采取措施,尽可能地避免延误发生,保障旅客的权益。
[0003]随着大数据和人工智能技术的发展,航空公司可以通过分析大量的历史航班飞行数据,使用机器学习算法预测航班是否延误,但无法分析出航班延误的主要影响因素。目前延误原因评定大部分为人工通过会商评定,通过参考多套系统的航班进程保障数据,结合航班放行数据商定最终延误原因。上述延误原因分析方法的缺陷在于,一是需要花费大量时间核对商议,二是对于延误原因缺乏定量的分析结果支撑,说服力较低。如何预测航班未来可能的延误主导因素,提高航空公司的运营效率和准确性,成了急需解决的技术问题。
技术实现思路
[0004] ...
【技术保护点】
【技术特征摘要】
1.一种航班延误主要影响因素分析方法,其特征在于:该方法包括以下步骤:步骤S1:获取航班的数据集,其中包括延误航班和未延误航班的特征数据,数据集的特征变量分为离散型变量和连续性变量;步骤S2:对特征变量进行数据预处理;所述数据预处理包括非数值型数据编号处理、缺失值填补、采用均值替换法处理异常值、对数据进行标准化;步骤S3:利用机器学习算法对航班是否延误进行训练和预测,并使用网格搜索法对机器学习算法进行参数调优;步骤S4:输出特征重要性,计算数据集中各个特征的权重;步骤S5:将每个特征分别与目标变量进行聚类,聚类得到的聚类中心横坐标作为划分类别的区间端点,纵坐标作为该类对应的预测准确度;步骤S6:每个特征进行聚类划分类别后得到每条数据所对应的预测准确度,将特征重要性和IV值两者的平均值作为最终的特征权重,再将预测准确度与对应的特征权重进行相乘,得到结果最高的特征作为该航班延误的主要影响因素。2.根据权利要求1所述的一种航班延误主要影响因素分析方法,其特征在于:所述步骤S2中非数值型数据编号处理具体包括:对起飞机场天气、起飞机场地区类型和目的地机场天气三个非数值型变量进行Label Encoding编号;缺失值填补具体操作为:对于连续型变量的缺失值采用均值填补法进行填补。3.根据权利要求1所述的一种航班延误主要影响因素分析方法,其特征在于:所述步骤S2中异常值处理具体操作为:利用箱体图检测出异常值,若检测出的异常值数量较少,将带有异常值的数据进行删除,若异常值数量较多,则将异常值视为缺失值进行处理;对数据进行标准化具体操作为:min
‑
max标准化将利用原始数据的最大值和最小值把原始数据转换到[0,1]区间内,转化公式如下:其中,x
*
为min
‑
max标准化后的数据;x为原始数据;x
max
为原始数据的最大值;x
min
为原始数据的最小值;数据标准化对连续型变量进行处理。4.根据权利要求1所述的一种航班延误主要影响因素分析方法,其特征在于:所述步骤S3中机器学习算法采用XGBoost算法,在XGBoost算法中选取max_depth、n_estimators、learning_rate三个参数进行调优。5.根据权利要求1所述的一种航班延误主要影响因素分析方法,其特征在于:所述步骤S3中使用网格搜索法对机器学习算法进行参数调优具体操作为:步骤S3
‑
1:根据机器学习算法参数的精度和取值范围设置网格搜索的搜索区间长度和步长阈值;步骤S3
‑
2:将搜索区间长度和步长进行网格搜索,记录下这一轮搜索中预测准确度最高时各个参数的取值;步骤S3
‑
3:以各个参数的取值作为搜索区间的中心点,进一步缩小搜索区间长度和步
长,并在每一轮搜索结束后记录下预测准确度最高时各个参数的取值;步骤S3
【专利技术属性】
技术研发人员:韩光可,朱洁,黄慧敏,赵征,袁嘉玲,黄海平,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。