一种基于大数据的异常航班识别方法技术

技术编号:24252258 阅读:27 留言:0更新日期:2020-05-22 23:56
一种基于大数据的异常航班识别方法,设置有数据采集模块、数据处理模块以及异常检测模块,数据采集模块与数据处理模块连接,数据处理模块与异常检测模块连接,数据采集模块用于采集航班历史订座元数据并将采集到的历史订座元数据发送至数据处理模块,数据处理模块用于根据历史订座元数据依次经过数据清洗得到第一数据,并将第一数据发送至异常检测模块,异常检测模块根据第一数据通过孤立森林算法计算步骤得到数据异常指数并判断第一数据是否异常。该基于大数据的异常航班识别方法能够根据航班历史订座元数据通过清洗整理后自动判断计算出航班数据是否异常,能够计算大量的航班元数据节省人力物力,提高航班预测的精度。

An abnormal flight identification method based on big data

【技术实现步骤摘要】
一种基于大数据的异常航班识别方法
本专利技术涉及航空航班数据监测
,特别是涉及一种基于大数据的异常航班识别方法。
技术介绍
随着社会生产力的发展,科学技术的不断进步,我国航空业务的不断发展,在航空业务的不断进步的同时就需要利用航空数据进行整理用来管理航空业务,航空数据的核心在大量的收集数据中获取到航空数据潜在的价值,从而不断航空业务的良性发展。但是在现有数据中因为航空数据存在异常信息,会影响收集数据的准确性、耗费大量的人力成本以及监测成本。因此,针对现有技术不足,提供一种基于大数据的异常航班识别方法以克服现有技术不足甚为必要。
技术实现思路
本专利技术的目的在于避免现有技术的不足之处而提供一种基于大数据的异常航班识别方法,该基于大数据的异常航班识别方法能够自动识别航空数据中的异常状态,能够同时计算大量的航空数据,降低数据监测成本。本专利技术的上述目的通过如下技术手段实现。提供一种基于大数据的异常航班识别方法,设置有数据采集模块、数据处理模块以及异常检测模块,数据采集模块与数据处理模块连接,数据处理模块与异常检测模块连接,优选的,数据采集模块用于采集航班历史订座元数据并将采集到的历史订座元数据发送至数据处理模块,优选的,数据处理模块对历史订座元数据进行数据清洗得到第一数据,并将第一数据发送至异常检测模块,优选的,异常检测模块根据第一数据通过孤立森林算法计算步骤得到数据异常指数并根据所计算得到的数据异常指数判断第一数据是否异常。优选的,数据清洗具体为;S1,通过Python将航班历史订座元数据文件分类,得到分类数据;S2,去除步骤S1中的分类数据中的无效重复错误航班历史订座元数据,得到有效的航班历史订座元数据;S3,将有效的航班历史订座元数据进行格式化处理并整理得到第一数据;S4,将步骤S3中的第一数据进行关联性验证。优选的,孤立森林算法计算过程包括模型数据训练阶段以及预测异常判断阶段。优选的,模型数据训练阶段包含有建立了t个孤立树,t≥1,t为孤立树的个数,且t为正整数。优选的,每个孤立树建立的过程为:步骤a1-1,从第一数据中随机无放回选取ψ个数据作为子样本放入树的根节点建立为孤立树根节点,ψ≥1,ψ为正整数,ψ个数据中属性最多的数据具有T个属性;步骤a1-2,选择第一数据中任意一项属性作为第一固定属性,根据第一固定属性对ψ个数据进行切割,具有第一固定属性的第一数据构成Q11数据集、没有第一固定属性的第一数据构成Q12数据集,切割得到的Q11数据集、Q12数据集建立为孤立树第一层;步骤a1-3,定义K为切割次数,K为自然数且K≤ψ-1;令K=2,进入步骤a1-4,步骤a1-4,随机指定Q(K-1)1数据集中数据的未使用过的任意属性作为第K属性,在前孤立树第K-1层的节点上对Q(K-1)1数据集中的数据以第K属性进行切割,具有第K属性的数据分割到QK1数据集,不具有第K属性的数据分割到QK2数据集,切割得到的QK1数据集、QK2数据集建立为孤立树第K层;步骤a1-5,判断QK1数据集中的数据是否满足限定切割条件,如果是,则进入步骤a1-7;如果否,则进入步骤a1-6;步骤a1-6,令K=K+1,返回步骤a1-4;步骤a1-7,孤立树建立完成。优选的,限定切割条件为当前节点的格式整理数据中只存在一个数据、全部格式整理数据相同或者孩子节达到孤立树的限定高度中至少一种。优选的,预测异常阶段具体是将第一数据按照孤立树以公式(I)进行异常值分数计算,其中s(x,ψ)为异常分数,E(h(x))为表示记录x在每棵孤立树的高度均值,c(ψ)为给定样本数为ψ时路径长度的平均值,x为第一数据中任意指定数据,h(x)为数据x的修正路径长度。h(X)=e+C(n)……公式(II);H(n-1)=ln(n-1)+0.5772156649……公式(Ⅳ);C(n)为修正值,表示在一棵用n条样本数据构建的二叉树的平均路径长度;e表示数据x从孤立树的根节点到叶子节点过程中经过的边的数目。当0.8≤s(x,ψ)≤1时,定义为航空数据非常异常;当0.6<s(x,ψ)≤0.8时,定义为航空数据一般异常;当0.4<s(x,ψ)≤0.6时,定义为航空数据异常。优选的,第一固定属性为DayOfWeek时间属性、舱位属性、采集日期属性、出发属性、到达属性、起飞时间中任意一种;优选的,格式化处理具体包含有格式内容整理,日期类型格式化、星期格式化以及舱位销售数量的数据运算中至少一种。优选的,限定切割条件为当前节点的格式整理数据中只存在一个数据、全部格式整理数据相同或者孩子节达到孤立树的限定高度中至少一种;优选的,数据清洗还包括步骤S4,将步骤S3中的第一数据进行关联性验证。优选的,剩余需要的数据为采集日期、航班号、航段、出发、到达、出发日期、出发时间、到达时间、舱位、销售数量中至少一种数据;优选的,数据采集模块通过ETL工具将历史订座元数据发送至数据处理模块;优选的,历史订座元数据包含有BFG、BLB、BLC、BLG、BSB、BSG、CFD、SCH的多维类别数据;优选的,多维类别数据为实时数据时通过流式处理实时响应,优选的,多维类别数据为离线数据时基于HDFS分布式文件系统的数据进行分析计算。优选的,第一固定属性为DayOfWeek时间属性,优选的,异常检测模块还设置有警报显示单元。优选的,警报显示单元当s(x,ψ)>0.4时,对当前第一数据进行显示并发出警报。本专利技术的基于大数据的异常航班识别方法,设置有数据采集模块、数据处理模块以及异常检测模块,数据采集模块与数据处理模块连接,数据处理模块与异常检测模块连接,数据采集模块用于采集航班历史订座元数据并将采集到的历史订座元数据发送至数据处理模块,数据处理模块用于根据历史订座元数据依次经过数据清洗得到第一数据,并将第一数据发送至异常检测模块,异常检测模块根据第一数据通过孤立森林算法计算步骤得到数据异常指数并判断第一数据是否异常。该基于大数据的异常航班识别方法能够根据航班历史订座元数据通过清洗整理后自动判断计算出航班数据是否异常,能够计算大量的航班元数据节省人力物力,提高航班预测的精度。附图说明利用附图对本专利技术作进一步的说明,但附图中的内容不构成对本专利技术的任何限制。图1是本专利技术实施例1的结构示意图。图2是本专利技术实施例3的结构示意图。在图1至图2中,包括:数据采集模块100、数据处理模块200、异常检测模块300、警报显示单元301。具体实施方式结合以下实施例对本专利技术作进一步描述。实施例1。一种基于大数据的异常航班识别方法,如图1所示,设置有数据采集模块100、数据处本文档来自技高网...

【技术保护点】
1.一种基于大数据的异常航班识别方法,其特征在于:设置有数据采集模块、数据处理模块以及异常检测模块,所述数据采集模块与所述数据处理模块连接,所述数据处理模块与所述异常检测模块连接;/n所述数据采集模块采集航班历史订座元数据并将采集到的历史订座元数据发送至所述数据处理模块,/n所述数据处理模块对历史订座元数据进行数据清洗得到第一数据,并将第一数据发送至所述异常检测模块,/n所述异常检测模块根据所述第一数据通过孤立森林算法计算得到数据异常指数并根据所计算得到的数据异常指数判断第一数据是否异常。/n

【技术特征摘要】
1.一种基于大数据的异常航班识别方法,其特征在于:设置有数据采集模块、数据处理模块以及异常检测模块,所述数据采集模块与所述数据处理模块连接,所述数据处理模块与所述异常检测模块连接;
所述数据采集模块采集航班历史订座元数据并将采集到的历史订座元数据发送至所述数据处理模块,
所述数据处理模块对历史订座元数据进行数据清洗得到第一数据,并将第一数据发送至所述异常检测模块,
所述异常检测模块根据所述第一数据通过孤立森林算法计算得到数据异常指数并根据所计算得到的数据异常指数判断第一数据是否异常。


2.根据权利要求1所述的基于大数据的异常航班识别方法,其特征在于:所述数据清洗具体为:
S1,通过Python将航班历史订座元数据文件分类,得到分类数据;
S2,去除步骤S1中的分类数据中的无效重复错误航班历史订座元数据,得到有效的航班历史订座元数据;
S3,将有效的航班历史订座元数据进行格式化处理得到第一数据。


3.根据权利要求2所述的基于大数据的异常航班识别方法,其特征在于:所述孤立森林算法计算过程包括模型数据训练阶段以及预测异常判断阶段。


4.根据权利要求3所述的基于大数据的异常航班识别方法,其特征在于:所述模型数据训练阶段建立了t个孤立树,t≥1,t为孤立树的个数,且t为正整数。


5.根据权利要求4所述的基于大数据的异常航班识别方法,其特征在于:每个孤立树建立的过程为:
步骤a1-1,从第一数据中随机无放回选取ψ个数据作为子样本放入树的根节点建立孤立树根节点,ψ≥1,ψ为正整数,ψ个数据中属性最多的数据具有T个属性;
步骤a1-2,选择第一数据中任意一项属性作为第一固定属性,根据第一固定属性对ψ个数据进行切割,具有第一固定属性的第一数据构成Q11数据集、没有第一固定属性的第一数据构成Q12数据集,切割得到的Q11数据集、Q12数据集建立为孤立树第一层;
步骤a1-3,定义K为切割次数,K为自然数且K≤ψ-1;令K=2,进入步骤a1-4,
步骤a1-4,随机指定Q(K-1)1数据集中数据的未使用过的任意属性作为第K属性,在前孤立树第K-1层的节点上对Q(K-1)1数据集中的数据以第K属性进行切割,具有第K属性的数据分割到QK1数据集,不具有第K属性的数据分割到QK2数据集,切割得到的QK1数据集、QK2数据集建立为孤立树第K层;
步骤a1-5,判断QK1数据集中的数据是否满足限定切割条件,如果是,则进入步骤a1-7;如果否,则进入步骤a1-6;
步骤a1-6,令K=K+1,返回步骤a1-4;

【专利技术属性】
技术研发人员:刘震李数周兴
申请(专利权)人:广州优策科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1