航班保障数据的清理方法技术

技术编号:15956356 阅读:24 留言:0更新日期:2017-08-08 09:55
航班保障数据的清理方法,包括以下步骤:步骤1、对航班保障数据进行预处理;首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;步骤2、对停机位数据的相似重复记录进行清洗:步骤2.1、创建排序关键字并计算停机位数据的键值;步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。本发明专利技术提高了航班保障数据的准确性和完整性,提高了检测航班保障数据的相似重复记录的效率。

【技术实现步骤摘要】
航班保障数据的清理方法
本专利技术属于数理统计和数据挖掘
,涉及一种航班保障数据的清理方法。
技术介绍
国内对于数据清洗的研究起步较晚,但是研究的范围广泛:指出数据清洗中的数据源主要有单数据源和多数据源,并且给出了单数据源和多数据源在实例层上错误记录的类别;从数据质量的角度出发,分析了建立基于规则库和方法库的可扩展数据清理框架的必要性;在数据清洗的方法和框架方面的研究,包括基于知识的相似重复记录清除方法、基于多种规则结合不同方法以流程方式完成清理任务的可重构数据清理框架、基于语义规则库的以自学习方式完成数据清理任务的开放式数据清理框架。数据清理根据具体应用和不同数据采用相应的数据清理方法,数据分类后对应的清洗方法主要包括下列四种:1.缺失值的解决方法:大多数情况下,缺失值必须手工填入(即手工清理),当然,某些缺失值可以从本数据源或其它数据源推导出来,因此可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失值,从而达到清理的目的。2.错误值的检测及解决方法:用统计分析的方法识别可能的错误值或异常值,如偏差分析识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,或者使用不同属性间的约束、外部的数据来检测和清理数据。3.重复记录的检测及解决方法:数据库中属性值相同的记录被认为是重复记录。通过判断记录间的属性值是否相等来检测记录是否是重复数据,并采用消重的基本方法合并或者清除。4.不一致性主要表现在数据源内部及数据源之间,多数据源集成的数据可能有语义冲突,因此,针对该问题的检测及解决方法是可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,达到数据的一致性。在民航机场业务中,需要对航班保障数据进行提纯和优化,虽然存在的多种通用的数据清洗理论和框架,由于业务领域的特殊性和行业保密性,且航班保障数据的数据量庞大,数据包含的信息量众多,对航班保障数据的相似重复记录进行检测困难,提纯和优化工作量大。
技术实现思路
本专利技术的目的是提供一种航班保障数据的清理方法,提高了航班保障数据的准确性和完整性,提高了检测航班保障数据的相似重复记录的效率。本专利技术所采用的技术方案是,航班保障数据的清理方法,包括以下步骤:步骤1、对航班保障数据进行预处理;首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;步骤2、对停机位数据的相似重复记录进行清洗:步骤2.1、创建排序关键字,并计算停机位数据的键值;步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。步骤1中,对航班保障数据进行属性清洗具体分为:(1)对与停机位信息无关的数据的处理:予以删除或者不予提取;(2)对停机位数据中缺失值数据的处理:缺失值数据包括主属性缺失数据和非主属性缺失数据,将主属性缺失数据丢弃,从数据源中重新获取或推导得出非主属性缺失数据;(3)对停机位数据中违反业务规则的数据的处理:通过与数据源校对,重新获取;(4)对停机位数据中同一属性不同表现形式的数据的处理:设定唯一的表现形式。步骤1中,采用箱型图法判断并剔除停机位数据中的异常值,具体过程为:将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间,n为区间的个数,α为每个区间中停机位数据的个数,β为区间的大小:其中,每个区间内的所有停机位数据均构成一个数据集,Dn表示编号为n的数据集;分析停机位数据的分布特征,得到数据集A的数据集中域[i-j,i+j],其中,i-j为最小值数据集,即Min{D1,D2,…,Dn},i+j为最大值数据集,即Max{D1,D2,…,Dn};将[i-j,i+j]设为初始数据组,对初始数据组剔除离群值,得到非离群数据组[Q1-3×IQR,Q3+3×IQR],对[Q1-3×IQR,Q3+3×IQR]取非异常数据组,得到目标数据集[Q1-1.5×IQR,Q3+1.5×IQR],将目标数据集设为数据集B,其中Q1表示第一分位数,Q3表示第三分位数,IQR表示四分位间距IQR=Q3-Q1。步骤2.1的具体过程为:抽取停机位数据的不同的属性作为不同的排序关键字;按照排序关键字对数据集B中的停机位数据的各个字段计算字段值,从而得到停机位数据的键值,停机位数据的键值,即为该停机位数据中字段值的集合。步骤2.2具体为:在数据集B中建立聚簇索引,按照停机位数据的键值,对数据集B中的停机位数据进行排列,使得相似重复记录排列到邻近区域,得到数据集C。步骤2.3的具体过程为:数据集C中的每一个数据均构成一条记录,在数据集C上滑动可变大小的窗口,滑动过程中采用先进先出策略,窗口滑动时,设当前窗口中的记录是第1~N条记录,则接下来进入窗口的记录是第N+1条记录,将第N+1条记录与窗口内的第2~N条记录逐一进行相似度匹配,以此来检测第N+1条记录是否是重复记录,如果是重复记录,剔除该条记录,如不是重复记录,则继续向下滑动窗口,直到完成数据集C中所有记录的相似度匹配。步骤2.3中,相似度匹配的具体过程为:设置字段权重,由若干位专家独立对每个字段的权重进行打分,取同一个字段的权重的打分均值,作为该字段的字段权重,字段权值=字段权重×字段值,一条记录的权值由该记录中所有字段的字段权值的总和构成;在相似度匹配的过程中,分别计算两条待匹配记录的权值,并进行加合,得到两条待匹配记录的相似度M,将M与预设的相似度阈值N比较,如果M大于N,则两条待匹配记录中后进入窗口的记录为重复记录,否则视为两条不同的记录。步骤2.3中,由停机位的使用频度驱动窗口的大小:统计停机位的平均使用频度Mean和停机位的最大使用频度Max,采用(Mean+Max)/2作为窗口的大小。本专利技术的有益效果是:航班保障数据的清理方法,在预处理阶段采用的属性清洗方法和异常值的检测及删除方法,提高了航班保障数据集的准确性和完整性,预处理后加载速度的显著提升正是得益于清洗后航班保障数据集里有效性数据比重的增加;对排序方法进行了改进,在近邻排序方法中引入聚簇索引,提高排序速度的同时,使得相似重复记录排列到近邻区域;滑动可变大小的窗口,由停机位的使用频度驱动窗口的大小,对相似重复记录进行检测并清洗,由于相似重复记录排列尽可能多地排列到了同一个窗口中,在不影响查找重复记录效率的情况下减少不必要的比较次数等时间内检测重复记录个数大大增加,从而更好的提高检测的效率。附图说明图1是数据清理的原理图;图2是停机位数据分布特征图;图3是远机位数据的集中域的箱线图;图4是近机位数据的集中域的箱线图;图5是采用基于聚簇索引的近邻排序方法排序的流程图;图6是滑动可变大小的窗口的示意图;图7是相似度匹配的流程图;图8是数据清洗前后加载时间比较图;图9是不同方法等时间内检测相似记录的个数的比较图。具体实施方式如图1所示,航班保障数据的清理方法,旨在分析民航机场航班保障数据特点的基础上,完成航班保障数据的相似重复记录检测中均需进行的相关试验,对已有的数据清洗方法进行相应的调整和细化,同时确定数据清洗规则和方法,从而对航班保障数据进行提纯优化,为后续研究提供高质量的数据。以兰州中川机场2015、20本文档来自技高网
...

【技术保护点】
航班保障数据的清理方法,其特征在于,包括以下步骤:步骤1、对航班保障数据进行预处理;首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;步骤2、对停机位数据的相似重复记录进行清洗:步骤2.1、创建排序关键字并计算停机位数据的键值;步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。

【技术特征摘要】
1.航班保障数据的清理方法,其特征在于,包括以下步骤:步骤1、对航班保障数据进行预处理;首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;步骤2、对停机位数据的相似重复记录进行清洗:步骤2.1、创建排序关键字并计算停机位数据的键值;步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。2.根据权利要求1所述的航班保障数据的清理方法,其特征在于,所述步骤1中,对航班保障数据进行属性清洗具体分为:(1)对与停机位信息无关的数据的处理:予以删除或者不予提取;(2)对停机位数据中缺失值数据的处理:缺失值数据包括主属性缺失数据和非主属性缺失数据,将主属性缺失数据丢弃,从数据源中重新获取或推导得出非主属性缺失数据;(3)对停机位数据中违反业务规则的数据的处理:通过与数据源校对,重新获取;(4)对停机位数据中同一属性不同表现形式的数据的处理:设定唯一的表现形式。3.根据权利要求1所述的航班保障数据的清理方法,其特征在于,所述步骤1中,采用箱型图法判断并剔除停机位数据中的异常值,具体过程为:将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间,n为区间的个数,α为每个区间中停机位数据的个数,β为区间的大小:其中,每个区间内的所有停机位数据均构成一个数据集,Dn表示编号为n的数据集;分析停机位数据的分布特征,得到数据集A的数据集中域[i-j,i+j],其中,i-j为最小值数据集,即Min{D1,D2,…,Dn},i+j为最大值数据集,即Max{D1,D2,…,Dn};将[i-j,i+j]设为初始数据组,对初始数据组剔除离群值,得到非离群数据组[Q1-3×IQR,Q3+3×IQR],对[Q1-3×IQR,Q3+3×IQR]取非异常数据组,得到目标数据集[Q1-1.5×IQR,Q3+1.5×IQR],将目标数据集设为数据集B,其中Q1表示第一分位数,Q3表示第三分位数,...

【专利技术属性】
技术研发人员:金海燕李喻蒙秦娟娟王彬王磊黑新宏
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1