航班保障数据的清理方法技术

技术编号：15956356 阅读：24 留言：0更新日期：2017-08-08 09:55

航班保障数据的清理方法，包括以下步骤：步骤1、对航班保障数据进行预处理；首先对航班保障数据进行属性清洗，得到停机位数据，再对停机位数据进行异常值清洗；步骤2、对停机位数据的相似重复记录进行清洗：步骤2.1、创建排序关键字并计算停机位数据的键值；步骤2.2、按照基于聚簇索引的近邻排序方法，对停机位数据进行排序；步骤2.3、在排序后的数据集上滑动可变大小的窗口，对停机位数据的相似重复记录进行检测并清洗。本发明专利技术提高了航班保障数据的准确性和完整性，提高了检测航班保障数据的相似重复记录的效率。

全部详细技术资料下载

【技术实现步骤摘要】
航班保障数据的清理方法
本专利技术属于数理统计和数据挖掘
，涉及一种航班保障数据的清理方法。
技术介绍
国内对于数据清洗的研究起步较晚，但是研究的范围广泛：指出数据清洗中的数据源主要有单数据源和多数据源，并且给出了单数据源和多数据源在实例层上错误记录的类别；从数据质量的角度出发，分析了建立基于规则库和方法库的可扩展数据清理框架的必要性；在数据清洗的方法和框架方面的研究，包括基于知识的相似重复记录清除方法、基于多种规则结合不同方法以流程方式完成清理任务的可重构数据清理框架、基于语义规则库的以自学习方式完成数据清理任务的开放式数据清理框架。数据清理根据具体应用和不同数据采用相应的数据清理方法，数据分类后对应的清洗方法主要包括下列四种：1.缺失值的解决方法：大多数情况下，缺失值必须手工填入(即手工清理)，当然，某些缺失值可以从本数据源或其它数据源推导出来，因此可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失值，从而达到清理的目的。2.错误值的检测及解决方法：用统计分析的方法识别可能的错误值或异常值，如偏差分析识别不遵守分布或回归方程的值，也可以用简单规则库(常识性规则、业务特定规则等)检查数据值，或者使用不同属性间的约束、外部的数据来检测和清理数据。3.重复记录的检测及解决方法：数据库中属性值相同的记录被认为是重复记录。通过判断记录间的属性值是否相等来检测记录是否是重复数据，并采用消重的基本方法合并或者清除。4.不一致性主要表现在数据源内部及数据源之间，多数据源集成的数据可能有语义冲突，因此，针对该问题的检测及解决方法是可定义完整性约束用于检测不一...

【技术保护点】
航班保障数据的清理方法，其特征在于，包括以下步骤：步骤1、对航班保障数据进行预处理；首先对航班保障数据进行属性清洗，得到停机位数据，再对停机位数据进行异常值清洗；步骤2、对停机位数据的相似重复记录进行清洗：步骤2.1、创建排序关键字并计算停机位数据的键值；步骤2.2、按照基于聚簇索引的近邻排序方法，对停机位数据进行排序；步骤2.3、在排序后的数据集上滑动可变大小的窗口，对停机位数据的相似重复记录进行检测并清洗。

【技术特征摘要】
1.航班保障数据的清理方法，其特征在于，包括以下步骤：步骤1、对航班保障数据进行预处理；首先对航班保障数据进行属性清洗，得到停机位数据，再对停机位数据进行异常值清洗；步骤2、对停机位数据的相似重复记录进行清洗：步骤2.1、创建排序关键字并计算停机位数据的键值；步骤2.2、按照基于聚簇索引的近邻排序方法，对停机位数据进行排序；步骤2.3、在排序后的数据集上滑动可变大小的窗口，对停机位数据的相似重复记录进行检测并清洗。2.根据权利要求1所述的航班保障数据的清理方法，其特征在于，所述步骤1中，对航班保障数据进行属性清洗具体分为：(1)对与停机位信息无关的数据的处理：予以删除或者不予提取；(2)对停机位数据中缺失值数据的处理：缺失值数据包括主属性缺失数据和非主属性缺失数据，将主属性缺失数据丢弃，从数据源中重新获取或推导得出非主属性缺失数据；(3)对停机位数据中违反业务规则的数据的处理：通过与数据源校对，重新获取；(4)对停机位数据中同一属性不同表现形式的数据的处理：设定唯一的表现形式。3.根据权利要求1所述的航班保障数据的清理方法，其特征在于，所述步骤1中，采用箱型图法判断并剔除停机位数据中的异常值，具体过程为：将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间，n为区间的个数，α为每个区间中停机位数据的个数，β为区间的大小:其中，每个区间内的所有停机位数据均构成一个数据集，Dn表示编号为n的数据集；分析停机位数据的分布特征，得到数据集A的数据集中域[i-j，i+j]，其中，i-j为最小值数据集，即Min{D1，D2，…，Dn}，i+j为最大值数据集，即Max{D1，D2，…，Dn}；将[i-j，i+j]设为初始数据组，对初始数据组剔除离群值，得到非离群数据组[Q1-3×IQR，Q3+3×IQR]，对[Q1-3×IQR，Q3+3×IQR]取非异常数据组，得到目标数据集[Q1-1.5×IQR，Q3+1.5×IQR]，将目标数据集设为数据集B，其中Q1表示第一分位数，Q3表示第三分位数，...

【专利技术属性】
技术研发人员：金海燕，李喻蒙，秦娟娟，王彬，王磊，黑新宏，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人