The invention discloses a method and equipment for on-line cleaning of monitoring data, in which the method includes: constructing reference data set and reference standard score Z score sequence according to historical monitoring data; acquiring on-line monitoring data and cleaning operation of the on-line monitoring data, the cleaning operation includes at least one of the following: removing the repetition number of the on-line monitoring data The missing data in the online monitoring data are estimated and filled according to the reference data set and the reference Z score sequence. The anomalous data in the online monitoring data are identified according to the reference data set and the reference Z score sequence. The online monitoring data after cleaning are stored. Through the embodiment of the present invention, the data quality of the monitoring data can be effectively controlled and the usability of the monitoring data can be improved.
【技术实现步骤摘要】
监测数据在线清洗的方法和设备
本专利技术涉及数据处理领域,尤指一种监测数据在线清洗的方法和设备。
技术介绍
中国近几年发展起来的物联网、互联网等产业背后是海量数据的支持与先进数据分析技术的发展。然而,这些产业在某些传统行业(例如,供水、供电行业)的应用及对企业管理模式的影响速度却没有这些技术本身发展的那样迅速,甚至还存在着较大的距离。在线监测数据反映系统的运行状况,是开展复杂系统(例如供水管网、电网)智能管理的依据,对各类数据的实时监管能力直接影响到开展系统智能化管理的成败。然而,多数传统行业的在线监测管理系统仅仅是传统意义上的SCADA(SupervisoryControlAndDataAcquisition,数据采集与监视控制)系统,主要有数据的采集、存储、展示、报表和曲线查询等功能。对于监测过程中出现的数据重复、数据缺失以及数据异常等问题,传统的SCADA系统都不能对其进行处理,直接把原始数据存储进入数据库。数据质量的失控对后续的数据分析与应用造成了极大障碍。近年来,众多行业已经逐步重视起数据的质量控制,开发了针对图像数据、保单分红数据、医疗数据以及风力机组运行数据等数据的清洗方法。但是,相关技术中,大部分只是针对数据重复等单一问题进行清洗,并不能满足对数据进行全面的处理的需要。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种监测数据在线清洗的方法和设备。为了达到本专利技术目的,本专利技术提供了一种监测数据在线清洗的方法,包括:根据历史监测数据构建参照数据集和参照标准分数z-score序列;获取在线监测数据,对所述在线监测数据进行清洗操作,所述 ...
【技术保护点】
1.一种监测数据在线清洗的方法,包括:根据历史监测数据构建参照数据集和参照标准分数z‑score序列;获取在线监测数据,对所述在线监测数据进行清洗操作,所述清洗操作包括如下至少之一:去除所述在线监测数据中的重复数据、根据参照数据集和参照z‑score序列对所述在线监测数据中的缺失数据进行估计和填补、根据参照数据集和参照z‑score序列对所述在线监测数据中的异常数据进行识别;存储清洗后的在线监测数据。
【技术特征摘要】
1.一种监测数据在线清洗的方法,包括:根据历史监测数据构建参照数据集和参照标准分数z-score序列;获取在线监测数据,对所述在线监测数据进行清洗操作,所述清洗操作包括如下至少之一:去除所述在线监测数据中的重复数据、根据参照数据集和参照z-score序列对所述在线监测数据中的缺失数据进行估计和填补、根据参照数据集和参照z-score序列对所述在线监测数据中的异常数据进行识别;存储清洗后的在线监测数据。2.根据权利要求1所述的方法,其特征在于,所述根据历史监测数据构建参照数据集和参照z-score序列,包括:为所述历史监测数据添加时间标识属性,所述时间标识属性表示监测数据对应于一天中第i个时刻,其中i为整数,范围是1~g,g为每天的采样个数;按照所述时间标识属性,根据所述历史监测数据生成g个第一向量vi,所述第一向量vi代表p天中所有第i个时刻的数据,使用每个第一向量中所有非空数据的均值填补相应的第一向量中的空值;p为所述历史监测数据的天数;删除所述第一向量vi中的异常数据,得到第二向量wi,所述第二向量wi中的元素构成参照数据集;计算所述第二向量wi的均值μi和标准差σi,根据所述均值μi和标准差σi对每个第二向量wi进行z-score标准化操作,选取标准化操作后得到的每个向量中的最后一个值,构成含有g个数据的参照z-score序列rz。3.根据权利要求2所述的方法,其特征在于,所述删除所述第一向量vi中的异常数据,包括:计算第一向量vi中所有数据的上四分位数Q3、下四分位数Q1和四分位距IQR,从而确定数据的上限U和下限L,删除超出上下限的异常数据;其中,IQR=Q3-Q1,上限U=Q3+1.5IQR,下限L=Q1-1.5IQR。4.根据权利要求2所述的方法,其特征在于,所述为所述历史监测数据添加时间标识属性之前,还包括:从数据库中获取m天的历史数据作为历史监测数据,m为正整数;去除所述历史监测数据中的重复数据;标记所述历史监测数据中的空值;计算所述历史监测数据中每天数据的空值比例,在所述空值比例超过空值比例阈值Lm时,则删除该天的数据,得到剩余p天的历史监测数据。5.根据权利要求4所述的方法,其特征在于,所述去除所述历史监测数据中的重复数据,包括:去除时间戳有重复的历史监测数据,使所有历史监测数据只对应唯一的时间戳。6.根据权利要求4所述的方法,其特征在于,所述标记所述历史监测数据中的空值,包括:根据历史监测数据的时间戳的最大值和最小值构建完整的时间戳序列,将去除重复数据后的历史监测数据对应的原时间戳序列与完整的时间戳序列进行比对,在所述历史监测数据中,将原时间戳序列中缺失的时间戳对应的数据标记为空值。7.根据权利要求4所述的方法,其特征在于,所述标记所述历史监测数据中的空值之后,所述方法还包括:计算所述空值的数量占全部所述历史监测数据的比例f,在f小于空值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。