当前位置: 首页 > 专利查询>清华大学专利>正文

监测数据在线清洗的方法和设备技术

技术编号:20992542 阅读:57 留言:0更新日期:2019-04-29 22:32
本发明专利技术公开了一种监测数据在线清洗的方法和设备,其中,所述方法包括:根据历史监测数据构建参照数据集和参照标准分数z‑score序列;获取在线监测数据,对所述在线监测数据进行清洗操作,所述清洗操作包括如下至少之一:去除所述在线监测数据中的重复数据、根据参照数据集和参照z‑score序列对所述在线监测数据中的缺失数据进行估计和填补、根据参照数据集和参照z‑score序列对所述在线监测数据中的异常数据进行识别;存储清洗后的在线监测数据。通过本发明专利技术实施例,可有效控制监测数据的数据质量,提升监测数据的可用性。

On-line cleaning method and equipment for monitoring data

The invention discloses a method and equipment for on-line cleaning of monitoring data, in which the method includes: constructing reference data set and reference standard score Z score sequence according to historical monitoring data; acquiring on-line monitoring data and cleaning operation of the on-line monitoring data, the cleaning operation includes at least one of the following: removing the repetition number of the on-line monitoring data The missing data in the online monitoring data are estimated and filled according to the reference data set and the reference Z score sequence. The anomalous data in the online monitoring data are identified according to the reference data set and the reference Z score sequence. The online monitoring data after cleaning are stored. Through the embodiment of the present invention, the data quality of the monitoring data can be effectively controlled and the usability of the monitoring data can be improved.

【技术实现步骤摘要】
监测数据在线清洗的方法和设备
本专利技术涉及数据处理领域,尤指一种监测数据在线清洗的方法和设备。
技术介绍
中国近几年发展起来的物联网、互联网等产业背后是海量数据的支持与先进数据分析技术的发展。然而,这些产业在某些传统行业(例如,供水、供电行业)的应用及对企业管理模式的影响速度却没有这些技术本身发展的那样迅速,甚至还存在着较大的距离。在线监测数据反映系统的运行状况,是开展复杂系统(例如供水管网、电网)智能管理的依据,对各类数据的实时监管能力直接影响到开展系统智能化管理的成败。然而,多数传统行业的在线监测管理系统仅仅是传统意义上的SCADA(SupervisoryControlAndDataAcquisition,数据采集与监视控制)系统,主要有数据的采集、存储、展示、报表和曲线查询等功能。对于监测过程中出现的数据重复、数据缺失以及数据异常等问题,传统的SCADA系统都不能对其进行处理,直接把原始数据存储进入数据库。数据质量的失控对后续的数据分析与应用造成了极大障碍。近年来,众多行业已经逐步重视起数据的质量控制,开发了针对图像数据、保单分红数据、医疗数据以及风力机组运行数据等数据的清洗方法。但是,相关技术中,大部分只是针对数据重复等单一问题进行清洗,并不能满足对数据进行全面的处理的需要。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种监测数据在线清洗的方法和设备。为了达到本专利技术目的,本专利技术提供了一种监测数据在线清洗的方法,包括:根据历史监测数据构建参照数据集和参照标准分数z-score序列;获取在线监测数据,对所述在线监测数据进行清洗操作,所述清洗操作包括如下至少之一:去除所述在线监测数据中的重复数据、根据参照数据集和参照z-score序列对所述在线监测数据中的缺失数据进行估计和填补、根据参照数据集和参照z-score序列对所述在线监测数据中的异常数据进行识别;存储清洗后的在线监测数据。可选地,所述根据历史监测数据构建参照数据集和参照z-score序列,包括:为所述历史监测数据添加时间标识属性,所述时间标识属性表示监测数据对应于一天中第i个时刻,其中i为整数,范围是1~g,g为每天的采样个数;按照所述时间标识属性,根据所述历史监测数据生成g个第一向量vi,所述第一向量vi代表p天中所有第i个时刻的数据,使用每个第一向量中所有非空数据的均值填补相应的第一向量中的空值;p为所述历史监测数据的天数;删除所述第一向量vi中的异常数据,得到第二向量wi,所述第二向量wi中的元素构成参照数据集;计算所述第二向量wi的均值μi和标准差σi,根据所述均值μi和标准差σi对每个第二向量wi进行z-score标准化操作,选取标准化操作后得到的每个向量中的最后一个值,构成含有g个数据的参照z-score序列rz。可选地,所述删除所述第一向量vi中的异常数据,包括:计算第一向量vi中所有数据的上四分位数Q3、下四分位数Q1和四分位距IQR,从而确定数据的上限U和下限L,删除超出上下限的异常数据;其中,IQR=Q3-Q1,上限U=Q3+1.5IQR,下限L=Q1-1.5IQR。可选地,所述为所述历史监测数据添加时间标识属性之前,还包括:从数据库中获取m天的历史数据作为历史监测数据,m为正整数;去除所述历史监测数据中的重复数据;标记所述历史监测数据中的空值;计算所述历史监测数据中每天数据的空值比例,在所述空值比例超过空值比例阈值Lm时,则删除该天的数据,得到剩余p天的历史监测数据。可选地,所述去除所述历史监测数据中的重复数据,包括:去除时间戳有重复的历史监测数据,使所有历史监测数据只对应唯一的时间戳。可选地,所述标记所述历史监测数据中的空值,包括:根据历史监测数据的时间戳的最大值和最小值构建完整的时间戳序列,将去除重复数据后的历史监测数据对应的原时间戳序列与完整的时间戳序列进行比对,在所述历史监测数据中,将原时间戳序列中缺失的时间戳对应的数据标记为空值。可选地,所述标记所述历史监测数据中的空值之后,所述方法还包括:计算所述空值的数量占全部所述历史监测数据的比例f,在f小于空值数量阈值Lf时,在所述数据库中另外获取n天的历史数据加入所述历史监测数据中,重新去除所述历史监测数据中的重复数据,以及标记所述历史监测数据中的空值,其中,n为正整数。可选地,所述去除所述在线监测数据中的重复数据,包括执行如下至少之一的操作:在确定当前时刻的在线监测数据的时间戳与前一时刻的在线监测数据的时间戳相同时,将所述当前时刻的在线监测数据的数值置为空;在确定当前时刻同时出现了多个数据时,将所述多个数据的平均值作为所述当前时刻的在线监测数据的数值。可选地,所述根据参照数据集和参照z-score序列对所述在线监测数据中的缺失数据进行估计和填补,包括:在当前时刻的在线监测数据为空时,计算参照z-score序列rz中,后k个值的均值μk作为该当前时刻的z-score值,根据所述参照数据集中第二向量wi的均值μi和标准差σi估计该当前时刻的真实值x’,使用所述真实值x’进行填补,其中x′=μkσi+μi,k为小于g的整数,i为当前时刻对应的时间标识。可选地,所述根据参照数据集和参照z-score序列对所述在线监测数据中的异常数据进行识别,包括:在当前时刻的在线监测数据不为空时,根据所述参照数据集中第二向量wi的均值μi和标准差σi计算当前时刻的在线监测数据x的z-score值z:i为当前时刻对应的时间标识;根据参照z-score序列rz的均值μz和标准差σz计算z的z-score值z’:通过将z’与预设的异常值阈值进行比较,识别当前时刻的在线监测数据是否是异常数据。可选地,在识别当前时刻的在线监测数据是异常数据时,所述方法还包括:在所述当前时刻的前t个时刻的在线监测数据是异常数据的比例ft小于异常比例阈值Lt时,估计当前时刻的真实值x’,使用所述真实值x’替换所述异常数据,其中,t为正整数;在所述当前时刻的前t个时刻的在线监测数据是异常数据的比例ft大于等于异常比例阈值Lt时,保留所述异常数据。可选地,所述对所述在线监测数据进行清洗操作之后,还包括:根据所述在线监测数据的类型生成清洗操作代码;在存储清洗后的在线监测数据时,还存储所述清洗操作代码。可选地,所述清洗操作代码表示所述在线监测数据为如下状态中的至少之一:无异常、数据缺失、单个异常值、连续异常值。可选地,所述方法还包括:根据所述清洗操作代码确定异常事件。本专利技术还提供一种监测数据在线清洗的设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述监测数据在线清洗的方法。本专利技术实施例包括:根据历史监测数据构建参照数据集和参照标准分数z-score序列;获取在线监测数据,对所述在线监测数据进行清洗操作,所述清洗操作包括如下至少之一:去除所述在线监测数据中的重复数据、根据参照数据集和参照z-score序列对所述在线监测数据中的缺失数据进行估计和填补、根据参照数据集和参照z-score序列对所述在线监测数据中的异常数据进行识别;存储清洗后的在线监测数据。通过本专利技术实施例,可有效控制监测数据的数据质量,提升监测数据的可用性。在本专利技术的一实施例中,仅对单个出现的异本文档来自技高网...

【技术保护点】
1.一种监测数据在线清洗的方法,包括:根据历史监测数据构建参照数据集和参照标准分数z‑score序列;获取在线监测数据,对所述在线监测数据进行清洗操作,所述清洗操作包括如下至少之一:去除所述在线监测数据中的重复数据、根据参照数据集和参照z‑score序列对所述在线监测数据中的缺失数据进行估计和填补、根据参照数据集和参照z‑score序列对所述在线监测数据中的异常数据进行识别;存储清洗后的在线监测数据。

【技术特征摘要】
1.一种监测数据在线清洗的方法,包括:根据历史监测数据构建参照数据集和参照标准分数z-score序列;获取在线监测数据,对所述在线监测数据进行清洗操作,所述清洗操作包括如下至少之一:去除所述在线监测数据中的重复数据、根据参照数据集和参照z-score序列对所述在线监测数据中的缺失数据进行估计和填补、根据参照数据集和参照z-score序列对所述在线监测数据中的异常数据进行识别;存储清洗后的在线监测数据。2.根据权利要求1所述的方法,其特征在于,所述根据历史监测数据构建参照数据集和参照z-score序列,包括:为所述历史监测数据添加时间标识属性,所述时间标识属性表示监测数据对应于一天中第i个时刻,其中i为整数,范围是1~g,g为每天的采样个数;按照所述时间标识属性,根据所述历史监测数据生成g个第一向量vi,所述第一向量vi代表p天中所有第i个时刻的数据,使用每个第一向量中所有非空数据的均值填补相应的第一向量中的空值;p为所述历史监测数据的天数;删除所述第一向量vi中的异常数据,得到第二向量wi,所述第二向量wi中的元素构成参照数据集;计算所述第二向量wi的均值μi和标准差σi,根据所述均值μi和标准差σi对每个第二向量wi进行z-score标准化操作,选取标准化操作后得到的每个向量中的最后一个值,构成含有g个数据的参照z-score序列rz。3.根据权利要求2所述的方法,其特征在于,所述删除所述第一向量vi中的异常数据,包括:计算第一向量vi中所有数据的上四分位数Q3、下四分位数Q1和四分位距IQR,从而确定数据的上限U和下限L,删除超出上下限的异常数据;其中,IQR=Q3-Q1,上限U=Q3+1.5IQR,下限L=Q1-1.5IQR。4.根据权利要求2所述的方法,其特征在于,所述为所述历史监测数据添加时间标识属性之前,还包括:从数据库中获取m天的历史数据作为历史监测数据,m为正整数;去除所述历史监测数据中的重复数据;标记所述历史监测数据中的空值;计算所述历史监测数据中每天数据的空值比例,在所述空值比例超过空值比例阈值Lm时,则删除该天的数据,得到剩余p天的历史监测数据。5.根据权利要求4所述的方法,其特征在于,所述去除所述历史监测数据中的重复数据,包括:去除时间戳有重复的历史监测数据,使所有历史监测数据只对应唯一的时间戳。6.根据权利要求4所述的方法,其特征在于,所述标记所述历史监测数据中的空值,包括:根据历史监测数据的时间戳的最大值和最小值构建完整的时间戳序列,将去除重复数据后的历史监测数据对应的原时间戳序列与完整的时间戳序列进行比对,在所述历史监测数据中,将原时间戳序列中缺失的时间戳对应的数据标记为空值。7.根据权利要求4所述的方法,其特征在于,所述标记所述历史监测数据中的空值之后,所述方法还包括:计算所述空值的数量占全部所述历史监测数据的比例f,在f小于空值...

【专利技术属性】
技术研发人员:刘书明吴以朋吴雪
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1