一种用电数据异常值的识别与处理方法技术

技术编号:21062390 阅读:26 留言:0更新日期:2019-05-08 08:12
一种用电数据异常值的识别与处理方法,用于提高电能计量的准确性,所述方法包括以下步骤:a.设置滑动窗口;b.计算当前滑动窗口中数据的离群距离;c.计算当前滑动窗口中各个数据的离群系数;d.异常值的判定和更正;e.将滑动窗口向后移动一个数据,重复步骤b~步骤d,直至遍历整个数据集,完成异常值的处理。本发明专利技术根据滑动窗口中用电数据的离群系数判定其是否异常,并对异常数据进行更正,该方法可使数据更为准确地反映用户的真实用电情况,减少某些异常值、缺失数据对电能计量造成的不良影响,确保后续工作顺利进行并提高电能计量的准确性。

A Method of Identifying and Processing Abnormal Values of Electricity Data

【技术实现步骤摘要】
一种用电数据异常值的识别与处理方法
本专利技术涉及一种适用于智能电表采集的基于时间序列的离散数据的异常值识别与处理方法,属于数据处理

技术介绍
随着社会的发展和科技的创新,各行各业信息化程度越来越高,数据不再仅仅是结果的体现,而是各种系统运行状态的反映。二十一世纪的今天,数据的价值已经引起了社会各界的充分重视,因为数据是一种历史状态的记录,通过对历史数据的分析,可以找寻造成当前结果的原因,也可以预测未来将要发生的事情,甚至可以造就一个美好的未来。当前各种复杂的信息系统构成了我们依赖的数字世界,从数据流向的角度来看,可将信息系统分为数据产生、数据采集、数据处理和数据分析四个主要步骤。传感技术的发展和信息系统的增多为数据的产生提供了更多的数据源,同时也推动促进了数据采集技术的进步,数据体量的剧增让我们无法在单个服务器上实时处理海量数据,因此“大数据”和“云计算”等技术一出现便得到了快速发展和广泛应用,另外,基于大数据和云计算的人工智能也在如火如荼地发展,革新甚至取代了众多机械性的行业。面对种类多、体量大的结构化、半结构化和非结构化数据,数据质量往往并不理想,存在不同程度的缺失和异常数据。实际项目经验也告诉我们,数据预处理是项目开发过程中不可或缺的一个环节和工作,而且处理质量直接关系到数据分析结果,与项目的成败有直接关系。工业现场采集的原始数据通常存在噪声和异常值,这些原始数据的问题主要集中在以下几个方面:一是对于同一设备,不同测量装置的测量结果是不同的;二是传感器在压缩或传输数据时存在不确定性影响,造成数据丢失等,这为后续分析处理带来了很大的困难。因此,对采集到的原始数据进行预处理是一项非常必要的工作,需要着重进行缺失值补全、异常值处理和指标筛选等。数据预处理主要包括数据清洗、数据集成、数据变换和数据规约等步骤。数据清洗主要是对缺失值和异常值进行处理,根据缺失值的重要程度,可将其删除或插补,数据的插补根据实际情况可选用固定值法、最近值法、均值法、中位数法、众数法,以及回归法、拉格朗日插值法和牛顿插值法;对异常值的处理有识别和处理两个步骤,都需结合数据特点进行分析处理,且以数据最小失真为目标。数据集成是将多个数据源的数据整合到一起,形成一个统一且相对完整的数据集合,其主要技术难点是处理冗余和冲突数据。数据变换需要将数据转换成适合方法分析和挖掘的形式,筛选出特征指标,涉及到数据的规范化、聚集和属性构造等方面的技术。随着信息化程度的加深,数据不仅是结果的呈现,更是社会发展过程的记录,面对大数据分析和挖掘存在效率不高问题,数据规约技术可得到数据集的规约表示,在缩减数据量的同时,保持原数据的完整性。智能电表对电能使用情况的记录是基于时间序列的离散采样数据,在实际应用过程中,由于电表质量、通信故障等多种客观因素的影响,导致记录数据出现缺失和异常,因此必须进行识别和处理。现有的数据异常值处理方法很多,主要分两步进行。第一步是识别异常值,即根据数据的实际物理意义和异常情况,设计一种方法选出异常数据;第二步是处理方式,即如何处理异常值,其目标是保证对数据的失真度最小,尽量反应数据的真实特性,并减小对结果的影响。异常值的识别根据数据的维度不同而具有不同的复杂度,同时还需要考虑数据的属性和数据间的相关性,例如,对年龄数据的异常值可以采用统计分析的方法,将年龄的区间规约在0到200之间,不在此区间的数据就是判断为异常值。当数据服从正态分布时,可以利用3δ原则,将距离平均值3δ之外的数据视为异常值,因为这样的值属于极小概率值。还有一种常见的异常值识别方法——箱型图,将大于或小于箱型图设定的上下界的数值判定为异常值,箱型图如图1所示,上四分位设定为U,则表示所有样本中只有1/4的数值大于U,同理,下四分位设定为L,表示所有样本中只有1/4的数值小于L,设上下四分位的差值为IQR,即IQR=U-L,则上界为U+1.5IQR,下界为L-1.5IQR。异常值的处理相对比较简单,可以直接删除,视为缺失值,并按缺失值处理方法来处理,也可以用平均值来修正,总之,需要结合实际情况处理。数据异常值的识别和处理方法是基于数据类型和实际情况的一种数据预处理方法,其处理效果也因处理目标的不同而不同,由于将现有的数据异常值处理方法应用于智能电表采集的基于时间序列的离散数据时并不能获得满意的处理效果,因此,寻求一种适用于用电数据的异常值识别与处理方法是十分必要的。
技术实现思路
本专利技术的目的在于针对现有技术之弊端,提供一种用电数据异常值的识别与处理方法,使用电数据能够更为准确地反映用户的真实用电情况,提高电能计量的准确性。本专利技术所述问题是以下述技术方案解决的:一种用电数据异常值的识别与处理方法,所述方法包括以下步骤:a.设置滑动窗口对于智能电表采集的基于时间序列的离散数据集,设置一个滑动窗口,滑动窗口包含的数值个数为n,n为奇数,滑动窗口的初始位置位于时间序列的起始端;b.计算当前滑动窗口中数据的离群距离式中a表示离群距离约束值,Maxt表示当前滑动窗口中数据的最大值,Mint表示当前滑动窗口中数据的最小值,S表示离群距离值;c.计算当前滑动窗口中各个数据的离群系数式中n表示当前滑动窗口包含的数值个数,j表示数据序号,mi和mj分别表示第i个数值和第j个数值,si表示当前滑动窗口中第i个数据的离群系数;d.异常值的判定和更正设置一个离群系数的阈值,若位于滑动窗口中间点的数据的离群系数小于该阈值,则判定其数值为异常值并将其更正;否则判定其数值为正常值,无需更正;e.将滑动窗口向后移动一个数据,重复步骤b~步骤d,直至遍历整个数据集,完成异常值的处理。上述用电数据异常值的识别与处理方法,对滑动窗口中数据异常值进行更正的具体方法为:若当前滑动窗口中离群系数最大的数据只有一个,则将异常值更正为离群系数最大的数据,若当前滑动窗口中离群系数最大的数据有多个,则将它们的平均值作为更正后的数值。上述用电数据异常值的识别与处理方法,所述离群距离约束值a的取值为a=2,3,···,10。上述用电数据异常值的识别与处理方法,所述滑动窗口包含的数值个数n=9±2。上述用电数据异常值的识别与处理方法,所述离群系数的阈值设置为2或3。本专利技术根据滑动窗口中用电数据的离群系数判定其是否异常,并对异常数据进行更正,该方法可使数据更为准确地反映用户的真实用电情况,减少某些异常值、缺失数据对电能计量造成的不良影响,确保后续工作顺利进行并提高电能计量的准确性。附图说明下面结合附图对本专利技术作进一步详述。图1为箱型图示意图;图2为异常值识别与处理方法流程图;图3为实施例1中的原始数据集图示;图4为实施例1中处理后数据集图示;图5为实施例2中处理前电表数据集图示;图6为实施例2中处理后电表数据集图示。文中所用符号为:n为滑动窗口包含的数值个数,a表示离群距离约束值,Maxt表示当前滑动窗口中数据的最大值,Mint表示当前滑动窗口中数据的最小值,S表示离群距离值,j表示数据序号,mi和mj分别表示第i个数值和第j个数值,si表示当前滑动窗口中第i个数据的离群系数。具体实施方式本专利技术提出的异常值处理方法主要针对基于时间序列的离散采样数据,其物理意义决定了数值不可能极大地偏离众数,因此,按照一本文档来自技高网
...

【技术保护点】
1.一种用电数据异常值的识别与处理方法,其特征是,所述方法包括以下步骤:a.设置滑动窗口对于智能电表采集的基于时间序列的离散数据集,设置一个滑动窗口,滑动窗口包含的数值个数为n,n为奇数,滑动窗口的初始位置位于时间序列的起始端;b.计算当前滑动窗口中数据的离群距离

【技术特征摘要】
1.一种用电数据异常值的识别与处理方法,其特征是,所述方法包括以下步骤:a.设置滑动窗口对于智能电表采集的基于时间序列的离散数据集,设置一个滑动窗口,滑动窗口包含的数值个数为n,n为奇数,滑动窗口的初始位置位于时间序列的起始端;b.计算当前滑动窗口中数据的离群距离式中a表示离群距离约束值,Maxt表示当前滑动窗口中数据的最大值,Mint表示当前滑动窗口中数据的最小值,S表示离群距离值;c.计算当前滑动窗口中各个数据的离群系数式中n表示当前滑动窗口包含的数值个数,j表示数据序号,mi和mj分别表示第i个数值和第j个数值,si表示当前滑动窗口中第i个数据的离群系数;d.异常值的判定和更正设置一个离群系数的阈值,若位于滑动窗口中间点的数据的离群系数小于该阈值,则判定其数值为异常值并将其更正;否则判定其数值为...

【专利技术属性】
技术研发人员:赵文清张诗满李刚
申请(专利权)人:华北电力大学保定
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1