一种适用于低压台区用电数据的数据清洗方法及系统技术方案

技术编号:21971303 阅读:14 留言:0更新日期:2019-08-28 01:26
本发明专利技术涉及一种适用于低压台区用电数据的数据清洗方法,具体步骤如下:(1)对异常数据进行梳理分类,具体分为两大类四小类;(2)对经过分类的异常数据进行自动标识;(3)在经过梳理分类以及标识之后,针对每一小类异常数据,分别采取针对性的处理措施,剔除异常数据或计算近似值替换异常数据。本发明专利技术通过低压台区用电数据清理框架的构建,准确总结不利于数据分析的脏数据类型,并可以通过算法自动识别异常的数据。在此基础上,为每一类的脏数据提出了针对性的处理措施。本发明专利技术可以为低压台区的数据分析提供合格高质量的数据,为低压台区智能电能表运行误差远程分析、用户用电行为分析等打下坚实的基础。

A Data Cleaning Method and System for Low Voltage Station Electricity Data

【技术实现步骤摘要】
一种适用于低压台区用电数据的数据清洗方法及系统
本专利技术属于电力计量领域,涉及低压台区的用点数据清洗技术,具体是一种适用于低压台区用电数据的数据清洗方法及系统。
技术介绍
2009年以来,国家电网公司大力建设用电信息采集系统,目前已实现全域4.5亿只电表运行。系统经过多年运营,积累了海量的用电数据。通过数据分析,挖掘出有效的用电信息,如电能表运行误差、用户的用电行为模式等,既可以开发出海量数据的潜力,又可以大幅降低运营成本,为电网公司提供决策支持。然而,用电信息采集系统所采集的海量数据中,是从现实世界中采集到的大量的各种各样的数据,原始数据质量受到多样性、不确定性和复杂性的影响,使得采集到的实际数据比较凌乱,存在着缺失、异常等现象,很多情况下不符合数据挖掘工具进行知识获取的规范要求。所以需要对数据进行预处理,以提供干净、简介、准确的数据,使挖掘过程更有效、更容易,提高挖掘效率和准确性。
技术实现思路
本专利技术的目的在于克服现有技术的不足之处,提供一种适用于低压台区用电数据的数据清洗方法及系统,处理原始数据中缺失、异常部分,为基于用电数据的数据分析与挖掘,如电能表误差分析,用户用电行为分析等提供合格高质量的数据。本专利技术解决其技术问题是采取以下技术方案实现的:一种适用于低压台区用电数据的数据清洗方法,其特征在于:具体步骤如下:(1)对异常数据进行梳理分类,具体分为两大类四小类;(2)对经过分类的异常数据进行自动标识;(3)在经过梳理分类以及标识之后,针对每一小类异常数据,分别采取针对性的处理措施,剔除异常数据或计算近似值替换异常数据。而且,所述步骤(1)中,异常数据梳理分类为缺失值和异常值两大类,缺失值分为负荷数据缺失、互感器变比数据缺失、长时间未用电用户的数据三个小类,异常值为负荷数据异常。而且,所述步骤(2)中,应用基于相对密度的离群点检测算法实现异常线损检测,对异常数据进行标识。而且,具体步骤为:依照如下等式计算出台区每一天的线损率,(ΔP%)t=(L总,t-∑Lx,t)÷L总,t×100%式中,(ΔP%)t表示台区在t天的线损率;L总,t表示台区总表在第t天测得的负荷用电量;将台区线损率作为输入,应用离群点检测算法,标识出线损率异常的日期。而且,所述离群点检测算法的具体步骤为:⑴建立以下基础数据模型:①对于正整数k,对象p的k最近邻距离k_distance(p)定义为:1)除p外,至少有k个对象o满足distance(p,o)≤k_distance(p);2)除p外,至多有k-1个对象o满足distance(p,o)<k_distance(p);②在此基础上,定义对象的局部邻域密度为:③相对密度定义为:其中,N(x,k)是不包含x的k-最近邻的集合,|N(x,k)|是该集合的大小,其值大于k;⑵在建立基础数据模型的基础上,基于相对密度的离群点检测算法由以下三步组成:首先,对于每一对象x,确定x的k-最近邻集合N(x,k)和密度density(x,k);之后,对于每一对象x,计算其相对密度realtivedensity(x,k);最后,将各对象的相对密度降序排列,确定相对密度大的,明显偏离的若干对象为离群点。而且,所述步骤(3)的处理措施,具体为:①缺失的负荷数据当缺失数据数量不影响计算时,直接剔除存在缺失值的日期;当缺失的数据数量影响计算时,采用线性插值的方法补全,若用户第t天的负荷数据缺失,则计算该用户第t-1天和第t+1天用电数据的平均值,作为缺失数据的近似值;②缺失的互感器变比剔除该类用户数据;③长期未用电的用户数据剔除该类用户数据;④异常的负荷数据按照步骤(2)的方法计算出每一天的线损率后,利用基于相对密度的离群点检测算法,判别出线损率明显异常的日期,并将异常数据全部剔除,从而过滤数据中的异常值。一种低压台区用电数据的数据清洗系统,其特征在于:包括数据梳理模块、数据标识模块以及清洗模块,数据梳理模块、数据标识模块以及清洗模块依次顺序连接,数据梳理模块用于对异常数据进行梳理分类,数据标识模块用于对经过分类的异常数据进行自动标识,清洗模块用于针对每一小类异常数据,分别采取针对性的处理措施,剔除异常数据或计算近似值替换异常数据。而且,所述数据梳理模块将异常数据分类为缺失值和异常值两大类,缺失值分为负荷数据缺失、互感器变比数据缺失、长时间未用电用户的数据三个小类,异常值为负荷数据异常。而且,所述数据标识模块应用基于相对密度的离群点检测算法实现异常线损检测,对异常数据进行标识。而且,所述清洗模块具体功能包括处理缺失的负荷数据、缺失的互感器变比、长期未用电的用户数据以及异常的负荷数据的异常数据。本专利技术的优点和积极效果是:本专利技术通过低压台区用电数据清理框架的构建,准确总结不利于数据分析的脏数据类型,并可以通过算法自动识别异常的数据。在此基础上,为每一类的脏数据提出了针对性的处理措施。本专利技术可以为低压台区的数据分析提供合格高质量的数据,为低压台区智能电能表运行误差远程分析、用户用电行为分析等打下坚实的基础。附图说明图1为低压台区用电脏数据类型及清洗措施对应关系图。具体实施方式下面结合附图并通过具体实施例对本专利技术作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本专利技术的保护范围。一种适用于低压台区用电数据的数据清洗方法,针对用采系统采集到的原始用电数据中,普遍存在着缺失,异常,轻载等现象,梳理出需要进行数据清晰的脏数据类型,利用离群点检测算法标识异常数据,并针对每一类数据针对性提出不同的处理方法,具体步骤如下:(1)根据用电数据的特点和数据分析的需要,将异常数据进行梳理分类,具体分为缺失值和异常值两大类,在此基础上,缺失值分为负荷数据缺失、互感器变比数据缺失、长时间未用电用户的数据(准缺失数据)三个小类,异常值为负荷数据异常(跳大数,跳小数)一个小类,共计四个小类;(2)对经过分类的异常数据进行自动标识,具体是应用基于相对密度的离群点检测算法实现异常线损检测,标识出线损率异常的日期;由于异常的负荷数据难以准确定义其异常的边界,同时也无法准确确定其异常产生的原因,即无法排除是由于用户短期内用电行为的变化导致的异常,考虑台区的每日线损率大致稳定在一定范围内,所以我们考虑通过构造台区线损率这个特征来识别异常数据。首先,依照如下等式计算出台区每一天的线损率,(ΔP%)t=(L总,t-∑Lx,t)÷L总,t×100%式中,(ΔP%)t表示台区在t天的线损率;L总,t表示台区总表在第t天测得的负荷用电量。在此基础上,将台区线损率作为输入,应用离群点检测算法,标识出线损率异常的日期。在本实施例中,应用基于相对密度的离群点检测算法来实现异常线损检测。在应用该算法之前,首先需要定义三个概念:对于正整数k,对象p的k最近邻距离k_distance(p)定义为:1)除p外,至少有k个对象o满足distance(p,o)≤k_distance(p);2)除p外,至多有k-1个对象o满足distance(p,o)<k_distance(p)。在此基础上,定义对象的局部邻域密度为:相对密度定义为:其中,N(x,k)是不包含x的k-最近邻的集合,|N(x,k)|是该集合的大小,其值可能大于k。在定义概念的基础上,基于本文档来自技高网...

【技术保护点】
1.一种适用于低压台区用电数据的数据清洗方法,其特征在于:具体步骤如下:(1)对异常数据进行梳理分类,具体分为两大类四小类;(2)对经过分类的异常数据进行自动标识;(3)在经过梳理分类以及标识之后,针对每一小类异常数据,分别采取针对性的处理措施,剔除异常数据或计算近似值替换异常数据。

【技术特征摘要】
1.一种适用于低压台区用电数据的数据清洗方法,其特征在于:具体步骤如下:(1)对异常数据进行梳理分类,具体分为两大类四小类;(2)对经过分类的异常数据进行自动标识;(3)在经过梳理分类以及标识之后,针对每一小类异常数据,分别采取针对性的处理措施,剔除异常数据或计算近似值替换异常数据。2.根据权利要求1所述的适用于低压台区用电数据的数据清洗方法,其特征在于:所述步骤(1)中,异常数据梳理分类为缺失值和异常值两大类,缺失值分为负荷数据缺失、互感器变比数据缺失、长时间未用电用户的数据三个小类,异常值为负荷数据异常。3.根据权利要求1所述的适用于低压台区用电数据的数据清洗方法,其特征在于:所述步骤(2)中,应用基于相对密度的离群点检测算法实现异常线损检测,对异常数据进行标识。4.根据权利要求3所述的适用于低压台区用电数据的数据清洗方法,其特征在于:具体步骤为:依照如下等式计算出台区每一天的线损率,(ΔP%)t=(L总,t-∑Lx,t)÷L总,t×100%式中,(ΔP%)t表示台区在t天的线损率;L总,t表示台区总表在第t天测得的负荷用电量;将台区线损率作为输入,应用离群点检测算法,标识出线损率异常的日期。5.根据权利要求4所述的适用于低压台区用电数据的数据清洗方法,其特征在于:所述离群点检测算法的具体步骤为:⑴建立以下基础数据模型:①对于正整数k,对象p的k最近邻距离k_distance(p)定义为:1)除p外,至少有k个对象o满足distance(p,o)≤k_distance(p);2)除p外,至多有k-1个对象o满足distance(p,o)<k_distance(p);②在此基础上,定义对象的局部邻域密度为:③相对密度定义为:其中,N(x,k)是不包含x的k-最近邻的集合,|N(x,k)|是该集合的大小,其值可能大于k;⑵在建立基础数据模型的基础上,基于相对密度的离群点检测算法由以下三步组成:首先,对于每一对象x,确定x的k-最近邻集合...

【专利技术属性】
技术研发人员:赵宝国乔亚男李野李刚吕伟嘉张兆杰刘浩宇翟术然顾强卢静雅许迪赵紫敬董得龙杨光季浩何泽昊赵勇
申请(专利权)人:国网天津市电力公司电力科学研究院国网天津市电力公司国家电网有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1