一种基于数理统计的电力数据预处理方法技术

技术编号:19481567 阅读:112 留言:0更新日期:2018-11-17 10:42
本发明专利技术公开了一种基于数理统计的电力数据预处理方法,包括原始数据集输入步骤、抽取数据步骤、负值与空值筛查步骤、异常大值筛查步骤、数据初步预分类步骤和标签添加步骤。本发明专利技术的基于数理统计的电力数据预处理方法,将数理统计中的四分位数检测和标准分数检测方法结合在一起,可以帮助电网工作人员提高审查原始异常数据的效率,优化原始数据集的数据质量。

【技术实现步骤摘要】
一种基于数理统计的电力数据预处理方法
本专利技术涉及一种基于数理统计的电力数据预处理方法,属于智能电网

技术介绍
由于用户群体数量的庞大、智能电表采集环境的差异化,以及设备终端故障和数据传输的干扰等各种不可控因素,在实际的运行过程之中,电网的采集系统所采集的电力数据集是非常复杂的。数据集中的异常数据存在负值、缺失值(None值)、异常零值、异常大值、关系错误数据、冗余数据等多种情况。现有的数据分析和决策工作,许多模型和结论都建立在理想化的数据集上,而实际采集的数据集中的种种异常数据就会对这些后续工作造成干扰甚至是破坏性的误导。随着智能用电信息采集系统的全面推广,电力公司可以方便地从采集系统中获取大量真实有效的数据集,这些数据集可以帮助电力公司充分地掌握用户用电情况,继而从中分析出用户用电的行为和用电特征。但是目前运行的采集系统中由于信号干扰等因素,不可避免地混入了一些被污染的“脏数据”,由于电力系统的数据采集量巨大,这些被污染的数据总量不容忽视,并且对之后的数据提取和分析工作造成了很大的干扰。传统的异常值检测方法多是依赖于经验丰富的工作人员的直观判断。
技术实现思路
本专利技术的目的是克服现有技术的缺陷,提供一种基于数理统计的电力数据预处理方法,将数理统计中的四分位数检测和标准分数检测方法结合在一起,可以帮助电网工作人员提高审查原始异常数据的效率,优化原始数据集的数据质量。实现上述目的的技术方案是:一种基于数理统计的电力数据预处理方法,包括以下步骤:S1,原始数据集输入步骤,输入包含用户电量数据的原始数据集;S2,抽取数据步骤,把需要的表项和数据字段从原始数据集中抽取出来,处理成需要的结构化数据,生成二维的用电量矩阵;S3,负值与空值筛查步骤,通过数理逻辑筛除数据集中的负值、空值和一些不符合常理的数据表项;S4,异常大值筛查步骤,通过四分位数法和标准分数法对数据集的异常大值做筛除,对四分位数法和标准分数法的筛选结果取交集作为最终的异常大值筛查结果;S5,数据初步预分类步骤,对用户电量数据的处理结果作出初步的预分类;S6,标签添加步骤,根据所述负值与空值筛查步骤所得到的负值与空值筛查结果、所述异常大值筛查步骤得到的异常大值筛查结果和所述数据初步预分类步骤得到的初步预分类结果,生成二维数据矩阵,并将对应的分类标签添加到所述二维数据矩阵中,生成标准的数据矩阵格式供下游进一步分析使用。上述的一种基于数理统计的电力数据预处理方法,所述步骤S2中,从原始数据集中的若干表格中抽取出与用户电量相关的用户ID、用电日期、日用电量、正向有功功率和尖峰平谷四种费率下的示数字段作为分析数据,将其转换成一个二维的用电量矩阵,为了分析方便,在转换过程中将用电日期映射为日期在一年中对应的序号。上述的一种基于数理统计的电力数据预处理方法,所述步骤S3中,对用户电量数据进行筛查负值和空值信息,生成出现负值和空值的异常用户信息表,其中,空值数量超过20%的用户电量数据将会被直接筛除。上述的一种基于数理统计的电力数据预处理方法,所述步骤S4中,首先使用四分位数法筛选出用户中的离群点,将出现离群点的用户ID单独记录,有很多家庭用户可能日用电量非常稳定,一旦某天出现一个合理范围内的数据波动也会被系统检出;我们对四分位数法检出的数据再使用标准分数法过滤一遍,取两者交集作为最后的异常大值筛查结果。上述的一种基于数理统计的电力数据预处理方法,所述步骤S5中,对于用户电量数据为负值的情况,我们根据负值绝对值的大小和出现此类情况的频率进一步挖掘信息,做出一些初步的预分类:当用户出现一个极端大的负值的情形,判定为用户出现了换表的操作,将这一大类用户筛选出来,作为更换电表行为用户分类;由于智能电表通常是数年才进行一次更换,如果在数据日期短短两个多月的时间内出现两次甚至多次极端大负值的情况,就需要考虑是否是信号传输出现了问题又或者是电表出现了计量故障,将其列为电表计量故障分类。上述的一种基于数理统计的电力数据预处理方法,所述步骤S6中,标签的添加还包括添加数据相关的地理坐标信息标签、天气信息标签和/或统计学数据信息标签。本专利技术的基于数理统计的电力数据预处理方法,将数理统计中的四分位数检测和标准分数检测方法结合在一起,可以帮助电网工作人员提高审查原始异常数据的效率,优化原始数据集的数据质量。通过本专利技术的电力数据预处理方法可以从庞大的数据库系统中抽取出对后续用电行为分析有用的数据表项,清洗掉用户电量数据集中存在的冗余数据,可以根据数据表项间的关系对缺失的数据进行补全,纠正关系错乱的数据,把数据的格式进行统一化和格式化,剔除各种会对后期分析工作造成干扰的影响因素。总而言之,经过此方法预处理之后的数据,不仅可以大幅减少噪声数据的干扰,优化了数据集,而且也提高了数据审查的效率,减少不必要的时间浪费。附图说明图1为本专利技术的基于数理统计的电力数据预处理方法的流程图;图2为异常用户信息表;图3为换表用户电量折线图;图4为计量装置异常用户电量折线图。具体实施方式为了使本
的技术人员能更好地理解本专利技术的技术方案,下面结合附图对其具体实施方式进行详细地说明:请参阅图1至图4,本专利技术的最佳实施例,一种基于数理统计的电力数据预处理方法,包括以下步骤:S1,原始数据集输入步骤,输入包含用户电量数据的原始数据集;S2,抽取数据步骤,把需要的表项和数据字段从原始数据集中抽取出来,处理成需要的结构化数据,生成二维的用电量矩阵;S3,负值与空值筛查步骤,通过数理逻辑筛除数据集中的负值、空值和一些不符合常理的数据表项;S4,异常大值筛查步骤,通过四分位数法和标准分数法对数据集的异常大值做筛除,对四分位数法和标准分数法的筛选结果取交集作为最终的异常大值筛查结果;S5,数据初步预分类步骤,对用户电量数据的处理结果作出初步的预分类;S6,标签添加步骤,根据所述负值与空值筛查步骤所得到的负值与空值筛查结果、所述异常大值筛查步骤得到的异常大值筛查结果和所述数据初步预分类步骤得到的初步预分类结果,生成二维数据矩阵,并将对应的分类标签添加到所述二维数据矩阵中,生成标准的数据矩阵格式供下游进一步分析使用。步骤S2中,从原始数据集中的若干表格中抽取出与用户电量相关的用户ID、用电日期、日用电量、正向有功功率和尖峰平谷四种费率下的示数字段作为分析数据,将其转换成一个二维的用电量矩阵,为了分析方便,在转换过程中将用电日期映射为日期在一年中对应的序号(请参阅图2)。步骤S3中,对用户电量数据进行筛查负值和空值信息,生成出现负值和空值的异常用户信息表,其中,空值数量超过20%的用户电量数据将会被直接筛除。步骤S5中,而对于负值的情况,产生情况则比较复杂,由于日常电表计数是以正向有功功率累计值来计算的,每个用户后一天的正向有功功率示数减去前一天的差值再乘以每个用户的倍率就是日用电量。对于用户电量数据为负值的情况,我们根据负值绝对值的大小和出现此类情况的频率进一步挖掘信息,做出一些初步的预分类:当用户出现一个极端大的负值的情形,判定为用户出现了换表的操作,将这一大类用户筛选出来,作为更换电表行为用户分类;因为,出现的极端数据绝对值较大,我们对其做取log10处理(请参阅图3);由于智能电表通常是数年才进行一本文档来自技高网
...

【技术保护点】
1.一种基于数理统计的电力数据预处理方法,其特征在于,包括以下步骤:S1,原始数据集输入步骤,输入包含用户电量数据的原始数据集;S2,抽取数据步骤,把需要的表项和数据字段从原始数据集中抽取出来,处理成需要的结构化数据,生成二维的用电量矩阵;S3,负值与空值筛查步骤,通过数理逻辑筛除数据集中的负值、空值和一些不符合常理的数据表项;S4,异常大值筛查步骤,通过四分位数法和标准分数法对数据集的异常大值做筛除,对四分位数法和标准分数法的筛选结果取交集作为最终的异常大值筛查结果;S5,数据初步预分类步骤,对用户电量数据的处理结果作出初步的预分类;S6,标签添加步骤,根据所述负值与空值筛查步骤所得到的负值与空值筛查结果、所述异常大值筛查步骤得到的异常大值筛查结果和所述数据初步预分类步骤得到的初步预分类结果,生成二维数据矩阵,并将对应的分类标签添加到所述二维数据矩阵中,生成标准的数据矩阵格式供下游进一步分析使用。

【技术特征摘要】
1.一种基于数理统计的电力数据预处理方法,其特征在于,包括以下步骤:S1,原始数据集输入步骤,输入包含用户电量数据的原始数据集;S2,抽取数据步骤,把需要的表项和数据字段从原始数据集中抽取出来,处理成需要的结构化数据,生成二维的用电量矩阵;S3,负值与空值筛查步骤,通过数理逻辑筛除数据集中的负值、空值和一些不符合常理的数据表项;S4,异常大值筛查步骤,通过四分位数法和标准分数法对数据集的异常大值做筛除,对四分位数法和标准分数法的筛选结果取交集作为最终的异常大值筛查结果;S5,数据初步预分类步骤,对用户电量数据的处理结果作出初步的预分类;S6,标签添加步骤,根据所述负值与空值筛查步骤所得到的负值与空值筛查结果、所述异常大值筛查步骤得到的异常大值筛查结果和所述数据初步预分类步骤得到的初步预分类结果,生成二维数据矩阵,并将对应的分类标签添加到所述二维数据矩阵中,生成标准的数据矩阵格式供下游进一步分析使用。2.根据权利要求1所述的一种基于数理统计的电力数据预处理方法,其特征在于,所述步骤S2中,从原始数据集中的若干表格中抽取出与用户电量相关的用户ID、用电日期、日用电量、正向有功功率和尖峰平谷四种费率下的示数字段作为分析数据,将其转换成一个二维的用电量矩阵,为了分析方便,在转换过程中将用电日期映射为日期在一年中对应的序号。3.根据权利要求2所述的一种基于数理统计的电力数据预处...

【专利技术属性】
技术研发人员:陈明曹袖毛迪林毛苇严童周清华唐啸宣庐峰熊博越徐伟侯昀黄增瑞
申请(专利权)人:国网上海市电力公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1