基于用电量的台区违约用电分析与挖掘方法技术

技术编号:16379723 阅读:56 留言:0更新日期:2017-10-15 13:42
本发明专利技术公开了一种基于用电量的台区违约用电分析与挖掘方法,包括数据收集、数据转换、数据清洗、基于用电量的K‑means聚类分析等步骤。本发明专利技术通过从用电量和用电行为两个角度对用电数据进行挖掘,K‑means作为用户用电行为挖掘的经典算法,也是本发明专利技术的重要工具。按照用户的用电量及用电行为分别进行聚类,识别每个用户在用电量及用电行为维度上的特征,综合两个角度的分析,从而检测得出疑似违约用电的客户,以此实现从海量数据中更加直观、快速地挖掘违约用电用户。

Electricity consumption analysis and mining method based on electricity consumption in Taiwan area

The invention discloses a default electricity analysis and data mining method based on power station area, including data collection, data conversion, data cleaning, based on K means clustering analysis steps of electricity. The invention of electricity through data mining from two aspects of consumption and consumption behaviors, the classical algorithm K means as electricity users behavior mining, but also an important tool of the invention. According to the user's electricity and electricity behavior were clustering, identifying each user in the electricity and electrical characteristics of behavior dimension, comprehensive analysis of the two angles, thus the detection results of suspected default electricity customers, in order to achieve from the mass of data is more intuitive and fast mining of default electricity users.

【技术实现步骤摘要】
基于用电量的台区违约用电分析与挖掘方法
本专利技术涉及一种基于用电量的台区违约用电分析与挖掘方法。
技术介绍
当前,违约用电行为主要包含如下几个方面:擅自改变用电类别;擅自超过合同约定的容量用电;擅自超过计划分配的用电指标;擅自使用已经在供电企业办理暂停使用手续的电力设备,或者擅自启用已经被供电企业查封的电力设备;擅自迁移、更动或者擅自操作供电企业的用电计量装置、电力负荷控制装置、供电设施以及约定由供电企业调度的客户受电设备;未经供电企业许可,擅自引入、供出电源或者将自备电源擅自并网。对于上述不同类别的违约用电行为,常规用电检查手段能够帮助实现一些违约用电设备、违约引入、供出电源及违约并网等类型违约用电的识别;借助一些常规的数据统计手段,例如:按用户用电性质、电量同比、环比核查,对台区、专变用户和电量异常用户进行分析,也能排查可能存在违约用电行为的用户。但是上述手段需要大量的人工核查识别工作,效率较低且工作量大,不适合大面积的推广应用。在用户用电行为分析中,用户用电数据覆盖面广,数据量级相差较大,为了避免由于数据量级的差异带来对用户用电行为识别带来的影响,常常采用归一化的手段,利用0-1区间的用电数据来表征用户的用电行为特征。同时,用电量也作为违约用电识别的一个指标,来辅助实现从海量用电数据中挖掘违约用电客户。
技术实现思路
本专利技术的目的在于提供一种从擅自改变用电类型的角度,基于用户历史日冻结电量数据,实现违约用电用户的挖掘,辅助人工进行违约用电的识别,从而实现识别违约用电的有效性、高效性、周期性、可扩展性的基于用电量的台区违约用电分析与挖掘方法。本专利技术的技术解决方案是:本方法主要分为两个方面,一是基于用户用电量信息的K-means聚类分析,按照台区所属的用户用电量信息进行聚类,标识各类用户的用电量差别;二是基于用户用电行为的K-means聚类分析,按照台区所属的用户用电特征进行聚类,标识不同类别用户的用电行为特征。最后再综合上述两方面的分析,将属于典型商业用电行为和商业用电量的居民用户提取出来,视作疑似违约用电的客户。一种基于用电量的台区违约用电分析与挖掘方法,其特征是:包括下列步骤:(一)数据收集,结合业务需求,收集台区的用户日冻结用电量数据,每一个台区的数据如下表:用户日冻结量数据表(二)数据转换,整理用电量数据,将上表中的日期列转换成行,使得整理后每个台区的数据中每行代表一个用户,如下表:用户日用电量整理数据其中,Pij(i=1,2,…,k;j=1,2,…,n)代表用户i在第j天的用电量,dj代表日期;(三)数据清洗:经过转换之后的数据,只是在行列方向上做了一个变换,对于由于采集系统异常或者用电表更换带来的异常数据,仍需要做进一步的清洗;主要的数据清洗方法如下:(A)噪声数据清洗(1)、利用数据分布特征及箱型图方法来识别单维数据集中噪声数据;假设一组数据如下:序号1234…n数据E_1E_2E_3E_4…E_n一般情况下,对于离散程度并非非常大的数据源来说,数据自身分布将会集中在某一区域之内,所以利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值;首先,将数据集切等分成α个区间,α可取1,10,100,1000,区间大小为θ=(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组利用箱型图方法,对新数据组剔除离群值,得到非离群数据组[Q1-3IQR,Q3+3IQR],再取非异常数据组[Q1-1.5IQR,Q3+1.5IQR],得到目标数据;其中Q1:第一分位数,Q3:第三分位数;IQR四分位间距IQR=Q3-Q1;(2)、利用基于欧几里德距离的聚类方法来识别多维数据集中噪声数据;一般情况下,利用数据分布特征或业务理解来识别单维数据集中噪声数据是快捷有效,但对于聚合程度高,彼此相关的多维数据而言,通过数据分布特征或业务理解来识别异常的方法便显得无能为力;面对这种窘迫的情况,聚类方法提供了识别多维数据集中噪声数据的方法;在很多情况下,把整个记录空间聚类,能发现在字段级检查未被发现的孤立点;聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇中的对象的差别就比较大;散落在外,不能归并到任何一类中的数据称为“孤立点”或“奇异点”;对于孤立或是奇异的噪声数据进行剔除处理;(B)缺失值清洗在数据集中,若某记录的属性值被标记为空白或“-”等,则认为该记录存在缺失值,是不完整的数据;基于k-NN近邻填充技术的算法来处理缺失数据;k-NN分类,训练样本用n维数值属性描述,每个样本代表n维空间的一个点,这样,所有的训练样本都存放在n维模式空间中;给定一个未知样本,k-NN分类法搜索模式空间,找出最接近未知样本的k个训练样本;这k个训练样本是未知样本的k个“近邻”;“临近性”用欧几里德距离定义,其中两个点X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的欧几里得距离是设z是需要测试的未知样本,z=(x',y'),所有的训练样本(x,y)∈D,未知样本的最临近样本集设为Dz,K-NN分类算法的描述如下:k是最临近样本的个数,D是训练样本集。对数据做无量纲处理,消除单位对缺失值清洗的影响;计算未知样本与每个训练样本(x,y)之间的距离d(x',x),得到离样本z最临近的k个训练样本集DZ;当确定了测试样本的k个“近邻”后,就根据这k个近邻相应的字段值的均值来替换该测试样本的缺失值;(C)重复值清洗在复杂工作环境中,由于数据多次上报,或是其他人为因素,导致数据重复值的出现是普遍的,主要使用字段相似度来识别判断重复值;字段相似度定义:字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值,O<S<1。S越小,则两字段相似程度越高;若S=0,则表示两字段为完全重复字段;根据字段的类型不同,计算方法也不相同;布尔型字段相似度计算方法:对于布尔型字段,如果两字段相等,则相似度取0,如果不同,则相似度取1;数值型字段相似度计算方法:对于数值型字段,可采用计算数字的相对差异;利用公式:S(s1,s2)=|s1-s2|/(max(s1,s2))字符型字段相似度计算方法:对于字符型字段,比较简单一种方法是,将进行匹配的两个字符串中可以互相匹配的字符个数除以两个字符串平均字符数;利用公式:S(s1,s2)=|k|/((|s1|+|s2|)/2)其中k是匹配的字符数;设定阈值,当字段相似度大于阈值时,识别其为重复字段,并发出提醒,再根据实际业务理解,对重复数据做剔除或其他数据清洗操作;(四)基于用电量的K‐means聚类分析:根据用户的日用电量信息将用户按照K‐means的思路进行分类;S1.依据轮廓系数法确定最佳的聚类个数N;S2.从上述数据中随机选取N个用户作为质心;S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;S4.按照欧氏距离法,重新计算每个类别的质心;S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;(五)根据步骤(四)K‐means聚类得到的结果,对每个类别的用户用电量本文档来自技高网...
基于用电量的台区违约用电分析与挖掘方法

【技术保护点】
一种基于用电量的台区违约用电分析与挖掘方法,其特征是:包括下列步骤:(一)数据收集,结合业务需求,收集台区的用户日冻结用电量数据,每一个台区的数据如下表:用户日冻结量数据表

【技术特征摘要】
1.一种基于用电量的台区违约用电分析与挖掘方法,其特征是:包括下列步骤:(一)数据收集,结合业务需求,收集台区的用户日冻结用电量数据,每一个台区的数据如下表:用户日冻结量数据表(二)数据转换,整理用电量数据,将上表中的日期列转换成行,使得整理后每个台区的数据中每行代表一个用户,如下表:用户日用电量整理数据其中,Pij(i=1,2,…,k;j=1,2,…,n)代表用户i在第j天的用电量,dj代表日期;(三)数据清洗:经过转换之后的数据,只是在行列方向上做了一个变换,对于由于采集系统异常或者用电表更换带来的异常数据,仍需要做进一步的清洗;主要的数据清洗方法如下:(A)噪声数据清洗(1)、利用数据分布特征及箱型图方法来识别单维数据集中噪声数据;假设一组数据如下:序号1234…n数据E_1E_2E_3E_4…E_n一般情况下,对于离散程度并非非常大的数据源来说,数据自身分布将会集中在某一区域之内,所以利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值;首先,将数据集切等分成α个区间,α可取1,10,100,1000,区间大小为θ=(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组利用箱型图方法,对新数据组剔除离群值,得到非离群数据组[Q1-3IQR,Q3+3IQR],再取非异常数据组[Q1-1.5IQR,Q3+1.5IQR],得到目标数据;其中Q1:第一分位数,Q3:第三分位数;IQR四分位间距IQR=Q3-Q1;(2)、利用基于欧几里德距离的聚类方法来识别多维数据集中噪声数据;一般情况下,利用数据分布特征或业务理解来识别单维数据集中噪声数据是快捷有效,但对于聚合程度高,彼此相关的多维数据而言,通过数据分布特征或业务理解来识别异常的方法便显得无能为力;面对这种窘迫的情况,聚类方法提供了识别多维数据集中噪声数据的方法;在很多情况下,把整个记录空间聚类,能发现在字段级检查未被发现的孤立点;聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇中的对象的差别就比较大;散落在外,不能归并到任何一类中的数据称为“孤立点”或“奇异点”;对于孤立或是奇异的噪声数据进行剔除处理;(B)缺失值清洗在数据集中,若某记录的属性值被标记为空白或“-”等,则认为该记录存在缺失值,是不完整的数据;基于k-NN近邻填充技术的算法来处理缺失数据;k-NN分类,训练样本用n维数值属性描述,每个样本代表n维空间的一个点,这样,所有的训练样本都存放在n维模式空间中;给定一个未知样本,k-NN分类法搜索模式空间,找出最接近未知样本的k个训练样本;这k个训练样本是未知样本的k个“近邻”;“临近性”用欧几里德距离定义,其中两个点X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的欧几里得距离是设z是需要测试的未知样本,z=(x',y'),所有的训练样本(x,y)∈D,未知样本的最临近样本集设为Dz,K-NN分类算法的描述如下:k是最临近样本的个数,D是训练样本集。对数据做无量纲处理,消除单位对缺失值清洗的影响;计算未知样本与每个训练样本(x,y)之间的距离d(x',x),得到离样本z最临近的k个训练样本集DZ;当确定了测试样本的k个“近邻”后,就根据这k个近邻相应的字段值的均值来替换该测试样本的缺失值;(C)重复值清洗在复杂工作环境中,由于数据多次上报,或是其他人为因素,导致数据重复值的出现是普遍的,主要使用字段相似度来识别判断重复值;字段相似度定义:字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值,O<S<1。S越小,则两字段相似程度越高;若S=0,则表示两字段为完全重复字段;根据字段的类型不同,...

【专利技术属性】
技术研发人员:胡宏季润阳王栋刘园傅靖顾斌刘飞毛艳芳胡斌杨佩
申请(专利权)人:国家电网公司国网江苏省电力公司国网江苏省电力公司南通供电公司全球能源互联网研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1