一种基于数据挖掘的台区线损异常关联用户精准定位方法技术

技术编号:24995914 阅读:56 留言:0更新日期:2020-07-24 17:58
一种基于数据挖掘的台区线损异常关联用户精准定位方法,包括:获取给定的异常台区线损率;进行K‑means聚类;建立台区线损率标准库和异常库;确定异常时间段;用电数据预处理,得到具有研究意义的用户电量;分别计算异常时间段内各用户电量和线损率的皮尔逊系数;利用设定的阈值进行初步筛选,得到和线损异常关联性较大的用户电量集合;分别计算集合中各用户电量曲线与线损率曲线改进的欧氏距离;基于加权皮尔逊系数和欧氏距离的相似性度量,计算皮尔逊系数和欧式距离的权重系数,精准定位所有异常用户。本发明专利技术考虑了单场景下台区的用户电量和线损率关联性并结合具体台区的历史数据分析,提高了精准定位的快速性和准确性。

【技术实现步骤摘要】
一种基于数据挖掘的台区线损异常关联用户精准定位方法
本专利技术属于大数据下精准定位异常
,具体涉及一种基于数据挖掘的台区线损异常关联用户精准定位方法。
技术介绍
随着国家能源资源高效开发和利用战略决策的实施,节能逐渐成为缓解能源供应矛盾的重要手段,而电力行业是节能工作重要的领域之一。电力作为经济社会发展的重要支撑,降低电能在传输、分配和销售过程中的损耗与损失,是供电企业的重要工作之一。现有的台区线损异常关联用户定位方法,在具体算例和功能实现的考虑等方面存在一些缺陷。一是仅仅考虑到使用皮尔逊系数算法确定用户电量波动和线损率变化的关联程度,没有具体分析异常用户电量和线损率两条曲线之间的形状相似性;二是由于线损数据量庞大,需通过数据挖掘算法分析线损波动和电量波动的关系,精确定位异常用户,开展线损的针对性治理,目前的台区线损异常关联用户定位方法是人工进行海量数据计算后的粗略定位以及逐一排查,忽略了对台区大数据的分析与挖掘,不仅加大了计算量,也缺乏准确性。
技术实现思路
本专利技术针对现有技术中的不足,提供一种基于数据挖掘的台区线损异常关联用户精准定位方法。本专利技术在历史线损率K-means聚类结果的基础上,建立了台区线损率标准库和异常库;同时,根据生成的异常库数据,确定异常时间段T;从用电数据缺失值、噪声值和归一化三个处理方面展开,针对用电数据进行预处理,得到具有研究意义的用户电量集合{Wj};分别计算异常时间段内集合{Wj}内各用户电量和线损率的皮尔逊系数rxy;利用设定的阈值进行初步筛选,得到和线损异常关联性较大的用户电量集合{Wk};分别计算集合{Wk}中各用户电量曲线与线损率曲线改进的欧氏距离DE;基于加权皮尔逊系数和欧氏距离的相似性度量,计算皮尔逊系数和欧式距离的权重系数P,精准定位所有异常用户。为实现上述目的,本专利技术采用以下技术方案:一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于,包括如下步骤:S1、导入给定的异常台区线损率;S2、针对导入的异常台区线损率进行K-means聚类;S3、基于聚类结果建立异常台区线损率标准库和异常库;S4、根据异常库确定异常时间段T;S5、进行用电数据预处理,得到具有研究意义的用户电量集合{Wj};S6、分别计算异常时间段T内集合{Wj}中各用户电量和对应线损率的皮尔逊系数rxy;S7、利用设定的阈值进行初步筛选,得到和线损异常关联性较大的用户电量集合{Wk};S8、分别计算集合{Wk}中各用户电量曲线与线损率曲线的欧氏距离DE;S9、基于加权皮尔逊系数和欧氏距离的相似性度量,计算皮尔逊系数和欧式距离的权重系数,精准定位所有异常用户。为优化上述技术方案,采取的具体措施还包括:进一步地,步骤S1中的台区线损率是用于判断台区是否存在异常的依据,其值由用电信息采集系统提供的线损电量计算得出,线损率计算公式如下式(1):式中,LLR表示线损率,Em表示抄表电量,Es表示实际售电量。进一步地,步骤S2中针对异常台区线损率进行K-means聚类,在软件IBMSPSSStatistics25中实现功能,算法流程如下:S21、首先从数据空间中选k个数据点为初始聚类均值;S22、计算每个数据点到这些聚类均值的距离,然后将各数据点分配给离它最近的那个聚类;S23、若所有数据点不再被重新分配,则停止并保持现有聚类;S24、如果仍有数据点被重新分配,则重新计算均值,并返回步骤S22。进一步地,步骤S3中根据K-means聚类结果建立异常台区线损率标准库和异常库,异常库中不仅存放异常用户电量,还存储有对应的具体日期;建立异常台区线损率标准库和异常库包括如下步骤:S31、导入该台区所有线损率数据;S32、对台区线损率进行K-means聚类;S33、找出个案数目最多的聚类,确定该聚类的聚类中心;S34、计算该聚类中所有点到聚类中心的最大距离;S35、若满足如下的规则,则将线损率存放至一个特定的集合中并称之为线损率标准库;反之,则将其存放在线损率异常库中,评判规则如下式(2):|LLRi-x|≤r+Δr(2)式中,LLRi表示导入该台区所有线损率数据,x表示个案数目最多的聚类中心,r表示该聚类中所有点到该聚类中心的最大距离,Δr表示误差。进一步地,步骤S4中,根据已经生成的异常台区线损率异常库确定异常时间段T,其中,T是时间区间,由若干个连续的日期组成。进一步地,步骤S5中,对用户用电数据进行预处理,包括缺失值和异常值的处理以及规范化处理,通过规范化处理,去除其量纲形式,转化为更加规范化的数据形式。进一步地,步骤S6中,面对用户电量集合{Wj},计算异常时间段T内各用户电量Wj和对应线损率的皮尔逊系数rxy,该算法描述了两个定距变量间联系的紧密程度,用于度量两个变量X和Y之间的相关,其值介于-1与1之间,用rxy表示,计算公式为:式中,N为样本量,X、Y分别为异常时间段T内用户电量和台区线损率的观测值;rxy的绝对值越大表明相关性越强。进一步地,步骤S7中,设定的阈值θ的标准为:0.8<θ≤1.0极强相关;0.6<θ≤0.8强相关;0.4<θ≤0.6中等程度相关;0.2<θ≤0.4弱相关;0.0≤θ≤0.2极弱相关或无相关。进一步地,步骤S8中,由于用户电量和线损是等长时间序列,采用欧式距离来判断集合{Wk}中各用户电量曲线与线损率曲线的相似度:设两个序列X(t)={x(1),x(2),…,x(k)}和Y(t)={y(1),y(2),…,y(k)},则欧式距离为:式中,X、Y分别为异常时间段T内的用户电量和台区线损率,k表示集合{Wk}中的样本量;通过对两条曲线进行欧式距离计算,得到两条曲线相似性程度,欧式距离越小,相似度越大;用户电量曲线的x轴表示时间,y轴表示用户电量;线损率曲线的x轴表示时间,y轴表示线损率;判断该台区用户电量和线损率的相似度时,首先为了消除y方向位移和尺度的影响,对用户电量和线损率采用最小-最大规范化的方法进行归一化处理,对原始数据进行线性变换,将其数值投射到[0,1]范围内,归一化处理的转化公式如式(5):式中,对用户电量进行归一化处理时:X(LLRk,Wk)表示k个用户电量的归一值,X′(LLRk,Wk)表示k个用户电量的实际值,X′(LLRk,Wk)min表示异常时间段内k个实际用户电量中的最小值,X′(LLRk,Wk)max表示异常时间段内k个实际用户电量的最大值;对线损率进行归一化处理时:X(LLRk,Wk)表示k个线损率的归一值,X′(LLRk,Wk)表示k个线损率的实际值,X′(LLRk,Wk)min表示异常时间段内线损率序列中的最小值,X′(LLRk,Wk)max表示异常时间段内线损率序列中的最大值本文档来自技高网...

【技术保护点】
1.一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于,包括如下步骤:/nS1、导入给定的异常台区线损率;/nS2、针对导入的异常台区线损率进行K-means聚类;/nS3、基于聚类结果建立异常台区线损率标准库和异常库;/nS4、根据异常库确定异常时间段T;/nS5、进行用电数据预处理,得到具有研究意义的用户电量集合{W

【技术特征摘要】
1.一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于,包括如下步骤:
S1、导入给定的异常台区线损率;
S2、针对导入的异常台区线损率进行K-means聚类;
S3、基于聚类结果建立异常台区线损率标准库和异常库;
S4、根据异常库确定异常时间段T;
S5、进行用电数据预处理,得到具有研究意义的用户电量集合{Wj};
S6、分别计算异常时间段T内集合{Wj}中各用户电量和对应线损率的皮尔逊系数rxy;
S7、利用设定的阈值进行初步筛选,得到和线损异常关联性较大的用户电量集合{Wk};
S8、分别计算集合{Wk}中各用户电量曲线与线损率曲线的欧氏距离DE;
S9、基于加权皮尔逊系数和欧氏距离的相似性度量,计算皮尔逊系数和欧式距离的权重系数,精准定位所有异常用户。


2.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S1中的台区线损率是用于判断台区是否存在异常的依据,其值由用电信息采集系统提供的线损电量计算得出,线损率计算公式如下式(1):



式中,LLR表示线损率,Em表示抄表电量,Es表示实际售电量。


3.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S2中针对异常台区线损率进行K-means聚类,在软件IBMSPSSStatistics25中实现功能,算法流程如下:
S21、首先从数据空间中选k个数据点为初始聚类均值;
S22、计算每个数据点到这些聚类均值的距离,然后将各数据点分配给离它最近的那个聚类;
S23、若所有数据点不再被重新分配,则停止并保持现有聚类;
S24、如果仍有数据点被重新分配,则重新计算均值,并返回步骤S22。


4.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S3中根据K-means聚类结果建立异常台区线损率标准库和异常库,异常库中不仅存放异常用户电量,还存储有对应的具体日期;
建立异常台区线损率标准库和异常库包括如下步骤:
S31、导入该台区所有线损率数据;
S32、对台区线损率进行K-means聚类;
S33、找出个案数目最多的聚类,确定该聚类的聚类中心;
S34、计算该聚类中所有点到聚类中心的最大距离;
S35、若满足如下的规则,则将线损率存放至一个特定的集合中并称之为线损率标准库;反之,则将其存放在线损率异常库中,评判规则如下式(2):
|LLRi-x|≤r+Δr(2)
式中,LLRi表示导入该台区所有线损率数据,x表示个案数目最多的聚类中心,r表示该聚类中所有点到该聚类中心的最大距离,Δr表示误差。


5.如权利要求4所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S4中,根据已经生成的异常台区线损率异常库确定异常时间段T,其中,T是时间区间,由若干个连续的日期组成。


6.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S5中,对用户用电数据进行预处理,包括缺失值和异常值的处理以及规范化处理,通过规范化处理,去除其量纲形式,转化为更加规范化的数据形式。


7.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S6中,面对用户电量集合{Wj},计算异常时间段T内各用户电量Wj和对...

【专利技术属性】
技术研发人员:陈光宇徐嘉杰张仰飞郝思鹏刘海涛吕干云
申请(专利权)人:南京工程学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1