一种基于均值漂移和XGBoost的异常用电判别方法技术

技术编号:24171011 阅读:41 留言:0更新日期:2020-05-16 02:57
本发明专利技术属于电力技术领域,尤其涉及一种基于均值漂移和XGBoost的异常用电判别方法,是一种数据分析与挖掘的方法。包括采集台区用户的日冻结用电量信息并转置为列标;基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;对均值漂移聚类结果差别进行标识与交集,形成初始疑似异常用电列表;从已确认的异常用电名单中选80%为样本训练学习,形成决策树模型;再对剩余20%异常用电名单的数据验证调整;对疑似异常用电列表进行二次筛选,得到最终异常用电名单。本发明专利技术对异于常规的用电特征,利用决策树模型进行二次过滤,使异常用电的判断更加高效准确,达80%以上,解决了异常用电客户的检测问题,其应用市场较为广阔。

【技术实现步骤摘要】
一种基于均值漂移和XGBoost的异常用电判别方法
本专利技术属于电力
,尤其涉及一种基于均值漂移和XGBoost的异常用电判别方法,具体是一种数据分析与挖掘的方法。
技术介绍
当前,对于用电异常行为的手段除了常规用电检查手段外,也借助了一些数据统计手段,例如:按用户用电性质、电量同比、环比核查,对台区、专变用户和电量异常用户进行分析,排查可能存在异常用电的用户。利用基于标准的K-means聚类分析方法来实现用户用电分析是一种常见方法,但是,k-means需要事先确定分几类合适,并且,不能单一地从用电量和用电特征就判定是否异常用电。并且,上述手段需要大量的人工核查识别工作,效率较低且工作量大,在面向动辄上千万条记录的用电量数据时,常用方法无法运行。普通居民每日的用电量比较有限,商业用电用电量一般会比较大;居民用电工作日与周末用电量可能会有波动,部分24小时营业的商业用电则相对平稳。如果在档案中登记为居民用电的,但是用电量与用电波动性方面却较为符合商业用电的特征,则认为该用户异常用电的可能性较大。聚类个数不能简单地认定为居民本文档来自技高网...

【技术保护点】
1.一种基于均值漂移和XGBoost的异常用电判别方法,其特征是:包括以下步骤:/n步骤1:采集台区用户的日冻结用电量信息,通过行列转置将日期转置为列标,定义公式P

【技术特征摘要】
1.一种基于均值漂移和XGBoost的异常用电判别方法,其特征是:包括以下步骤:
步骤1:采集台区用户的日冻结用电量信息,通过行列转置将日期转置为列标,定义公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量;
步骤2:基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;
步骤3:对步骤2得到的均值漂移聚类结果差别进行标识,并对聚类分析结果取交集,形成初始疑似异常用电列表;
步骤4:从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型;用决策树模型对剩余20%的异常用电名单的数据进行验证,并不断优化调整决策树模型;
步骤5:利用步骤4中得到的决策树模型对步骤3中的疑似异常用电列表进行二次筛选,得到最终的异常用电名单。


2.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述用电量归一化方法指面向所有数据统一的归一化处理,表示如下:



其中:Pij表示第i个用户第j个日期的用电量。


3.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述均值漂移聚类分析的方法步骤如下:
步骤2.1:选取随机中心点C;
步骤2.2:计算其他数据点与中心点C的欧氏距离小于半径H的集合M;
步骤2.3:计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
步骤2.4:将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;中心点偏移方法,表示如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
步骤2.5:迭代步骤2.2~2.4,得到偏移向量的大小满足偏移量阈值的中心点;
步骤2.6:迭代步骤2.1~2.5,对各点进行归类。


4.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述偏移向量计算方程,表示如下:



其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点。


5.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:步骤3中所述均值漂移聚类结果进行标识与交集的方法,表示如下:
取用电量聚类结果中心曲线中除去数量最少的,以及居民用户占比在5%以下或95%以上的类别集合C1;以及用电波动性最大的聚类类别C2,取C1∩C2。


6.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:步骤4中所述基于用电数据的决策树模型建立步骤如下:
步骤4.1:对异常用电名单中选取的80%样本进...

【专利技术属性】
技术研发人员:孙峰王刚程绪可李家珏温鑫张冠锋曾辉白雪张潇桐赵清松董鹤楠李平
申请(专利权)人:国网辽宁省电力有限公司电力科学研究院国家电网有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1