System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于电力数据检测,更具体地,涉及一种基于离群点检测和k-means结合的台区用户用电行为分析算法。
技术介绍
1、随着人工智能和大数据的不断发展,电网的智能化和自动化也在不断推进,智能量测终端的大量使用,使得电力负荷数据得以实时采集,用户负荷数据也逐渐出数据量大,数据类型多,特征值丰富,增长速度快等特点。因此基于电力大数据的人工智能或数据挖掘方法可用于分析电力消费行为,提取几种典型用户用电模型,为电力消费者提供有针对性的营销服务。
2、离群点检测是数据挖掘中的重要组成部分,旨在发现数据集中与大部分数据差异较大的点,属于异常数据的筛查,但不一定是错误数据,需要后续的单独分析。离群点的存在会影响聚类的准确性,离群点检测可分为基于统计,基于邻近性,基于聚类,基于分类,基于密度等方法。在基于密度的离群点检测方法中,密度低于相邻点的数据点被定义为离群点,给予聚类中,并将不属于任何聚类的数据点视为离群点,对基于局部密度和聚类结合的离群点检测算法逐渐吸引广大本领域技术人员的关注。
3、基于聚类的用户负荷数据分析旨在从中找寻有价值的信息对用户进行分类,同类用户相似性较高,不同用户相似性较小。其中k-means聚类是机器学习中典型的聚类算法,属于无监督学习,其特点是,算法易懂,收敛性强,参数较少。负荷数据大多是无标签数据,所以无监督聚类方法可以很好的适用。影响k-means算法的两个主要问题一直存在,即初始聚类数k值选取,和聚类中心的优化。目前很多现有技术对k-means的改进也大多集中在这两个方面。因此将问题着
4、现有技术中已出现基于聚类和卷积神经网络的台区线损预测方法,采用k-means聚类算法-离群因子检测法的组合模型对线损异常数据进行判定和剔除。该类现有技术的不足之处在于,使用传统离群点检测算法结合k-means进行离群点检测,针对更复杂或者数据量更大的用户数据效率不高,尤其是本专利技术针对的台区用户用电大数据,效率难以胜任用电行为分析工作。
5、现有技术还存在针对高压工商业用户用电负荷的异常数据辨识与修正方法,对降维后的数据集使用k-means算法进行聚类处理,将离群因子大于预设值的数据认定为异常数据。该类现有技术的不足之处同样是使用传统离群点检测算法,没有解决效率的难题,并且只局限于异常检测。
技术实现思路
1、为解决现有技术中存在的不足,本专利技术提供一种结合离群点检测和k-means聚类的低压台区用户用电行为模式分析方法及系统。
2、本专利技术采用如下的技术方案。本专利技术的第一方面提供了一种基于离群点检测和k-means结合的用户用电行为分析方法,包括以下步骤:
3、步骤1,采集待分析台区用户负荷历史数据,构成原始数据集;
4、步骤2,使用聚类与局部密度相结合的离群点检测算法检测原始数据集,获得离群数据集,判断离群数据集是否存在空缺值待补齐,若需要补齐,执行步骤3;若不需要补齐,执行步骤4;
5、步骤3,对离群数据集空缺值予以补齐,将补齐后的离群数据集放回原始数据集,对原始数据集进行更新,将更新后的原始数据集,再次代入步骤2,重新使用聚类与局部密度相结合的离群点检测算法进行检测;
6、步骤4,将离群数据集作为异常负荷数据集,从原始数据集中分离出去,剩余部分作为正常负荷数据集,使用结合sse和k-d值聚类效果评价指标rk自动确认k值;
7、步骤5,基于步骤4确定的k值,将用户分为k种典型类型,提取并计算用户特征值,对台区用户用电行为进行分析。
8、优选地,步骤2包括:
9、步骤2.1,使用k-means算法对原始数据集进行聚类,得到原始聚类簇;
10、步骤2.2,基于原始聚类簇,计算基于cknn的核心距离,核心到达距离,核心局部可达密度;
11、步骤2.3,基于获得的核心局部可达密度和核心最近邻的集合,计算基于聚类的离群因子ofldc,以如下公式表示:
12、
13、式中:
14、ofldc(p)表示p点的离群因子;
15、ρcld(p)表示p点的核心局部可达密度;
16、cknn(p)是p点的核心最近邻的集合;
17、步骤2.4,以不小于离群因子阈值的样本点构成离群数据集;
18、步骤2.5,判断离群数据集是否存在空缺值待补齐,若需要补齐,执行步骤3;若不需要补齐,执行步骤4。
19、优选地,步骤2.2包括:
20、1)计算核心k距离:
21、样本实例p点的核心k距离dck是满足以下要求的数据集r中p和q的距离:
22、①至少k个点q'∈r且d(p,q')≤d(p,q),q'∈ci
23、(2)
24、②至多k-1个点q'∈r且d(p,q')<d(p,q),q'∈ci
25、式中:
26、d是两点之间的欧几里得距离,q’是核心;
27、2)基于获得的核心k距离,继续计算核心可达距离:
28、p和q之间的核心可达距离为q的核心k距离和p q之间距离的最大值:
29、dreach(p,q)=max(dck(q),d(p,q)) (3)
30、式中:
31、dreach(p,q)表示p和q之间的核心可达距离;
32、3)基于获得的核心可达距离,继续计算核心局部可达密度:
33、
34、式中:
35、ρcls(p)表示p点的核心局部可达密度;
36、cknn(p)是p点的核心最近邻的集合。
37、优选地,步骤3中,修复数据缺失值,以如下公式表示:
38、
39、式中:
40、分别是该用户前1天和后1天同时刻的负荷数据,
41、分别是该用户前2天和后2天同时刻的负荷数据,
42、分别是该用户前3天和后3天同时刻的负荷数据,
43、分别是该用户前4天和后4天同时刻的负荷数据。
44、优选地,步骤4包括:
45、步骤4.1,将正常负荷数据集中的数据进行归一化处理;
46、步骤4.2,计算正常负荷数据集归一化后,各聚类簇不同k值所对应的sse;
47、步骤4.3,计算各聚类簇的sse下降速率vsse,k;
48、步骤4.4,计算各聚类簇不同k值所对应的d(k);
49、步骤4.5,以各聚类簇的sse下降速率和k值所对应的d(k)计算各聚类簇聚类效果评价指标,以如下公式表示:
50、rk=vsse,k-d(k) (6)
51、式中:
52、rk表示聚类效果评价指标。
53、优选地,步骤4.1中,使用最本文档来自技高网...
【技术保护点】
1.一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
3.如权利要求2所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
4.如权利要求1至3中任一项所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
5.如权利要求1至3中任一项所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
6.如权利要求5所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
7.如权利要求5所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
8.如权利要求1至3中任一项所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
9.如权利要求8所述的一种基于离群点检测和k-means结合的用户用电行为分析方法
10.一种基于离群点检测和k-means结合的用户用电行为分析系统,运行如权利要求1-9中任一项所述的基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于,包括:
...【技术特征摘要】
1.一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
3.如权利要求2所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
4.如权利要求1至3中任一项所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
5.如权利要求1至3中任一项所述的一种基于离群点检测和k-means结合的用户用电行为分析方法,其特征在于:
6.如权利要求5所述的一种基于...
【专利技术属性】
技术研发人员:张震,周玉,赵双双,李悦,高凡,纪峰,穆卓文,崔高颖,周超,王舒,夏宇航,冯可,
申请(专利权)人:国网江苏省电力有限公司营销服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。