一种基于机器学习的电力用户用电异常检测方法技术

技术编号:25710151 阅读:50 留言:0更新日期:2020-09-23 02:56
本发明专利技术公开了一种基于机器学习的电力用户用电异常检测方法,具体步骤如下:1)电力负荷数据清洗;2)电力负荷特征提取;3)电力负荷特征评估;4)基于孤立森林算法筛选可靠度高的数据;5)基于聚类的分层最近邻欠采样技术,获得类间平衡数据集;6)构建基于半监督学习的协同森林异常检测模型。本发明专利技术提出了基于聚类的分层最近邻采样算法,按比例和距离进行采样,有较强的泛化能力,提高了不平衡数据集分类的准确性;对数据集进行了预处理及特征提取和评估,对重复信息的时间序列进行剔除,消除了特征间的线性关系对结果的影响。

【技术实现步骤摘要】
一种基于机器学习的电力用户用电异常检测方法
本专利技术涉及一种基于机器学习的电力用户用电异常检测方法,属于电力领域。
技术介绍
电力行业作为国民经济的基础产业迅速发展。长期以来,窃电、欺诈等现象屡禁不止,并呈现智能化、多样化等特点,不仅危害了国家的经济利益,还扰乱了正常的供电秩序,危及了电网的安全运行。目前的防窃电手段主要包括由专业人员定期勘察以及在电表箱处安装可以检测和报警的仪器等,这造成了运营成本的增加,并且浪费了大量的人力、物力资源。机器学习迅速发展,利用电能表电力负荷数据将机器学习与智能防窃电相结合,有效地检测电力用户用电异常是现阶段的研究方向。目前针对电力用户异常的检测大多基于无监督学习,使得异常检测的准确率低且学习效果缺乏有效的验证。
技术实现思路
为解决现有技术中的不足,本专利技术提供一种基于机器学习的电力用户用电异常检测方法,引入监督学习,提高异常检测的准确率,对学习效果进行有效的验证。本专利技术中主要采用的技术方案为:一种基于机器学习的电力用户用电异常检测方法,具体包括如下步骤:S1本文档来自技高网...

【技术保护点】
1.一种基于机器学习的电力用户用电异常检测方法,其特征在于,具体包括如下步骤:/nS1:对电力负荷数据进行清洗,包括数据异常值的处理与数据缺失值的补全,将清洗过的数据集记为X

【技术特征摘要】
1.一种基于机器学习的电力用户用电异常检测方法,其特征在于,具体包括如下步骤:
S1:对电力负荷数据进行清洗,包括数据异常值的处理与数据缺失值的补全,将清洗过的数据集记为X1;
S2:提取电力负荷数据的统计性特征指标、趋势特征指标和频域特征指标;
S3:筛选出分辨率高的特征,将具有该特征的数据组成样本数据集X2;
S4:基于孤立森林算法进行数据筛选,从样本数据集X2中随机抽取n个样本数据放进孤立树的根节点,样本数据的特征维度上产生一个分割点p,将该特征维度里小于p的样本数据放在当前节点的左侧子节点中,将大于等于p的数据放在当前节点的右侧子节点中,在每个子节点中重复分割过程,不断构造新的子节点,直到每个子节点中只有一个数据点,筛选出异常度得分低的数据的前50%作为正常样本,与异常样本组合成数据集X3;
S5:通过基于聚类的分层最近邻欠采样算法,对数据集X3选取最优的聚类簇数,按比例和距离进行采样,获得类间平衡数据集X4;
S6:基于类间平衡数据集X4构建基于半监督学习的协同森林异常检测模型。


2.根据权利要求1所述的基于机器学习的电力用户用电异常检测方法,其特征在于,所述步骤S1中对电力负荷数据进行清洗的具体步骤如下:
S1-1:当时间序列中出现20%以上电力负荷数据为负值,则将该时间序列删除,不作为样本;当时间序列中电力负荷数据少于20%为负值,看作缺失值;
S1-2:将时间序列中缺失量达到50%的电力负荷数据进行删除,对于缺失量低于50%的电力负荷数据,用当日的前一日电表示数和前一日的当日电表示数互相填补,从而将缺失值准确填充,填充的方式如式(1)所示:



其中,df是缺失时间段用电量的均值,datea和dateb分别表示缺失段后端电表示数和前端表示数,numday表示缺失段天数;
S1-3:将经过步骤S1-1和S1-2清洗过的数据集记为X1。


3.根据权利要求1所述的基于机器学习的电力用户用电异常检测方法,其特征在于,所述步骤S2的具体步骤如下:
S2-1:提取电力负荷数据的统计性特征指标,包括用电量均值、用电量极差、用电量方差、用电量标准差、前r个点标准差、后r个点的标准差、偏度和峰度,其中,
用电量均值mean的计算公式如式(2)所示:



其中,xi表示用户该周期第i天的用电量,n表示该周期的天数;
该周期中用户用电量极差range的计算公式如式(3)所示:
range=xmax-xmin(3);
其中,xmax、xmin表示该周期中用户用电量的最大值和最小值;
该周期中用户用电量方差var的计算公式如式(4)所示:



该周期中用户用电量标准差sd的计算公式如式(5)所示:



该周期中前r日用户用电量标准差fsd_r的计算公式如式(6)所示:



其中,r表示天数;
该周期中后n-r日用户用电量标准差lsdn-r的计算公式如式(7)所示:



该周期中用户用电量偏度skew的计算公式如式(8)所示:



其中,xi表示在该用户在该周期中某天的用电量,E是均值操作;
周期中用户用电量峰值kurt的计算公式如式(9)所示:



S2-2:提取电力负荷数据的趋势特征指标,利用滑动窗口求均值的方式对时间序列进行处理,得到各个时间序列的平均时间序列,将原始时间序列与平均时间序列重合的部分中的各个值分别作差,若差值大于0,则原始时间序列在平均序列之上,反之,则原始时间序列在平均序列之下;
周期中用户用电量上升趋势tra的计算公式如式(10)所...

【专利技术属性】
技术研发人员:石东贤毕晓东陈启明
申请(专利权)人:浙江经贸职业技术学院浙江经济职业技术学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1