一种基于半监督学习的异常用电用户检测方法技术

技术编号:19427791 阅读:24 留言:0更新日期:2018-11-14 11:04
本发明专利技术公开了一种基于半监督学习的异常用电用户检测方法,属于检测技术领域,包括以下步骤:数据预处理;基于聚类分析的一级灰名单生成;基于离群度计算的二级灰名单生成;基于行为相似度计算的三级灰名单生成。本发明专利技术提出的基于半监督学习的异常用电用户检测模型,旨在形成用户可疑度排序列表,为现场人工检测提供重点检测名单,提高了现场检测的准确率及效率。

【技术实现步骤摘要】
一种基于半监督学习的异常用电用户检测方法
本专利技术属于检测
,具体涉及一种基于半监督学习的异常用电用户检测方法。
技术介绍
据研究显示,每年我国电力系统中因非技术性问题造成的营运损失高达百亿美元。非技术性损失是指由配电网侧电力用户的窃电、欺诈等一系列虚假用电行为造成的运营损失。随着智能电网不断推进与传感采集技术的高速发展,电力公司用电负荷数据海量增加,这导致异常用电用户检测越来越困难。近年来,人们提出一些智能检测算法来克服原始人工检测盲目性高、查准率低等弊端,提高现场检测的命中率,降低运营成本。现阶段大部分智能检测算法都是基于有监督学习进行的,需要以大量带标签的训练集为前提。但现实情况中,数据分析检测的初始阶段没有大量训练集进行模型训练。
技术实现思路
针对现有技术中存在的上述技术问题,本专利技术提出了一种基于半监督学习的异常用电用户检测方法,设计合理,克服了现有技术的不足,具有良好的效果。为了实现上述目的,本专利技术采用如下技术方案:一种基于半监督学习的异常用电用户检测方法,包括以下步骤:步骤1:数据预处理采用滑动平均插值法对数据集进行预处理;步骤2:基于聚类分析的一级灰名单生成假设大多数人都是正常用户,且正常用户和异常用户的行为特点是不同的,利用用户特征序列进行聚类分析,找到聚类类簇中成员数量较少的点,即用电行为与大多数用户用电行为不同的用户;采用基于高斯混合模型的算法对用户进行聚类,最终将部分离群用户设定为可疑用户,利用聚类分析方法筛选出离群点用户,即得到一级灰名单;步骤3:基于离群度计算的二级灰名单生成基于一级灰名单,计算用户的离群度,根据离群程度判断用户可疑程度,形成具有可疑度排名的二级灰名单;步骤4:基于行为相似度计算的三级灰名单生成应用基于行为相似度计算的三级灰名单生成算法,匹配黑名单库中用户的异常行为,检测出各类中与黑名单用户具有相似行为特征的可疑用户,形成三级灰名单。优选地,在步骤2中,具体包括如下步骤:步骤2.1:根据基于高斯混合模型的聚类算法将用户进行聚类划分为n个簇;步骤2.2:判断各个簇成员个数是否小于聚类划分离群点的阈值k;若:判断结果为各个簇成员个数小于聚类划分离群点的阈值k,则将簇中用户加入到一级灰名单中;或判断结果为各个簇成员个数大于或者等于聚类划分离群点的阈值k,则加入到非灰名单用户中。优选地,在步骤3中,具体包括如下步骤:步骤3.1:利用局部离群因子算法计算一级灰名单中用户的离群因子值;步骤3.2:将一级灰名单用户的离群因子值按照从大到小的顺序加入到二级灰名单中。优选地,在步骤4中,具体包括如下步骤:步骤4.1:将非灰名单中的用户以簇为单位,利用DTW算法计算非灰名单中的用户与黑名单库中的用户间的行为相似度DTW值;步骤4.2:计算非灰名单库中各簇成员的DTW均值,将各簇中低于DTW均值的用户筛选出来加入到三级灰名单中;步骤4.3:将三级灰名单中用户按照DTW值由小到大进行排序。本专利技术所带来的有益技术效果:本专利技术提出了基于半监督学习的异常用电用户检测模型,旨在形成用户可疑度排序列表,为现场人工检测提供重点检测名单,提高现场检测的准确率及效率。附图说明图1为基于半监督学习的异常用电用户检测方法框架图。图2为局部离群点筛选图。图3为用户DTW值选择示意图。图4为特征集的相关矩阵示意图。图5为二维特征数据分布图。图6为三维特征数据分布图。图7为归一化之后的特征集相关矩阵示意图。图8为ROC(receiveroperatingcharacteristiccurve,受试者工作特征曲线)曲线下面积AUC与参数n的关系示意图。图9为ROC曲线下面积AUC与参数a的关系示意图。图10为无监督学习异常检测模型算法的累积查全率曲线示意图。图11为无监督学习异常检测模型与半监督学习异常检测模型准确率图。具体实施方式下面结合附图以及具体实施方式对本专利技术作进一步详细说明:1、模型步骤和框架本专利技术方法实现工作主要包括以下几步:首先,假设大多数人都是正常用户,且正常用户和异常(偷电)用户的行为特点是不同的,利用聚类分析方法筛选出离群点用户,即得到一级灰名单。其次,基于一级灰名单,计算用户的离群度(LOF值),根据离群程度判断用户可疑程度,形成具有可疑度排名的二级灰名单。第三步,基于二级灰名单,去现场收集离群用户的造假证据,得到黑名单,并存入黑名单库中。第四步,针对部分用户可能协同作案,造成大量异常用户的行为存在一致性的问题,本申请进一步对第一步聚类操作得到的结果类进行处理。具体方法为,融合第三步现场检测得到的黑名单和第一步聚类得到的多个类,提出了基于行为相似度计算的三级灰名单生成算法。此算法利用黑名单库中用户的异常行为,检测出各类中与黑名单用户具有相似行为特征的可疑用户,形成三级灰名单。第五步,基于三级灰名单,去现场收集用户协同或者共谋造假的证据,得到黑名单,并存入黑名单库中。整个方法的框架如图1所示。该框架主要分两大部分实现,即基于无监督学习的异常用电个体(即一级灰名单和二级灰名单用户)检测和基于半监督学习的协同异常用电用户(即一级灰名单、二级灰名单、三级灰名单和黑名单用户)检测。2、模型核心算法图1中基于无监督学习的单个异常用电用户的检测分为三大模块,其中涉及到的核心算法分别为:数据预处理方法、基于聚类分析的一级灰名单生成算法、基于离群度计算的二级灰名单生成算法。图1中基于半监督学习的用电异常用户的检测模型除了上述三个核心算法之外,还涉及一个核心算法—基于行为相似度计算的三级灰名单生成算法。下面详细介绍每个模块的处理过程。2.1、数据预处理方法在对用户进行模型检测之前,首先需要对检测数据进行预处理,此阶段主要进行数据清洗与整理工作。由于在现实情况中,用电量数据都为实时采集,而且时间序列采集过程是不可逆过程。但是采集过程中往往会因一些非人为的失误造成采集到部分脏数据,即包含空值、错误值或存在偏离期望的孤立点值等。为了不影响实验结果,在实验开始之前需要对数据集进行异常值与缺失值的插值处理。现阶段,主流处理方式分为五种:DoNothing、填充0值或-1值、线性插值、均值\中位数\众数插值、滑动平均差值法。(1)DoNothing处理方式:其认为缺省也是一种信息,处理方式为保留所有信息,以空值替代。(2)填充0值或-1值,这是一种最常见的缺省值处理方式,能够引入最少的人为主观信息,避免因人为主观信息导致预测偏离。(3)线性插值法:线性插值利用一次多项式进行插值的方式,它对时序数据进行插值补全,能够较好的降低因为丢失信息带来的噪声。此种方式主要用在了CNN、RNN网络上。(4)均值\中位数\众数插值法:它是将序列均值\中位数\众数插入到缺失值中。(5)滑动平均插值法:在时间序列中的第i个位置数据为缺失数据,则取前后一个窗口的数据的平均值,作为插补数据。综合上述几种主流处理方式,本申请对使用的数据集中的数据进行分析,发现数据集中大部分用户时间序列的缺失值不多,并且在包含缺失值的序列中连续缺失大段序列的情况也非常少。综合上述因素,本申请采用滑动平均插值法对缺失值进行处理,时间窗大小选择为7,以一星期7天为单位。本申请对数据集进行预处理,采用滑动平均插值法处理数据集中的脏数据,此为模型检测工作的本文档来自技高网...

【技术保护点】
1.一种基于半监督学习的异常用电用户检测方法,其特征在于:包括以下步骤:步骤1:数据预处理采用滑动平均插值法对数据集进行预处理;步骤2:基于聚类分析的一级灰名单生成假设大多数人都是正常用户,且正常用户和异常用户的行为特点是不同的,利用用户特征序列进行聚类分析,找到聚类类簇中成员数量较少的点,即用电行为与大多数用户用电行为不同的用户;采用基于高斯混合模型的算法对用户进行聚类,最终将部分离群用户设定为可疑用户,利用聚类分析方法筛选出离群点用户,即得到一级灰名单;步骤3:基于离群度计算的二级灰名单生成基于一级灰名单,计算用户的离群度,根据离群程度判断用户可疑程度,形成具有可疑度排名的二级灰名单;步骤4:基于行为相似度计算的三级灰名单生成利用基于行为相似度计算的三级灰名单生成算法,对应匹配黑名单库中用户的异常行为,检测出各类中与黑名单用户具有相似行为特征的可疑用户,形成三级灰名单。

【技术特征摘要】
1.一种基于半监督学习的异常用电用户检测方法,其特征在于:包括以下步骤:步骤1:数据预处理采用滑动平均插值法对数据集进行预处理;步骤2:基于聚类分析的一级灰名单生成假设大多数人都是正常用户,且正常用户和异常用户的行为特点是不同的,利用用户特征序列进行聚类分析,找到聚类类簇中成员数量较少的点,即用电行为与大多数用户用电行为不同的用户;采用基于高斯混合模型的算法对用户进行聚类,最终将部分离群用户设定为可疑用户,利用聚类分析方法筛选出离群点用户,即得到一级灰名单;步骤3:基于离群度计算的二级灰名单生成基于一级灰名单,计算用户的离群度,根据离群程度判断用户可疑程度,形成具有可疑度排名的二级灰名单;步骤4:基于行为相似度计算的三级灰名单生成利用基于行为相似度计算的三级灰名单生成算法,对应匹配黑名单库中用户的异常行为,检测出各类中与黑名单用户具有相似行为特征的可疑用户,形成三级灰名单。2.根据权利要求1所述的基于半监督学习的异常用电用户检测方法,其特征在于:在步骤2中,具体包括如下步骤:步骤2.1:根据基于高斯混...

【专利技术属性】
技术研发人员:纪淑娟周金萍李凯旋张纯金
申请(专利权)人:山东科技大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1