一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法技术

技术编号:37136004 阅读:33 留言:0更新日期:2023-04-06 21:35
本发明专利技术提供一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法,包括:通过SQL查询方式获取用电行为特征数据,所述用电行为特征数据包括电压、电流、相位、用电类别;对获取的用电行为特征数据进行清洗、转化,得到电压的标准差、电压不平衡度、电流不平衡度;通过Kmeans聚类按照电压的标准差、电压不平衡度、电流不平衡度进行聚类,识别非常明显的窃电用户和正常用户;基于识别的非常明显的窃电用户和正常用户构建学习样本,划分训练集和测试集,建立Lightgbm回归模型,通过Lightgbm回归模型识别剩下的大量用电行为特征不明显的用户。本发明专利技术可以大规模高效的识别窃电用户,提高了效率和准确性,省时省力。省时省力。省时省力。

【技术实现步骤摘要】
一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法


[0001]本专利技术涉及机器学习算法领域,具体是一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法。

技术介绍

[0002]长期以来,电力企业被盗电问题困扰。尽管供电企业从多方面加强了防盗措施,但偷电带来了巨大利益,带动了防盗手段的发展趋势更加复杂和隐蔽,给防盗工作带来了很大的挑战。
[0003]传统的方式获取窃电数据是根据现场取证得到,存在取证难、取证效率低的特点,目前对窃电用户的识别,方法通常有3类:
[0004]1.传统的现场取证方式,主要的问题是取证困难,效率低;
[0005]2.基于svm等分类或回归模型的有监督学习方式,这种模型的优点是识别精度较高,缺点是标记用户(是否窃电)的获取非常困难,存在着用电信息特征不全、时间久远、数量稀少零散等缺点;
[0006]3.基于kmeans聚类等代表的无监督学习方式,这种模型的优点是不需要标记用户(是否窃电),但缺点是精度不高,且只能识别出异常值(用电行为特征明显异常)的数量太少,还有大量的用户行为处于边界状态或者不明显的状态,模型并不能有效的识别。

技术实现思路

[0007]本专利技术提供一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法,其采用基于kmeans

lightgbm组合模型的方式有效兼顾了无监督学习模型和有监督学习模型的优点,首先通过kmeans聚类识别出明显异常的用户作为学习样本,剩下大量的处于不明确的用户作为预测集通过lightgbm回归模型识别,可以准确定位涉嫌“拖欠偷电”用户。
[0008]一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法,包括如下步骤:
[0009]步骤一、通过SQL查询方式获取用电行为特征数据,所述用电行为特征数据包括电压、电流、相位、用电类别;
[0010]步骤二、对步骤一获取的用电行为特征数据进行清洗、转化,得到电压的标准差、电压不平衡度、电流不平衡度;
[0011]步骤三、通过Kmeans聚类按照电压的标准差、电压不平衡度、电流不平衡度进行聚类,识别非常明显的窃电用户和正常用户;
[0012]步骤四、基于步骤三识别的非常明显的窃电用户和正常用户构建学习样本,划分训练集和测试集,建立Lightgbm回归模型,通过Lightgbm回归模型识别剩下的大量用电行为特征不明显的用户。
[0013]进一步的,步骤二中对步骤一获取的用电行为特征数据进行清洗,具体包括:
[0014]合并数据:将数据库查询的电压数据、电流数据、用户信息数据进行关联,成为一张宽表;
[0015]删除异常值:对存在负数的样本进行删除;
[0016]空缺值删除:对存在空缺值的样本进行删除。
[0017]进一步的,所述电压的标准差用于衡量电压的波动;
[0018]所述电压不平衡度用于衡量用户A相B相C相电压的偏差程度,计算公式为:
[0019][0020]其中U代表电压不平衡度,U
max
是每个用户Ua,Ub,Uc这三相电压中最大的一个,代表每个用户这三相电压的平均电压;
[0021]所述电流不平衡度用于衡量用户A相B相C相电流的偏差程度,计算公式为:
[0022][0023]其中I代表电压不平衡度,I
max
是Ia,Ib,Ic这三相电流中最大的一个,代表这三相电压的平均电压。
[0024]进一步的,步骤三中Kmeans聚类K取值为10。
[0025]进一步的,步骤四具体包括:
[0026]将已经识别出的窃电用户标记为1,其中50%用于训练集,50%用于测试集;已经识别出的正常用户标记为0,其中50%用于训练集,50%用于测试集,建立回归模型,其中objective分类器类型选择为regression,其它参数均采用默认值;
[0027]开始训练模型,模型依次迭代并计算寻找出最优的迭代结果,如果在默认次数内能找到,模型会停止计算并展示出最小误差的所对应的预测结果;如果误差持续减小但并未出现拐点,则模型取最后一次的迭代作为预测结果;
[0028]模型训练完成后,对剩下的数据集进行预测,并给每个用户打上预测的概率值;并与识别出的窃电用户和正常用户的结果合并,输出成模型完整的结果。
[0029]一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别装置,包括
[0030]数据获取模块,用于通过SQL查询方式获取用电行为特征数据,所述用电行为特征数据包括电压、电流、相位、用电类别;
[0031]数据处理模块,用于对数据获取模块获取的用电行为特征数据进行清洗、转化,得到电压的标准差、电压不平衡度、电流不平衡度;
[0032]kmeans聚类识别模块,用于通过Kmeans聚类按照电压的标准差、电压不平衡度、电流不平衡度进行聚类,识别非常明显的窃电用户和正常用户;
[0033]kmeans聚类识别模块,用于基于kmeans聚类识别模块识别的非常明显的窃电用户和正常用户构建学习样本,划分训练集和测试集,建立Lightgbm回归模型,通过Lightgbm回归模型识别剩下的大量用电行为特征不明显的用户。
[0034]进一步的,数据处理模块对数据获取模块获取的用电行为特征数据进行清洗,具体包括:
[0035]合并数据:将数据库查询的电压数据、电流数据、用户信息数据进行关联,成为一张宽表;
[0036]删除异常值:对存在负数的样本进行删除;
[0037]空缺值删除:对存在空缺值的样本进行删除。
[0038]进一步的,kmeans聚类识别模块基于kmeans聚类识别模块识别的非常明显的窃电用户和正常用户构建学习样本,划分训练集和测试集,建立Lightgbm回归模型,通过Lightgbm回归模型识别剩下的大量用电行为特征不明显的用户,具体包括:
[0039]将已经识别出的窃电用户标记为1,其中50%用于训练集,50%用于测试集;已经识别出的正常用户标记为0,其中50%用于训练集,50%用于测试集,建立回归模型,其中objective分类器类型选择为regression,其它参数均采用默认值;
[0040]开始训练模型,模型依次迭代并计算寻找出最优的迭代结果,如果在默认次数内能找到,模型会停止计算并展示出最小误差的所对应的预测结果;如果误差持续减小但并未出现拐点,则模型取最后一次的迭代作为预测结果;
[0041]模型训练完成后,对剩下的数据集进行预测,并给每个用户打上预测的概率值;并与识别出的窃电用户和正常用户的结果合并,输出成模型完整的结果。
[0042]一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别系统,包括:计算机可读存储介质和处理器;
[0043]所述计算机可读存储介质用于存储可执行指令;
[0044]所述处理器用于读取所述计算机可读存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法,其特征在于:包括如下步骤:步骤一、通过SQL查询方式获取用电行为特征数据,所述用电行为特征数据包括电压、电流、相位、用电类别;步骤二、对步骤一获取的用电行为特征数据进行清洗、转化,得到电压的标准差、电压不平衡度、电流不平衡度;步骤三、通过Kmeans聚类按照电压的标准差、电压不平衡度、电流不平衡度进行聚类,识别非常明显的窃电用户和正常用户;步骤四、基于步骤三识别的非常明显的窃电用户和正常用户构建学习样本,划分训练集和测试集,建立Lightgbm回归模型,通过Lightgbm回归模型识别剩下的大量用电行为特征不明显的用户。2.如权利要求1所述的融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法,其特征在于:步骤二中对步骤一获取的用电行为特征数据进行清洗,具体包括:合并数据:将数据库查询的电压数据、电流数据、用户信息数据进行关联,成为一张宽表;删除异常值:对存在负数的样本进行删除;空缺值删除:对存在空缺值的样本进行删除。3.如权利要求1所述的融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法,其特征在于:所述电压的标准差用于衡量电压的波动;所述电压不平衡度用于衡量用户A相B相C相电压的偏差程度,计算公式为:其中U代表电压不平衡度,U
max
是每个用户Ua,Ub,Uc这三相电压中最大的一个,代表每个用户这三相电压的平均电压;所述电流不平衡度用于衡量用户A相B相C相电流的偏差程度,计算公式为:其中I代表电压不平衡度,I
max
是Ia,Ib,Ic这三相电流中最大的一个,代表这三相电压的平均电压。4.如权利要求1所述的融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法,其特征在于:步骤三中Kmeans聚类K取值为10。5.如权利要求1所述的融合无监督学习、有监督学习组合模型的疑似窃电用户识别方法,其特征在于:步骤四具体包括:将已经识别出的窃电用户标记为1,其中50%用于训练集,50%用于测试集;已经识别出的正常用户标记为0,其中50%用于训练集,50%用于测试集,建立回归模型,其中objective分类器类型选择为regression,其它参数均采用默认值;开始训练模型,模型依次迭代并计算寻找出最优的迭代结果,如果在默认次数内能找到,模型会停止计算并展示出最小误差的所对应的预测结果;如果误差持续减小但并未出现拐点,则模型取最后一次的迭代作为预测结果;
模型训练完成后,对剩下的数据集进行预测,并给每个用户打上预测的概率值;并与识别出的窃电用户和正常用户的结果合并,输出成模型完整的结果。6.一种融合无监督学习、有监督学习组合模型的疑似窃电用户识别装置,其特征在于:包括数...

【专利技术属性】
技术研发人员:夏勇军罗宾郭志刚陈莉娟徐文赵立华卫婧怡
申请(专利权)人:国网湖北省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1