一种基于ResNet-LSTM的窃电检测方法及系统技术方案

技术编号:26759751 阅读:22 留言:0更新日期:2020-12-18 22:37
一种基于ResNet‑LSTM的窃电检测方法及系统,收集电力系统正常运行时采集的用户的用电量数据样本和样本的用电类型标签,对用电量数据进行数据预处理,并将数据集分为训练集、测试集、验证集;运用自动编码器处理训练集中标签为窃电的用电数据样本,并获得新的训练集;将原先的训练集的用电量数据分别输入ResNet模型和LSTM模型进行窃电检测测试,通过测试结果选择ResNet和LSTM神经网络组合结构,并以此搭建混合神经网络,通过测试选择合适的混合神经网络结构;运用选择出的ResNet‑LSTM混合神经网络结构进行测试选择出合适的神经网络优化方法,形成窃电检测模型;运用新的训练集来训练窃电检测模型,构建完整的窃电检测方法,本发明专利技术提高了窃电检测能力和检测效率。

【技术实现步骤摘要】
一种基于ResNet-LSTM的窃电检测方法及系统
本专利技术属于电力系统的数据挖掘
,涉及一种基于ResNet-LSTM的窃电检测方法及系统。
技术介绍
随着高级计量架构(AdvancedMeteringInfrastructure,简称AMI)体系的逐步建立为相关部门带来海量数据的同时,也为电力系统的运行管理提出了更高的要求。美国官方机构在其AMI体系基本建立后发布的一份研究报告中指出,据美国的一家电力公司的相关统计,该公司由于用户篡改智能电表计量装置中的数据而损失的经济效益可达到4亿美元。在中国推行建立AMI体系的过程中也遭遇了同样的问题,在中国首例破获的智能电表窃电案中,该用户运用高科技手段制作窃电装置并安装在智能电表内部改变相关测量的电力数据,非法逃避电费的缴纳。以往用户通过篡改电表结构或者绕接电线的方式进行窃电行为,这种窃电手段原理简单,易于检测。如今对于智能电表,传统的窃电手段易于发现,产生了基于智能电表原理的窃电手段。用户可对智能电表的存储环节或者通信环节进行篡改,在实际电路的物理参数不改变的前提下直接进行数据篡改,以达到减少缴纳电费的作用。传统的窃电检测手段依赖于在核查线损率等指标后的人工现场排查,这样会耗费企业大量的人力物力,且窃电检测核查周期长,效率低下。同时物理排查方法无法筛查出高科技窃电方法对智能电表数据存储单元和通信单元的数据篡改。因此,有必要提出相应的数据驱动模型,对AMI体系获取的大量数据进行充分的挖掘,提出有效的对应用电侧的窃电行为检测模型,通过模型来充分挖掘信息,从而制定合理的检修轮换计划,指导工作人员现场排查智能电表。其作用体现在以下四个方面:首先,有助于在电力市场改革试点推进过程中相关电力企业和相关执法部门高效打击违法犯罪行为,降低人力物力核查成本。其次,降低窃电等异常用电行为带来的非技术性损失,提高售电相关企业的盈利能力。再次,效率高准确率高的核查手段有助于对异常用电行为用户和心存侥幸的用户产生威慑和引导,从而营造和谐合法的用电环境。最后,利用数据挖掘手段协助有关部门进行窃电检测,从技术角度符合国家电网未来建设“三型两网”的大方向,有助于提高整个电力系统的经济效益,推进基于市场化的电力市场平衡机制的建立。如今,电力相关企业进行窃电检测时,主要运用的方法是派遣相关工作人员到现场进行排查,检查相应的智能电表及配套设施是否出现异常或破坏。根据电力公司的这一检查方法,研制出了多种具有防窃电功能的装置,并探索了相应的硬件检测方法来提高工作人员的检查效率。但在AMI体系逐渐建立完成和智能电表覆盖率不断提高的背景下,电力系统数据量爆炸式增长,采集信息源不断丰富。面对针对智能电表通信和存储功能的高科技窃电手段,硬件检测方法难以有更好的挖掘潜力。同时,国内外相关学者研究探索依赖数据模型的窃电检测方法。如今,依赖数据模型的检测方法可大致分为三种:基于电力系统物理模型的检测方法、基于博弈论的检测方法、基于数据驱动模型的检测方法。而基于数据驱动模型的检测方法中,主要分为三类,基于分类的方法、基于聚类的方法和基于回归的方法。分类方法和聚类方法的检测对象是大量用户,而回归方法的检测对象是单个用户。分类算法依赖带标签的数据集,回归算法依赖天气、日期、电价等相关的外生数据,聚类算法依赖聚类模型参数的选取。从模型的检测对象和算法依赖来看,不同的算法模型在面对不同的场景时各有优缺点。
技术实现思路
为了解决现有技术存在的问题,本专利技术的目的在于,提供了一种基于用户窃电行为检测方法及系统,采用自动编码器进行扩充数量较少类型的样本,减少了数据样本的不平衡程度。在不平衡数据样本处理的基础上,运用残差神经网络提取周期性特征,运用长短期记忆网络时序性特征,将ResNet模型和LSTM模型结合,提高了窃电检测模型的特征提取能力,从而进一步提高了窃电检测方法的性能。本专利技术采用如下的技术方案:一种基于ResNet-LSTM的窃电检测方法,该窃电检测方法包括以下步骤:步骤1:采集用户设定时间周期内用电量数据样本,并对所采集的用户用电量数据样本进行用电类型标签标注和预处理,并且将其分成训练集、测试集和验证集,其中,用户用电量数据样本的用电类型标签包括窃电标签和正常用电标签,预处理是指对用电量数据进行异常值和重复采集值的剔除,以及对缺失值的处理;步骤2:将训练集中用电量数据样本中用电类型标签为窃电标签的用电量数据样本运用自动编码器进行重构,并将重构后的用电量数据样本加入原来的训练集形成新的训练集,与通过步骤1所采集的用电标签类型为正常用电的用电量数据样本相等,或者为同一数量级;步骤3:将原始训练集的用电量数据分别输入残差神经网络ResNet模型和长短期记忆网络LSTM模型进行窃电检测,通过指标结果选择综合测试结果最佳的ResNet模型和LSTM模型,使用三种指标结果为检出率、误警率和最高差值;步骤4:运用步骤3所选择出的ResNet模型和LSTM模型搭建混合神经网络,通过混搭方式搭建混合神经网络;步骤5:对于步骤4所选择出的ResNet-LSTM混合神经网络结构运用不同的神经网络优化方法进行测试,选择出合适的神经网络优化方法,获得窃电检测模型;步骤6:运用步骤2所得的新的训练集来训练窃电检测模型,使得神经网络在训练过程中调整神经网络隐含层神经元之间的权重,从而神经网络的损失函数达到最小,形成最终的窃电检测模型。在步骤1中,所述异常值是指极大值和极小值,其中,对于在所述设定时间周期内,当某个用电量数据达到了该用户用电量数据样本中位数的10倍以上,则该数据为异常极大值;当某个用电量数据为负数,则该数据为异常极小值。在步骤1中,所述缺失值的处理包括以下内容:对于在所述设定时间周期内,当某一用户用电量数据样本的缺失值采样点数占整个设定时间周期内所有采样点数比例的20%以上,或者连续5个采样点的用电量数据缺失时,则认为该用户用电量数据样本缺失值情况严重,将该用电量数据样本直接进行剔除;对于在所述设定时间周期内,当某一用户用电量数据样本的缺失值采样点数占整个设定时间周期内所有采样点数比例的20%及以下,或者少于连续5个采样点的用电量数据缺失时,则对数据缺失值的采样点以及将异常值剔除后的采样点进行线性插值。在步骤1中,缺失值处理完成后对用户用电量数据进行划分,将用电量数据划分为完整的周用电记录,并对每个周用电记录均给出用电类型标签,完成数据集预处理,对于预处理完成的数据集,将其分成训练集、测试集、验证集,其中训练集的样本数量大于测试集或验证集,且验证集和测试集的样本数量相同。所述训练集、测试集、验证集的比例为6:2:2。在步骤2中,运用自动编码器对窃电数据样本进行重构,将重构的窃电数据和训练集直接放在一起并打乱样本顺序组成新的训练集,自动编码器使用的损失函数是衡量输入数据和输出数据重构误差的均方误差函数,确保自动编码器的误差在规定范围内,规定范围主要由平均绝对百分比误差MAPE指标来确定,MAPE指标本文档来自技高网
...

【技术保护点】
1.一种基于ResNet-LSTM的窃电检测方法,其特征在于,该窃电检测方法包括以下步骤:/n步骤1:采集用户设定时间周期内用电量数据样本,并对所采集的用户用电量数据样本进行用电类型标签标注和预处理,并且将其分成训练集、测试集和验证集,/n其中,用户用电量数据样本的用电类型标签包括窃电标签和正常用电标签,预处理是指对用电量数据进行异常值和重复采集值的剔除,以及对缺失值的处理;/n步骤2:将训练集中用电量数据样本中用电类型标签为窃电标签的用电量数据样本运用自动编码器进行重构,并将重构后的用电量数据样本加入原来的训练集形成新的训练集,与通过步骤1所采集的用电标签类型为正常用电的用电量数据样本相等,或者为同一数量级;/n步骤3:将原始训练集的用电量数据分别输入残差神经网络ResNet模型和长短期记忆网络LSTM模型进行窃电检测,通过指标结果选择综合测试结果最佳的ResNet模型和LSTM模型,使用三种指标结果为检出率、误警率和最高差值;/n步骤4:运用步骤3所选择出的ResNet模型和LSTM模型搭建混合神经网络,通过混搭方式搭建混合神经网络;/n步骤5:对于步骤4所选择出的ResNet-LSTM混合神经网络结构运用不同的神经网络优化方法进行测试,选择出合适的神经网络优化方法,获得窃电检测模型;/n步骤6:运用步骤2所得的新的训练集来训练窃电检测模型,使得神经网络在训练过程中调整神经网络隐含层神经元之间的权重,从而神经网络的损失函数达到最小,形成最终的窃电检测模型。/n...

【技术特征摘要】
1.一种基于ResNet-LSTM的窃电检测方法,其特征在于,该窃电检测方法包括以下步骤:
步骤1:采集用户设定时间周期内用电量数据样本,并对所采集的用户用电量数据样本进行用电类型标签标注和预处理,并且将其分成训练集、测试集和验证集,
其中,用户用电量数据样本的用电类型标签包括窃电标签和正常用电标签,预处理是指对用电量数据进行异常值和重复采集值的剔除,以及对缺失值的处理;
步骤2:将训练集中用电量数据样本中用电类型标签为窃电标签的用电量数据样本运用自动编码器进行重构,并将重构后的用电量数据样本加入原来的训练集形成新的训练集,与通过步骤1所采集的用电标签类型为正常用电的用电量数据样本相等,或者为同一数量级;
步骤3:将原始训练集的用电量数据分别输入残差神经网络ResNet模型和长短期记忆网络LSTM模型进行窃电检测,通过指标结果选择综合测试结果最佳的ResNet模型和LSTM模型,使用三种指标结果为检出率、误警率和最高差值;
步骤4:运用步骤3所选择出的ResNet模型和LSTM模型搭建混合神经网络,通过混搭方式搭建混合神经网络;
步骤5:对于步骤4所选择出的ResNet-LSTM混合神经网络结构运用不同的神经网络优化方法进行测试,选择出合适的神经网络优化方法,获得窃电检测模型;
步骤6:运用步骤2所得的新的训练集来训练窃电检测模型,使得神经网络在训练过程中调整神经网络隐含层神经元之间的权重,从而神经网络的损失函数达到最小,形成最终的窃电检测模型。


2.根据权利要求1所述基于ResNet-LSTM的窃电检测方法,其特征在于:
在步骤1中,所述异常值是指极大值和极小值,其中,对于在所述设定时间周期内,当某个用电量数据达到了该用户用电量数据样本中位数的10倍以上,则该数据为异常极大值;当某个用电量数据为负数,则该数据为异常极小值。


3.根据权利要求1所述基于ResNet-LSTM的窃电检测方法,其特征在于:
在步骤1中,所述缺失值的处理包括以下内容:
对于在所述设定时间周期内,当某一用户用电量数据样本的缺失值采样点数占整个设定时间周期内所有采样点数比例的20%以上,或者连续5个采样点的用电量数据缺失时,则认为该用户用电量数据样本缺失值情况严重,将该用电量数据样本直接进行剔除;
对于在所述设定时间周期内,当某一用户用电量数据样本的缺失值采样点数占整个设定时间周期内所有采样点数比例的20%及以下,或者少于连续5个采样点的用电量数据缺失时,则对数据缺失值的采样点以及将异常值剔除后的采样点进行线性插值。


4.根据权利要求1所述基于ResNet-LSTM的窃电检测方法,其特征在于:
在步骤1中,缺失值处理完成后对用户用电量数据进行划分,将用电量数据划分为完整的周用电记录,并对每个周用电记录均给出用电类型标签,完成数据集预处理,对于预处理完成的数据集,将其分成训练集、测试集、验证集,其中训练集的样本数量大于测试集或验证集,且验证集和测试集的样本数量相同。


5.根据权利要求5所述基于ResNet-LSTM的窃电检测方法,其特征在于:
所述训练集、测试集、验证集的比例为6:2:2。


6.根据权利要求1所述基于ResNet-LSTM的窃电检测方法,其特征在于:
在步骤2中,运用自动编码器对窃电数据样本进行重构,将重构的窃电数据和训练集直接放在一起并打乱样本顺序组成新的训练集,自动编码器使用的损失函数是衡量输入数据和输出数据重构误差的均方误差函数,确保自动编码器的误差在规定范围内,规定范围主要由平均绝对百分比误差MAPE指标来确定,MAPE指标为25%以下,则误差在规定范围内,自动编码器是由多个神经网络层堆叠起来的,编码网络和解码网络增加的每一层全连接网络层,都要测量不同的神经元节点个数下自动编码器的重构误差,选择使编码器重构误差最小的神经元节点个数,通过比较输入输出样本数据之间的平均绝对百分比误差MAPE指标来衡量重构误差的大小,每确定一层网络层后,增添新的一层全连接层,通过重构误差大小确定新的一层全连接层的神经元节点个数直到自动编码器的整体误差达到事先规定的上限25%后,不再增加新的层数,如下所示依次为MSE函数和MAPE指标的公式,其中n为样本点总数目;yi、分别为第i个样本点用户负荷的真实值和重构值:








7.根据权利要求1所述基于ResNet-LSTM的窃电检测方法,其特征在于:
在步骤3中运用原始训练集的用电量数据训练并运用测试集进行测试,选择综合测试结果最佳的ResNet和LSTM模型,残差神经网络ResNet需要经过一层卷积层和一层池化层处理,输入数据为n*m的矩阵,经过一层卷积层处理后输出仍为n*m的矩阵,经过池化层处理,矩阵中每个2*2窗口中最大的数据将会输出,将会输出int(n/2)*int(m/2)的矩阵数据,int为向下取整函数;
运用原始训练集测试具有a个残差单元的ResNet和b层LSTM,比较相应的指标结果,选择指标结果较好的神经网络结构,其中,a的范围为1至8,b的范围为1至8,所使用的指标为检出率、误警率和最高差值,检出率DR表示实际正标签样本中分类正确的样本所占的比例,误警率FPR表示实际负标签样本中分类错误的样本所占的比例,最高差值HD用来衡量检出率和误警率之间的最高差值,三个指标结果的公式如下所示,其中,真负类TN表示负标签样本被正确分类为负标签样本的数量,假负类FN表示负标签样本被错误分类为正标签样...

【专利技术属性】
技术研发人员:徐述冯隆基张继东姜小涛王振宇楚成博陈雪薇谢林红方磊
申请(专利权)人:国网江苏省电力有限公司南京供电分公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1