一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端技术

技术编号:22566224 阅读:50 留言:0更新日期:2019-11-16 12:31
本发明专利技术涉及一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端。通过获取待判定用电数据,将待判定用电数据输入至已训练完成的xgBoost模型;已训练完成的xgBoost模型识别待判定用电数据,得到窃电行为判定结果;本发明专利技术通过在数据存储部分,采用Hadoop分布式存储的方式对文件进行存储,并利用分布式计算对数据进行批量的清洗、转换,提升数据处理效率;在数据分析模块,通过xgBoost模型对数据进行分析,进而识别窃电行为,由于xgboost扩展和改进了GDBT,算法上xgboost对单棵树的计算进行了并行优化能够充分发挥多核计算,而gbdt没有使用多核优化,所以xgboost的速度更快,从而使得使用xgBoost算法能提高窃电识别的工作效率和精准度。

A power stealing identification and analysis method and terminal based on xgboost model and Hadoop architecture

The invention relates to a power stealing identification analysis method and terminal based on xgboost model and Hadoop architecture. By acquiring the power consumption data to be determined, the power consumption data to be determined is input to the xgboost model that has been trained; the xgboost model that has been trained identifies the power consumption data to be determined, and obtains the determination result of power stealing behavior; the invention stores the files by Hadoop distributed storage in the data storage part, and clears the data in batches by distributed calculation In the data analysis module, the data is analyzed by xgboost model to identify the electricity stealing behavior. Because xgboost expands and improves gdbt, xgboost optimizes the calculation of a single tree in parallel, which can give full play to multi-core calculation, while gbdt does not use multi-core optimization, so xgboost is faster, which makes the use of X Gboost algorithm can improve the efficiency and accuracy of power stealing identification.

【技术实现步骤摘要】
一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端
本专利技术属于电力
,特别涉及一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端。
技术介绍
窃电行为是盗用国家电力财产的行为,虽然目前电力企业采用用电检查开展防窃电工作,但是在实践中发现,当前窃电手段是传统窃电手段远远无法比拟的,而且窃电手段更加复杂。总结当前比较主流的窃电手段,可以概括为四类:一、部分窃电者通过改变电流的方式达到窃电的目的。包括电流短接回路、电流开路回流、改变电流接入方法、将电压联片处于断开的状态或者在电压线圈上增加分压电阻等等;二、改变电表的接线方式和结构。包括采用零火线、断零窃电、在计量器上将计数线路改变导致计量器不能正常计数、在电表上安装磁铁以减小铝盘之间的缝隙来让电表计数变得很慢、改变电流线圈层数、改变电流与电压之间的线路、在电表上安装可遥控的装置来控制电流的速度等等;三、是改变电表的编程。因为电表不能改变其时间和时段,所以有些人就从另外的角度改变电能表的编程,在电价比较低的时候增大用电量,电价高的时候减少用电量,从而在保证总的用电量不变的情况减少电费的缴纳;四、绕越计量装置。这种方式主要体现在私自接公线,这种方式被广泛应用,因为其操作简单,并且比较容易消灭窃电证据,主要是在用电检查人员检查用电情况时直接将窃电电线断开就可以了,等到检查人员走就又可以接上,这样检查人员没有办法找到窃电的证据。这种窃电方式极其容易带来安全隐患,一方面是接线的接头都是用胶布封闭的,这样容易受到强大电流使线路短路,就容易出现安全事故。在现有技术中,对用电异常的发现主要通过定期巡检、现场校验电表、用户举报窃电等手段来发现窃电或计量装置故障,对人的依赖性太强、目标不清晰、无法量化考核。随着用电信息采集系统的大量应用,大量的供电单位营销稽查人员、用电检查人员和计量工作人员利用系统计量异常报警功能和用电数据查询功能开展用户用电情况的在线监控工作,通过采集电量异常、负荷异常、终端报警、主站报警、线损异常等信息,建立数据分析模型,来实时监测用电异常情况和发现计量装置的故障。根据报警事件发生前后客户计量点有关的电流、电压、负荷数据情况等,实现用户用电异常的在线识别,这种方法严重依赖于投入的人力资源数量、业务人员的业务经验、人员工作敬业程度等,不具备可持续性。传统的用电异常分析方法,虽然能获得用电异常的某些信息,但由于终端误报或漏报过多,无法达到真正快速精确定位异常用电用户的目的,往往令稽查工作人员无所适从,具有很大的主观性,存在明显的缺陷,所以实施效果往往不尽如人意。电力公司用电异常分析主要依赖于用电检查、终端报警事件、逐户用电分析等手段,人力资源投入大,效果不明显,故而,急需一种方法来提高窃电识别的工作效率和精准度。
技术实现思路
本专利技术的目的在于提供一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端,以提高窃电识别的工作效率和精准度。为实现上述目的,本专利技术的技术方案是:一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,包括如下步骤:S1、获取待判定用电数据,并将待判定用电数据输入至已训练完成的xgBoost模型;S2、通过已训练完成的xgBoost模型识别待判定用电数据,得到窃电行为判定结果。为了解决上述技术问题,本专利技术采用的另一种技术方案为:一种基于xgBoost模型和Hadoop架构的窃电识别分析终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:S1、获取待判定用电数据,并将待判定用电数据输入至已训练完成的xgBoost模型;S2、通过已训练完成的xgBoost模型识别待判定用电数据,得到窃电行为判定结果。相较于现有技术,本专利技术具有以下有益效果:本专利技术的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端,在数据存储部分,采用Hadoop分布式存储的方式对文件进行存储,并利用分布式计算对数据进行批量的清洗、转换,提升数据处理效率;在数据分析模块,通过xgBoost模型对数据进行分析,进而识别窃电行为,由于xgboost扩展和改进了GDBT,算法上xgboost对单棵树的计算进行了并行优化能够充分发挥多核计算,而gbdt没有使用多核优化,所以xgboost的速度更快,从而使得使用xgBoost算法能提高窃电识别的工作效率和精准度。附图说明图1为本专利技术实施例的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法的流程示意图;图2为本专利技术实施例的xgBoost模型的算法示意图;图3为本专利技术实施例的一种基于xgBoost模型和Hadoop架构的窃电识别分析终端的结构示意图。标号说明:1、一种基于xgBoost模型和Hadoop架构的窃电识别分析终端;2、处理器;3、存储器。具体实施方式为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图予以说明。请参照图1至图2,一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,包括步骤:S1、获取待判定用电数据,将所述待判定用电数据输入至已训练完成的xgBoost模型;S2、已训练完成的xgBoost模型识别所述待判定用电数据,得到窃电行为判定结果。从上述描述可知,本专利技术的有益效果在于:在数据存储部分,采用Hadoop分布式存储的方式对文件进行存储,并利用分布式计算对数据进行批量的清洗、转换,提升数据处理效率;在数据分析模块,通过xgBoost模型对数据进行分析,进而识别窃电行为,由于xgboost扩展和改进了GDBT,算法上xgboost对单棵树的计算进行了并行优化能够充分发挥多核计算,而gbdt没有使用多核优化,所以xgboost的速度更快,从而使得使用xgBoost算法能提高窃电识别的工作效率和精准度。进一步地,得到已训练完成的xgBoost模型具体如下:初始化xgBoost模型,得到待训练xgBoost模型;获取训练集,通过所述训练集训练所述待训练xgBoost模型,得到已训练的xgBoost模型,所述训练集包括80%的训练样本数据;获取测试集,通过所述测试集测试所述已训练的xgBoost模型,判断所述已训练的xgBoost模型的窃电行为判定结果的准确率是否达到预设准确值,若是,则得到已训练完成的xgBoost模型,否则使用训练集继续训练直到得到已训练完成的xgBoost模型,所述测试集包括20%的训练样本数据。从上述描述可知,为了避免机器学习过程中经常出现将个别训练样本的特异性当作整个数据集的共性,表现在训练结果的准确度非常高,实际应用中对后期数据进行预测准确率显著低于训练结果,即过拟合现象,故而建模过程中需要对样本数据进行划分,其中训练集占总体样本的80本文档来自技高网
...

【技术保护点】
1.一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,包括如下步骤:/nS1、获取待判定用电数据,并将待判定用电数据输入至已训练完成的xgBoost模型;/nS2、通过已训练完成的xgBoost模型识别待判定用电数据,得到窃电行为判定结果。/n

【技术特征摘要】
1.一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,包括如下步骤:
S1、获取待判定用电数据,并将待判定用电数据输入至已训练完成的xgBoost模型;
S2、通过已训练完成的xgBoost模型识别待判定用电数据,得到窃电行为判定结果。


2.根据权利要求1所述的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,所述已训练完成的xgBoost模型的训练过程具体如下:
初始化xgBoost模型,得到待训练xgBoost模型;
获取训练集,通过训练集训练待训练xgBoost模型,得到已训练的xgBoost模型,所述训练集包括80%的训练样本数据;
获取测试集,通过测试集测试所述已训练的xgBoost模型,判断所述已训练的xgBoost模型的窃电行为判定结果的准确率是否达到预设准确值,若是,则得到已训练完成的xgBoost模型,否则使用训练集继续训练直到得到已训练完成的xgBoost模型,所述测试集包括20%的训练样本数据。


3.根据权利要求2所述的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,所述初始化xgBoost模型,得到待训练xgBoost模型的具体过程如下:
初始化xgBoost模型,得到目标函数公式一:



xgBoost是可加性的算法模型,其中,Obj代表整体目标函数,t为树模型序号,n为样本数,l为损失函数,i为样本序号,yi为第i个样本真实目标值,为预测值,ft为t次迭代的目标函数,Ω(ft)为正则项,包含正则L1、L2,constant为常数项;
利用泰勒公式对目标函数公式一进行展开,得到目标函数公式二:



其中,为损失函数的一阶导,为损失函数的二阶导;
简化目标函数公式二,代入正则项得到目标函数公式三:



其中,N指代叶子节点个数,γ和λ为分别控制CART树的个数、叶子节点的分数值,其中γ=L1、λ=L2,j表示叶子节点对应的输入实例集合的序号;
对给定的N,该目标函数公式三为一个关于Wj的二次函数,由此将Wj的最优解代入到目标函数公式三,得到目标函数公式四:



根据CART叶子节点,对节点进行分割,得到目标函数公式五:



目标函Obj*指的是所有数据落到当前树的得分情况,每次对树进行一次分支,都要使目标函数的得分减小,这样的树的分支才认为是有效的,才会采纳这样的分支;对树的每次加分支,都会是当前的分为左右两部分,即二分树;因此L和R分别代表对树进行分割后的左、右两个分支。


4.根据权利要求2所述的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,所述训练样本数据包括日用电量、线损率和用户基本信息;
所述日用电量包括不同期间日用电量均值、不同期间日用电量均值的离散系数以及样本期间的日用电量的最大值与最小值;
所述线损率包括不同期间线损率均值、不同期间线损率均值的离散系数和样本期间的线损率的最大值与最小值;
所述用户基本信息包括用户编号、用户标识、运行容量、用户分类、用电地址、用电类别、行业分类、供电分类、供电单位编号、用户名称以及异常事件类数据。


5.根据权利要求4所述的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,步骤S1中,在获取待判定用电数据后,还包括对待判定用电数据进行预处理的步骤,具体如下:
判断均值是否存在负值,若存在负值,则对存在负值的均值不予处理,同时判断为负值的均值的数量是否大于预设异常值,若是,则识别出为负值的均值并记录,所述均值包括不同期间日用电量均值以及不同期间线损率均值;
判断离散系数是否存在负值,若存在负值,则对存在负值的离散系数不予处理,同时判断为负值的离散系数的数量是否大于预设异常值,若是,则识别出为负值的离散系数并记录,所述离散系数包括不同期间日用电量均值的离散系数以及不同期间线损率均值的离散系数;
判断所有的样本数据是否存在缺失值,若存在缺失值,则判断同一用户数据中存在缺失值的数量是否大于预设缺失值,若是,则将所述用户数据删除。


6.一种基于xgBoost模型和Hadoop架构的窃电识别分析终端,包括存...

【专利技术属性】
技术研发人员:王雪晶苏运东孙浩淞上官霞蔡荣彦吴骏倪文书陈锐陈爽
申请(专利权)人:国网福建省电力有限公司国网福建省电力有限公司信息通信分公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1