The invention relates to a power stealing identification analysis method and terminal based on xgboost model and Hadoop architecture. By acquiring the power consumption data to be determined, the power consumption data to be determined is input to the xgboost model that has been trained; the xgboost model that has been trained identifies the power consumption data to be determined, and obtains the determination result of power stealing behavior; the invention stores the files by Hadoop distributed storage in the data storage part, and clears the data in batches by distributed calculation In the data analysis module, the data is analyzed by xgboost model to identify the electricity stealing behavior. Because xgboost expands and improves gdbt, xgboost optimizes the calculation of a single tree in parallel, which can give full play to multi-core calculation, while gbdt does not use multi-core optimization, so xgboost is faster, which makes the use of X Gboost algorithm can improve the efficiency and accuracy of power stealing identification.
【技术实现步骤摘要】
一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端
本专利技术属于电力
,特别涉及一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端。
技术介绍
窃电行为是盗用国家电力财产的行为,虽然目前电力企业采用用电检查开展防窃电工作,但是在实践中发现,当前窃电手段是传统窃电手段远远无法比拟的,而且窃电手段更加复杂。总结当前比较主流的窃电手段,可以概括为四类:一、部分窃电者通过改变电流的方式达到窃电的目的。包括电流短接回路、电流开路回流、改变电流接入方法、将电压联片处于断开的状态或者在电压线圈上增加分压电阻等等;二、改变电表的接线方式和结构。包括采用零火线、断零窃电、在计量器上将计数线路改变导致计量器不能正常计数、在电表上安装磁铁以减小铝盘之间的缝隙来让电表计数变得很慢、改变电流线圈层数、改变电流与电压之间的线路、在电表上安装可遥控的装置来控制电流的速度等等;三、是改变电表的编程。因为电表不能改变其时间和时段,所以有些人就从另外的角度改变电能表的编程,在电价比较低的时候增大用电量,电价高的时候减少用电量,从而在保证总的用电量不变的情况减少电费的缴纳;四、绕越计量装置。这种方式主要体现在私自接公线,这种方式被广泛应用,因为其操作简单,并且比较容易消灭窃电证据,主要是在用电检查人员检查用电情况时直接将窃电电线断开就可以了,等到检查人员走就又可以接上,这样检查人员没有办法找到窃电的证据。这种窃电方式极其容易带来安全隐患,一方面是接线的接头都是用胶布封闭的 ...
【技术保护点】
1.一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,包括如下步骤:/nS1、获取待判定用电数据,并将待判定用电数据输入至已训练完成的xgBoost模型;/nS2、通过已训练完成的xgBoost模型识别待判定用电数据,得到窃电行为判定结果。/n
【技术特征摘要】
1.一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,包括如下步骤:
S1、获取待判定用电数据,并将待判定用电数据输入至已训练完成的xgBoost模型;
S2、通过已训练完成的xgBoost模型识别待判定用电数据,得到窃电行为判定结果。
2.根据权利要求1所述的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,所述已训练完成的xgBoost模型的训练过程具体如下:
初始化xgBoost模型,得到待训练xgBoost模型;
获取训练集,通过训练集训练待训练xgBoost模型,得到已训练的xgBoost模型,所述训练集包括80%的训练样本数据;
获取测试集,通过测试集测试所述已训练的xgBoost模型,判断所述已训练的xgBoost模型的窃电行为判定结果的准确率是否达到预设准确值,若是,则得到已训练完成的xgBoost模型,否则使用训练集继续训练直到得到已训练完成的xgBoost模型,所述测试集包括20%的训练样本数据。
3.根据权利要求2所述的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,所述初始化xgBoost模型,得到待训练xgBoost模型的具体过程如下:
初始化xgBoost模型,得到目标函数公式一:
xgBoost是可加性的算法模型,其中,Obj代表整体目标函数,t为树模型序号,n为样本数,l为损失函数,i为样本序号,yi为第i个样本真实目标值,为预测值,ft为t次迭代的目标函数,Ω(ft)为正则项,包含正则L1、L2,constant为常数项;
利用泰勒公式对目标函数公式一进行展开,得到目标函数公式二:
其中,为损失函数的一阶导,为损失函数的二阶导;
简化目标函数公式二,代入正则项得到目标函数公式三:
其中,N指代叶子节点个数,γ和λ为分别控制CART树的个数、叶子节点的分数值,其中γ=L1、λ=L2,j表示叶子节点对应的输入实例集合的序号;
对给定的N,该目标函数公式三为一个关于Wj的二次函数,由此将Wj的最优解代入到目标函数公式三,得到目标函数公式四:
根据CART叶子节点,对节点进行分割,得到目标函数公式五:
目标函Obj*指的是所有数据落到当前树的得分情况,每次对树进行一次分支,都要使目标函数的得分减小,这样的树的分支才认为是有效的,才会采纳这样的分支;对树的每次加分支,都会是当前的分为左右两部分,即二分树;因此L和R分别代表对树进行分割后的左、右两个分支。
4.根据权利要求2所述的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,所述训练样本数据包括日用电量、线损率和用户基本信息;
所述日用电量包括不同期间日用电量均值、不同期间日用电量均值的离散系数以及样本期间的日用电量的最大值与最小值;
所述线损率包括不同期间线损率均值、不同期间线损率均值的离散系数和样本期间的线损率的最大值与最小值;
所述用户基本信息包括用户编号、用户标识、运行容量、用户分类、用电地址、用电类别、行业分类、供电分类、供电单位编号、用户名称以及异常事件类数据。
5.根据权利要求4所述的一种基于xgBoost模型和Hadoop架构的窃电识别分析方法,其特征在于,步骤S1中,在获取待判定用电数据后,还包括对待判定用电数据进行预处理的步骤,具体如下:
判断均值是否存在负值,若存在负值,则对存在负值的均值不予处理,同时判断为负值的均值的数量是否大于预设异常值,若是,则识别出为负值的均值并记录,所述均值包括不同期间日用电量均值以及不同期间线损率均值;
判断离散系数是否存在负值,若存在负值,则对存在负值的离散系数不予处理,同时判断为负值的离散系数的数量是否大于预设异常值,若是,则识别出为负值的离散系数并记录,所述离散系数包括不同期间日用电量均值的离散系数以及不同期间线损率均值的离散系数;
判断所有的样本数据是否存在缺失值,若存在缺失值,则判断同一用户数据中存在缺失值的数量是否大于预设缺失值,若是,则将所述用户数据删除。
6.一种基于xgBoost模型和Hadoop架构的窃电识别分析终端,包括存...
【专利技术属性】
技术研发人员:王雪晶,苏运东,孙浩淞,上官霞,蔡荣彦,吴骏,倪文书,陈锐,陈爽,
申请(专利权)人:国网福建省电力有限公司,国网福建省电力有限公司信息通信分公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。