当前位置: 首页 > 专利查询>三峡大学专利>正文

基于孤立森林算法的用电信息采集数据异常分析方法技术

技术编号:22002046 阅读:32 留言:0更新日期:2019-08-31 05:53
基于孤立森林算法的用电信息采集数据异常分析方法,建立基于用电信息采集系统的台区线损管理指标,制定基于用电信息采集系统的台区线损管理方法。针对线损类台区,采用云存储技术实现多个线损类台区用电信息数据采集、分类、处理;分析总结脏数据的类型,根据其表现形式消除噪音,去除脏数据;通过数据变换将经过清理筛选后的数据,转换为利于数据挖掘的形式;应用孤立森林算法建立数据分析模型,并应用受试者工作特征ROC曲线与曲线下面积AUC、及累积查全率曲线与P‑R曲线,进行模型评估,并将此模型应用到多个线损类台区用电信息数据集上,对经过筛选后的数据进行数据挖掘,筛选用电异常用户。本发明专利技术采用孤立森林算法有效挖掘数据异常用户,分析线损原因,加强台区线损管理。

Anomaly Analysis Method of Electricity Information Acquisition Data Based on Isolated Forest Algorithms

【技术实现步骤摘要】
基于孤立森林算法的用电信息采集数据异常分析方法
本专利技术涉及用电信息采集
,具体是一种基于孤立森林算法的用电信息采集数据异常分析方法。
技术介绍
随着信息化时代的迅速发展,率先展开大数据相关研究的是互联网、信息通信行业。对电力行业而言,大数据也同样具有深远的研究意义和光明的应用前景。随着下一代电力系统逐步演进,基于数据驱动的电力供应链将逐步取代传统的电力供应链。其中用电信息采集系统的推广,为我国电力行业开展基于电力数据分析的管理运营决策和供电服务优化提供了必要的数据基础。同时随着电能数据、工况数据、事件信息等用电数据呈指数增长,大数据特征越来越显著,用电大数据的应用需求日益迫切。海量的用电数据主要来源于各类计量装置及系统,由于多种设备故障、通信故障、电网波动和管理等原因,出现了大量异常的用电数据。面对这种海量用电数据的增加,多数电力部门仅使用传统的统计方法进行异常数据分析,并且大多需要依赖现场检验来实现。由于受到人力、物力、财力的限制,异常数据背后隐藏的深层次原因无法有效得以提炼,却带来了“数据灾难”和“数据荒废”。因此,用传统分析手段己难以满足要求,需要通过数据挖掘来发现用电数据异常更深层次的规律,排除数据的偶然性,提炼数据的必然性。由于低压客户群体数量庞大,且变化频繁,目前台区线损管理中普遍存在户变关系不清、抄表质量不佳、窃电、计量故障等管理原因导致的线损异常。近几年,国内许多供电企业不同程度的面临一个共同的窘境,即在治理台区线损上“投资大、回报小”,其根源是近十年以来,影响台区线损的主要因素已经转变为管理上的损耗,而改造投资方向不变。用电信息采集系统建设将智能化的管理理念引入了台区,给台区线损管理带来了创新的机遇。云计算技术可以通过利用分布式的软硬件资源和信息,提供按需分配的高质量服务,并在搜索引擎、社交网络、通信等众多领域中得到了成功的应用。在智能电网信息化建设领域,云计算所独具的大规模数据高效存取和并行计算能力,使之能够为包括用电信息采集系统在内的信息系统提供高质量的数据处理服务,为智能电网时代的信息化体系提供坚实的技术支撑。
技术实现思路
本专利技术提供一种基于孤立森林算法的用电信息采集数据异常分析方法,实现基于实时数据库与云计算、云实时存储平台技术相融合的应用一体化,使用高效的并行计算技术实现大数据批处理任务的高吞吐率。采用稳定性好,抗噪性能强的孤立森林算法有效挖掘数据异常用户,分析线损原因,加强台区线损管理。本专利技术采取的技术方案为:基于孤立森林算法的用电信息采集数据异常分析方法,包括以下步骤:步骤一:建立基于用电信息采集系统的台区线损管理指标,制定基于用电信息采集系统的台区线损管理方法。步骤二:针对线损类台区,采用云存储技术实现多个线损类台区用电信息数据采集、分类、处理;步骤三:分析总结脏数据的类型,根据其表现形式消除噪音;步骤四:通过数据变换将经过清理筛选后的数据,转换为利于数据挖掘的形式,即对数据进行降维。为充分反映负荷间的相似性,本专利技术选取6种常用的日负荷特性指标:负荷率、峰谷差率、最高利用小时率、峰期负载率、平期负载率、谷期负载率,全面地反映了各类用户的用电特性,对数据实现有效降维。步骤五:应用孤立森林算法建立数据分析模型,并应用受试者工作特征ROC曲线与曲线下面积AUC、P-R曲线,进行模型评估,并将此模型应用到多个线损类台区用电信息数据集上,对经过筛选后的数据进行数据挖掘,筛选用电异常用户。受试者工作特征ROC曲线:当测试集中的正负样本的分布变化时,ROC曲线能够保持不变。对于二元分类模型输出的连续数值,将大于阈值的样本划为正类,小于阈值的样本则划为负类。减小阀值固然能识别出更多的正类,即提高了查全率时也会将更多的负样本划为正类,即提高了误报率。ROC曲线形象化这一变化过程。在ROC空间坐标中,点(0,1)表示理想分类器,ROC曲线越接近点(0,1)表示分类效果越好。AUC的数值就是ROC曲线下方部分面积的大小,AUC=1对应理想分类器,AUC=0.5代表跟随机猜测一样,模型没有预测价值,在0.5到1之间代表优于随机猜测。P-R曲线:以查准率为纵轴、查全率为横轴作图,就得到查准率与查全率的曲线,简称为“P-R曲线”随着分类阈值从大到小变化,查准率减小,查全率增加,评价分类器时,P-R曲线越靠近点(1,1)表示分类效果越好。步骤一中,建立的台区线损管理指标包括覆盖类、户变类、可采类、数据类、线损类五种状态标识及其层级关系;根据采集到的用电负荷数据对多台区进行以下状态标识,针对不同类型台区的管控重点制定相应的管控措施,从而形成基于用电信息采集系统的台区线损管理方法,具体措施如下:覆盖类:台区内采集设备安装率未达到100%,应合理安排釆集设备安装计划;户变类:采集覆盖率已达到100%的台区,但户变关系尚不准确,应通过内查资料外查现场结合的方式,核准户变关系;可采类:釆集覆盖率己达到100%,但可采率尚未达到95%,应统计可采率,分析漏采、误采的原因;数据类:覆盖率达到100%、可采率达到95%且户变关系正确,但采集的数据与人工抄表数据误差大于均值,制定合理的抄表计划;线损类:覆盖率、可采率、准确率均已达到100%且户变关系正确,但线损率异常,应及时分析线损率异常原因,制定降损措施;步骤二中,采用云存储的分布式文件存储机制,将用电信息数据分散存储在多台独立的存储服务器上,它包括卷管理、元数据管理、块数据管理服务;元数据是指文件的名称、属性、数据块位置信息,因元数据访问频繁,故系统将元数据加载缓存至内存中管理,提高访问效率。块数据是指文件数据被按照一定大小分割而成的多个数据块,分布存储到不同的存储节点服务器上,由一对元数据服务器及其管理的存储服务器节点所提供的存储空间称为一个卷空间;卷管理服务器负责将多个卷虚拟化整合,对外提供统一的整体访问云实时存储平台空间。云实时存储平台系统采用并行ETL(Extraction-Transformation-Loading)环境,把原先计算密集型复杂任务,进行原子性分解,分配到不同的任务处理节点上,进行并发同步处理,提高数据处理效率和数据处理容量,保证数据处理性能。步骤三中,常见脏数据类型有:(1)缺失值:表格中为空值(2)重复值:用户某一时刻用电负荷数据重复(3)极大极小值:用电负荷数据过大或过小(4)负荷毛刺:相邻时段数据间突然增大或减小(5)冲击负值:连续某时间段内读数数据下降根据用电负荷的波动周期特性,填充空缺值,计算方法如下:式中,Xi表示当前时刻的用电负荷,i为负荷数据缺失的时刻,取值为1-24,α1和α2表前后两天对应时刻和当前时刻前后两个时间点负荷的加权系数利用矩形法对噪声数据进行修复,计算方法如下:式中,Xi为电量修复值,F为一天内的负荷数据采集次数,Pi为i时刻的负荷数据,△T为负荷数据采集时间间隔。步骤五中,采用孤立森林算法挖掘离群点,有助于自动锁定用户异常嫌疑,实现异常用户的初步筛选,提高了查处率。该算法通过用一个随机超平面来切割数据空间,每切割一次可以生成两个子空间,之后再继续用一个随机超平面来切割每个子空间,循环下去,直到每个子空间里面只有一个数据点为止。孤立森林算法,是一个二阶段算法:第一阶段,构建t个iTr本文档来自技高网
...

【技术保护点】
1.基于孤立森林算法的用电信息采集数据异常分析方法,其特征在于包括以下步骤:步骤一:建立基于用电信息采集系统的台区线损管理指标,制定基于用电信息采集系统的台区线损管理方法;步骤二:针对线损类台区,采用云存储技术实现多个线损类台区用电信息数据采集、分类、处理;步骤三:分析总结脏数据的类型,根据其表现形式消除噪音;步骤四:通过数据变换将经过清理筛选后的数据,转换为利于数据挖掘的形式;步骤五:应用孤立森林算法建立数据分析模型,并应用受试者工作特征ROC曲线与曲线下面积AUC、及累积查全率曲线与P‑R曲线,以查准率为纵轴,查全率为横轴作图,进行模型评估,并将此模型应用到多个线损类台区用电信息数据集上,对经过筛选后的数据进行数据挖掘,筛选用电异常用户。

【技术特征摘要】
1.基于孤立森林算法的用电信息采集数据异常分析方法,其特征在于包括以下步骤:步骤一:建立基于用电信息采集系统的台区线损管理指标,制定基于用电信息采集系统的台区线损管理方法;步骤二:针对线损类台区,采用云存储技术实现多个线损类台区用电信息数据采集、分类、处理;步骤三:分析总结脏数据的类型,根据其表现形式消除噪音;步骤四:通过数据变换将经过清理筛选后的数据,转换为利于数据挖掘的形式;步骤五:应用孤立森林算法建立数据分析模型,并应用受试者工作特征ROC曲线与曲线下面积AUC、及累积查全率曲线与P-R曲线,以查准率为纵轴,查全率为横轴作图,进行模型评估,并将此模型应用到多个线损类台区用电信息数据集上,对经过筛选后的数据进行数据挖掘,筛选用电异常用户。2.根据权利要求1所述基于孤立森林算法的用电信息采集数据异常分析方法,其特征在于:步骤一中,建立的台区线损管理指标包括覆盖类、户变类、可采类、数据类、线损类五种状态标识及其层级关系;覆盖类:台区内采集设备安装率未达到100%;户变类:采集覆盖率已达到100%的台区,但户变关系尚不准确;可采类:釆集覆盖率己达到100%,但可采率尚未达到95%;数据类:覆盖率达到100%、可采率达到95%且户变关系正确,但采集的数据与人工抄表数据误差大于均值;线损类:覆盖率、可采率、准确率均已达到100%且户变关系正确,但线损率异常。3.根据权利要求1所述基于孤立森林算法的用电信息采集数据异常分析方法,其特征在于:步骤二中,采用云存储的分布式文件存储机制,将用电信息数据分散存储在多台独立的存储服务器上,它包括卷管理、元数据管理、块数据管理服务;元数据是指文件的名称、属性、数据块位置信息;块数据是指文件数据被...

【专利技术属性】
技术研发人员:马辉韩笑鲁海鹏
申请(专利权)人:三峡大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1