一种基于多判据融合的配变用采数据异常甄别方法技术

技术编号:22565729 阅读:24 留言:0更新日期:2019-11-16 12:18
本发明专利技术公开了一种基于多判据融合的配变用采数据异常甄别方法,包括:对用采数据断点、异常点和现场实际运行数据情况进行统计分析;分别采用原型聚类法、密度聚类法、概率密度法、深度学习方法等四种方法进行异常值的甄别,对四种模型进行“4取2”验证结果,即四种模型有两个模型认为待判定点是异常点,则待判定点为异常点。本发明专利技术解决了传统机器学习方法处理海量数据时面临的难度大,效率低、实时性不高等问题。

An anomaly detection method based on multi criteria fusion

The invention discloses a method for identifying mining data anomalies based on multi criteria fusion, which includes: statistical analysis of mining data breakpoints, outliers and actual operation data on site; identification of outliers by prototype clustering method, density clustering method, probability density method, depth learning method, etc., and verification of \2 out of 4\ for four models The results show that two of the four models think that the undetermined point is an outlier, and the undetermined point is an outlier. The invention solves the problems of high difficulty, low efficiency and low real-time when the traditional machine learning method processes the massive data.

【技术实现步骤摘要】
一种基于多判据融合的配变用采数据异常甄别方法
本专利技术属于电力系统配变数据处理
,具体涉及一种基于多判据融合的配变用采数据异常甄别方法。
技术介绍
随着计算机、通讯、传感技术的广泛应用、配网运营监测业务的不断推进及大量监测计量装置的部署,配变台区监测获得了海量运行数据、用户用电数据及设备状态数据,对这些数据进行分析、挖掘、抽取与加工,实现配变台区安全经济运行、提升服务质量、拓展电量电费业务成为配网面临的挑战。需特别指出的是,配变台区监测获得的海量电网数据中存在约10%的异常数据,有必要对用采数据质量进行分析,甄别异常数据,从而为开展监测运营业务提供可靠、精确、有效的数据支撑。用采时间序列异常数据出现的主要原因有:(1)计量装置故障:计量装置包括终端、互感器、接线盒、表计,故障可能存在于任何一个环节中。例如:互感器的电晕呈现局部放电或者完全放电,导致数据收集不准确;接线盒由于接触不良导致的计量数据异常等。(2)通信信号差:部分地区使用3G信号,导致信号时有时无,部分时段数据传输失败。同时,大型楼宇也会对通信信号产生屏蔽,影响通信。(3)采集器故障:采集器实现控制范围内所有设备的数据汇总和分配,实现对智能电表控制命令传输的作用。在低压用户中,采集器与计量装置分开,每一个采集器控制多个智能电表。当采集器发生通信或者本体故障时,整个采集范围内所有智能电表用电数据采集失败。(4)人为因素:主要是不合理用电,使得电表长时间处于超负荷状态以及偷电窃电行为,这都造成用采时间序列异常数据的出现。用采数据质量的好坏,很大程度上决定了模型分析结果的好坏。因此,在建立分析模型前对用采数据中存在的异常值进行检测甄别是提高数据质量的重要途径。目前常用异常点检测方法主要有:(1)统计学方法:其最早用于异常点检测,一般分为基于假设检验方法和基于模型方法。由于现实数据挖掘问题多数需在多维空间中寻找异常点,但绝大部分的一致性检验只适用于单属性检验;同时,由于在此法前必须知道数据分布模型,使得此法有很大局限性。(2)基于距离异常值检测方法:其距离函数和参数不易选择,且只能检测出全局异常点,而不能检测出局部异常点。(3)基于密度异常值检测方法:其能够检测出全局和局部的异常点,但计算复杂、繁琐,不适用高维数据场合。(4)基于聚类异常值检测方法:其能够同时发现类和异常点,但一般效率较低、针对性较强。(5)基于机器学习异常值检测方法:可划分人工神经网络(artificialneuralnetworks,ANN)及支持向量机(supportvectormachines,SVM)两大类。ANN在处理小规模问题上具有很好的应用效果,但对大规模数据场景效率较低,难以较好解决参数训练问题,且训练过程易陷入局部最优,模型结构和权值设置不当还会严重影响模型精确度。SVM具有更好的泛化能力,但在处理海量样本将面临严峻挑战,且建模较复杂,在实际应用中存在一定难度。智能电表的电流、电压、有功功率、无功功率曲线中的异常数据直接反应了智能电表的运行状态,此类异常数据属于表记方面的测量异常点以及用户用电异常点。智能电表发生故障往往不是瞬间造成,而是在故障之前的一段时间内处于亚健康运行状态。在此状态下,曲线上的异常数据较为隐蔽,不易通过基本准则来辨别。由于用采数据质量严重影响运营中心等部门分析结果的可信性,而用采异常数据又严重影响着数据质量。此外,用采数据存在断点、缺相、异常高低值等问题,目前一般的用采异常数据甄别规则存在设置过于死板的不足,需要针对性地改进异常值判别规则,以提高异常值检测甄别正确率。数据挖掘及深度学习理论作为当下计算机领域的研究热点,能够有效的进行高维、复杂、非线性问题的分析与处理,深度学习将训练集事先分成小批量数据进行计算,提高了训练效率。因此,相比较而言,深度学习更适合于进行电流电压等时间序列海量用采数据异常值的检测与甄别,采用深度学习可解决传统机器学习方法在处理海量数据时所存在的占用内存高、运行处理速度慢及难以处理高维特征数据等缺陷。
技术实现思路
本专利技术的目的在于提供一种基于多判据融合的配变用采数据异常甄别方法,分别采用原型聚类法、密度聚类法、概率密度法、深度学习方法等四种方法进行异常值的甄别,对四种模型进行“4取2”验证结果,解决了传统机器学习方法处理海量数据时面临的难度大,效率低、实时性不高等问题。为达到上述目的,本专利技术采用的技术方案如下:一种基于多判据融合的配变用采数据异常甄别方法,包括:获取配变用采原始数据;对所述配变用采原始数据进行预处理;将噪声点随机加在预处理后的配变用采原始数据上,形成含异常点的用采数据序列;分别采用原型聚类法、密度聚类法、概率密度法和深度学习法四种模型对含异常点的用采数据序列进行异常点甄别;确定配变用采异常数据;所述配变用采异常数据为任意两种模型的异常点甄别结果的交集,然后取所有两两组合确定的交集的并集。进一步的,所述获取配变用采原始数据,包括:基于正常运行计量装置采集三相电流、三相电压和有功功率原始数据,采集时间间隔为15min。进一步的,所述对所述配变用采原始数据进行预处理,包括:对配变用采原始数据进行缺失值处理以及剔除明显异常值;所述对配变用采原始数据进行缺失值处理,包括:对连续时间数据集中缺失个别数据,采用线性插值法补齐缺失的数据;对连续时间数据集中缺失大量数据,直接剔除该段数据;所述剔除明显异常值是指,将三相电流、三相电压和有功功率原始数据中显示为-9999的数据剔除。进一步的,当所述配变用采原始数据出现大规模数据缺失时,选用数据缺失之前的曲线进行计算。进一步的,所述噪声点服从正态分布。进一步的,所述采用原型聚类法对含异常点的用采数据序列进行异常点甄别,包括:确定聚类属性;包括:选取待检测点电压实际值、待检测点与前一点电压变化值和待检测点与前两点电压变化值作为电压时间序列的聚类属性,选取待检测点电流实际值、待检测点与前一点电流变化值和待检测点与前两点电流变化值作为电流时间序列的聚类属性,选取待检测点有功功率实际值、待检测点与前一点有功功率变化值和待检测点与前两点有功功率变化值作为有功功率时间序列的聚类属性;根据所述聚类属性,采用k-means算法,将待检测时间序列集聚为4类,并确定各类质心;根据各类质心,计算各待检测点到最近聚类中心的距离,以及各待检测点到最近聚类中心的相对距离;将各待检测点到最近聚类中心的相对距离与给定阈值作比较;如果某待检测点到最近聚类中心的相对距离大于给定阈值,则该待检测点是离群点,即异常点。进一步的,所述采用密度聚类法对含异常点的用采数据序列进行异常点甄别,包括:分别绘制电压-电流的平面分布图,电流-有功功率的平面分布图,以及电压-有功功率的平面分布图;对所述平面分布图上的点进行聚类,包括:如果所述平面分布图中的两个点之间的距离不超本文档来自技高网
...

【技术保护点】
1.一种基于多判据融合的配变用采数据异常甄别方法,其特征在于,包括:/n获取配变用采原始数据;/n对所述配变用采原始数据进行预处理;/n将噪声点随机加在预处理后的配变用采原始数据上,形成含异常点的用采数据序列;/n分别采用原型聚类法、密度聚类法、概率密度法和深度学习法四种模型对含异常点的用采数据序列进行异常点甄别;/n确定配变用采异常数据;所述配变用采异常数据为任意两种模型的异常点甄别结果的交集,然后取所有两两组合确定的交集的并集。/n

【技术特征摘要】
1.一种基于多判据融合的配变用采数据异常甄别方法,其特征在于,包括:
获取配变用采原始数据;
对所述配变用采原始数据进行预处理;
将噪声点随机加在预处理后的配变用采原始数据上,形成含异常点的用采数据序列;
分别采用原型聚类法、密度聚类法、概率密度法和深度学习法四种模型对含异常点的用采数据序列进行异常点甄别;
确定配变用采异常数据;所述配变用采异常数据为任意两种模型的异常点甄别结果的交集,然后取所有两两组合确定的交集的并集。


2.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法,其特征在于,所述获取配变用采原始数据,包括:
基于正常运行计量装置采集三相电流、三相电压和有功功率原始数据,采集时间间隔为15min。


3.根据权利要求2所述的一种基于多判据融合的配变用采数据异常甄别方法,其特征在于,所述对所述配变用采原始数据进行预处理,包括:
对配变用采原始数据进行缺失值处理以及剔除明显异常值;
所述对配变用采原始数据进行缺失值处理,包括:对连续时间数据集中缺失个别数据,采用线性插值法补齐缺失的数据;对连续时间数据集中缺失大量数据,直接剔除该段数据;
所述剔除明显异常值是指,将三相电流、三相电压和有功功率原始数据中显示为-9999的数据剔除。


4.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法,其特征在于,当所述配变用采原始数据出现大规模数据缺失时,选用数据缺失之前的曲线进行计算。


5.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法,其特征在于,所述噪声点服从正态分布。


6.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法,其特征在于,所述采用原型聚类法对含异常点的用采数据序列进行异常点甄别,包括:
确定聚类属性;包括:选取待检测点电压实际值、待检测点与前一点电压变化值和待检测点与前两点电压变化值作为电压时间序列的聚类属性,选取待检测点电流实际值、待检测点与前一点电流变化值和待检测点与前两点电流变化值作为电流时间序列的聚类属性,选取待检测点有功功率实际值、待检测点与前一点有功功率变化值和待检测点与前两点有功功率变化值作为有功功率时间序列的聚类属性;
根据所述聚类属性,采用k-means算法,将待检测时间序列集聚为4类,并确定各类质心;
根据各类质心,计算各待检测点到最近聚类中心的距离,以及各待检测点到最近聚类中心的相对距离;
将各待检测点到最近聚类中心的相对距离与给定阈值作比较;如果某待检测点到最近聚类中心的相对距离大于给定阈值,则该待检测点是离群点,即异常点。


7.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法,其特征在于,所述采用密度聚类法对含异常点的用采数据序列进行异常点甄别,包括:
分别绘制电压-电流的平面分布图,电流-有功功率的平面分布图,以及电压-有功功率的平面...

【专利技术属性】
技术研发人员:李新家祝永晋尹飞马吉科季聪许杰雄龙玲莉杨勤胜豆龙龙陈远臧海祥卫志农孙国强
申请(专利权)人:江苏方天电力技术有限公司河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1