一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法技术

技术编号:26690120 阅读:46 留言:0更新日期:2020-12-12 02:40
一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法,属配电网可靠性预测领域。对经归一化处理后的配电网数据,采用以弯矩法为主、凹凸系数法为辅的聚类数选取机制,来获得样本最佳的聚类数;在对样本进行聚类分析后,采用上下临界图的异常值识别标准划定诊断阈值;若样本距离聚类中心的距离大于诊断阈值,则判别该样本为离群样本,并剔除;进而得到“除噪”的样本数据;采用经过上述“除噪”处理后的样本数据,对配电网故障潜在规则进行预测。既克服了弯矩法和凹凸系数算法容易陷入局部极值的缺点,又保持了粒子群算法的全局寻优性,同时还具有弯矩法和凹凸系数算法较快的收敛速度;具有除噪效果好,分选正确率和有效性高的优点。

【技术实现步骤摘要】
一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法
本专利技术属于配电网的可靠性预测领域,尤其涉及一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法。
技术介绍
近年来,国家电网公司加大配电网自动化改造力度,深化配电自动化系统推广和应用,能够实现对配电网主干线、部分分支线开关的遥信、遥测、遥控,并根据线路事故信号和自动化开关的保护信号,自动判断故障区间,向调控人员发出提示信号或自动完成故障隔离和恢复供电,提高了供电可靠性及输送质量。电力系统作为生产、输送、分配、消费电能的统一整体,任何电力系统故障都会对用户造成影响。据统计,用户故障停电中80%以上都为配电网故障导致的。减少配电网故障、提高配电网可靠性,对于电力公司保障用户的用电质量及用电体验、保障社会和经济健康发展有着重要的作用。配电网故障导致调控人员无法及时发现并处置非自动化线路的故障情况,无法甄别错误的遥信、遥测信息并做出正确处置。但是,随着分布式发电大量接入和用户对供电可靠性要求的不断提高,现有的技术支持手段对配电网尤其是分支线的掌控能力,越来越难以满足调控运行的需要。首先,目前在电力调度系统中,仅有少量电力运行数据能靠人工手动导出并处理,数据利用效率低,亟待通过大数据技术、云计算技术强化应用归集、传输、分析处理,并有效地为配网调控决策服务于现有调控业务。如能对调度自动化系统进行改进,扩展其应用功能,深入挖掘海量数据中蕴藏的有效信息,实现对配电网的故障监测和数据准确性校核,以较低的成本和简便的手段提高供电质量和供电可靠性,对供电企业而言是有效、易行的方案。其次,在电力行业,将大数据分析技术应用于故障监测正处于起步阶段,尚未形成广泛通用的技术模式。配电网信息系统不断积累的海量数据为研究更先进的预测性配电网可靠性提升技术创造了条件。同时,随着配电网故障及其影响因素之间的关系被发掘,以往认为配电网故障无法预测的观念己经改变。然而,大数据的一般特征是包含噪声或离群点的集合。因为数据库大,并且多半来自多个异构数据源,配电网数据库极易受噪声、丢失数据和不一致数据的侵扰,这种异常坏数据的存在将导致低质量的挖掘结果。数据清理可以用来去掉数据中的噪声,纠正不完整的和不一致的坏数据。检测数据异常、尽早地调整数据并归约待分析的数据,并将在决策过程得到高回报。避免了离群样本对预测模型的不良影响。目前,在大部分聚类算法中聚类数的确立是一个重要而困难的问题,粒子群聚类算法也不例外。以往根据先验知识确立聚类数存在很大的不足,先验知识的错误或者缺失都将直接影响确立的聚类数的有效性。鉴于此,确立一种可以准确分类,并能基于粒子群原理的配电网数据预处理方法,是实际工作中急待解决的问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法。针对目前聚类最优N值的选取时弯矩法与凹凸系数法结论不一致等缺点,将粒子群算法与弯矩法和凹凸系数算法相结合,以弯矩法为主、凹凸系数法为辅的聚类数选取机制、同时输出剔除离群点的优化配电网数据。既克服了弯矩法和凹凸系数算法容易陷入局部极值的缺点,又保持了粒子群算法的全局寻优性,同时还具有弯矩法和凹凸系数算法较快的收敛速度,输出剔除离群点的优化配电网数据,能够克服现有技术的不足,具有除噪效果好,分选正确率和有效性高等优点。本专利技术的技术方案是:提供一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法,其特征是包括以下步骤:1)对历年配电网发生的故障大小、频度进行分析,找出数据挖掘的类别,根据配电线路在线监测系统和智能公用配变监测系统等的数据源,进行数据采集;2)对数据源采取特征构造,并进行归一化处理,将数据由多个源合并成一致的数据库存储;3)对经上一步骤后的当前粒子群体进行弯矩法和凹凸系数法聚类数分析,获得样本最佳的聚类数;4)将数据样本按聚类数划分为若干个类别,采用粒子群算法计算数据样本与聚类中心的距离,优化聚类中心;5)在对样本进行聚类分析后,采用上下临界图的异常值识别标准划定诊断阈值,若样本距离聚类中心的距离大于诊断阈值,则判别该样本为离群样本,并剔除;进而得到“除噪”的样本数据,6)采用经过上述“除噪”处理后的样本数据,对配电网故障潜在规则进行预测。所述的配电网数据预处理方法,对经归一化处理后的配电网数据,进行弯矩法和凹凸系数法聚类数分析,采用以弯矩法为主、凹凸系数法为辅的聚类数选取机制,来获得样本最佳的聚类数。具体的,所述的弯矩法包括:让聚类数N从1开始取值直到取到配电网合适的聚类上限;对每一个N值进行聚类并且记下对应的所有样本的聚类误差,即聚类效果优劣;然后画出N和所有样本的聚类误差的关系图;最后选取弯曲棱角对应的N值作为最佳聚类数;其弯矩系数算法为:式中,N为聚类数,Ob为i簇中的样本对象,Ci为当前i簇的簇中心。具体的,所述的凹凸系数法包括:按簇内样本的距离远近,求出所有样本的凹凸系数后再求平均值,得到其平均凹凸系数;平均凹凸系数的取值范围为[-1,1],且簇间样本距离越远,平均凹凸系数越大,取平均凹凸系数最大的M为最佳聚类数;某个样本点Di的凹凸系数算法为:其中,设ki是点i到其所属簇中所有其它点的平均距离,li为点i到其所不在的任何簇中的所有点的最小距离;所述最近簇的定义是:其中S是某个簇RN中的样本,用Di到某个簇所有样本平均距离作为衡量该点到该簇的距离,并选择离Di最近的一个簇作为最近簇。进一步的,根据凹凸系数法确定出的最优N值,如果BMC的结论支持或与凹凸系数法不矛盾,那么由凹凸系数法直接确定出最优N值;如BMC的结论与凹凸系数法矛盾,以BMC的结论为最优N值。进一步的,将数据样本求取的聚类数划分为N个类别,计算数据样本与聚类中心的距离;根据各个粒子的自身位置,找出局部极值和全局极值位置;不断更新粒子的位置到粒子群最优化解,优化聚类中心。进一步的,在对样本进行聚类分析后,采用上下临界图的异常值识别标准划定诊断阈值,异常值通常被定义为大于DL-1.5GAP或小于DH+1.5GAP的值;其中DL称为下四分位数,表示全部样本值中有四分之一的数据取值比它小;DH称为上四分位数,表示全部样本值中有四分之一的数据取值比它大;GAP称为四分位数间距,是上四分位数DH与下四分位数DL之差,其间包含了全部观察值的一半。若所述的样本距离聚类中心的距离大于诊断阈值,则诊断该样本为离群样本,并剔除。本专利技术所述的配电网数据预处理方法,克服了弯矩法和凹凸系数算法容易陷入局部极值的缺点,保持了粒子群算法的全局寻优性,同时还具有弯矩法和凹凸系数算法较快的收敛速度。与现有技术比较,本专利技术的优点是:1.采用本技术方案所述的大数据聚类的基于粒子群原理的配电网数据预处理方法,既本文档来自技高网
...

【技术保护点】
1.一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法,其特征是包括以下步骤:/n1)对历年配电网发生的故障大小、频度进行分析,找出数据挖掘的类别,根据配电线路在线监测系统和智能公用配变监测系统等的数据源,进行数据采集;/n2)对数据源采取特征构造,并进行归一化处理,将数据由多个源合并成一致的数据库存储;/n3)对经上一步骤后的当前粒子群体进行弯矩法和凹凸系数法聚类数分析,获得样本最佳的聚类数;/n4)将数据样本按聚类数划分为若干个类别,采用粒子群算法计算数据样本与聚类中心的距离,优化聚类中心;/n5)在对样本进行聚类分析后,采用上下临界图的异常值识别标准划定诊断阈值,若样本距离聚类中心的距离大于诊断阈值,则判别该样本为离群样本,并剔除;进而得到“除噪”的样本数据,/n6)采用经过上述“除噪”处理后的样本数据,对配电网故障潜在规则进行预测。/n

【技术特征摘要】
1.一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法,其特征是包括以下步骤:
1)对历年配电网发生的故障大小、频度进行分析,找出数据挖掘的类别,根据配电线路在线监测系统和智能公用配变监测系统等的数据源,进行数据采集;
2)对数据源采取特征构造,并进行归一化处理,将数据由多个源合并成一致的数据库存储;
3)对经上一步骤后的当前粒子群体进行弯矩法和凹凸系数法聚类数分析,获得样本最佳的聚类数;
4)将数据样本按聚类数划分为若干个类别,采用粒子群算法计算数据样本与聚类中心的距离,优化聚类中心;
5)在对样本进行聚类分析后,采用上下临界图的异常值识别标准划定诊断阈值,若样本距离聚类中心的距离大于诊断阈值,则判别该样本为离群样本,并剔除;进而得到“除噪”的样本数据,
6)采用经过上述“除噪”处理后的样本数据,对配电网故障潜在规则进行预测。


2.按照权利要求1所述的采用大数据聚类的基于粒子群原理的配电网数据预处理方法,其特征是所述的配电网数据预处理方法,对经归一化处理后的配电网数据,进行弯矩法和凹凸系数法聚类数分析,采用以弯矩法为主、凹凸系数法为辅的聚类数选取机制,来获得样本最佳的聚类数。


3.按照权利要求1所述的采用大数据聚类的基于粒子群原理的配电网数据预处理方法,其特征是所述的弯矩法包括:
让聚类数N从1开始取值直到取到配电网合适的聚类上限;
对每一个N值进行聚类并且记下对应的所有样本的聚类误差,即聚类效果优劣;
然后画出N和所有样本的聚类误差的关系图;
最后选取弯曲棱角对应的N值作为最佳聚类数;
其弯矩系数算法为:



其中,N为聚类数,Ob为i簇中的样本对象,Ci为当前i簇的簇中心。


4.按照权利要求1所述的采用大数据聚类的基于粒子群原理的配电网数据预处理方法,其特征是所述的凹凸系数法包括:
按簇内样本的距离远近,求出所有样本的凹凸系数后再求平均值,得到其平均凹凸系数;
平均凹凸系数的取值范围为[-1,1],且簇间样本距离越远,平均凹凸系数越大,取平均凹凸系数最大的M为最佳聚类数;
某个样本点...

【专利技术属性】
技术研发人员:吴峥嵘石江华周蓝波宋祎波李俊颖忻葆宏张萌亮宗卫国顾珏曹轶毅
申请(专利权)人:国网上海市电力公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1