一种提升电力大数据的信息价值密度的方法技术

技术编号:38814160 阅读:16 留言:0更新日期:2023-09-15 19:53
本发明专利技术公开了一种提升电力大数据的信息价值密度的方法,包括:针对不同的脏数据类型及其成因,采用不同手段进行数据库维度的脏数据过滤;利用改进K

【技术实现步骤摘要】
一种提升电力大数据的信息价值密度的方法


[0001]本专利技术涉及大数据处理
,具体涉及一种提升电力大数据的信息价值密度的方法。

技术介绍

[0002]能源互联网的发展使得本就复杂的电力信息系统变得更加庞大,电力行业也进入了“电力大数据”的时代。并且随着智能电网的不断发展,将会有更加复杂、更加精细的信息系统和采集测量装置接入到电力系统中,可以预见未来的电力数据量将呈现爆炸式增长,因此如何应用电力大数据是电力行业发展的重要驱动力。与大数据在金融及互联网方面的应用和研究相比,大数据在智能电网中的应用相对处于比较初始的阶段。智能电网数据信息模态千差万别,包括各种结构化、半结构化和非结构化数据,数据口径不一,加工整合困难,这对数据管理技术和水平提出了极高的要求。目前的电网数据管理大多依赖人工进行,自动化水平低,数据管理也局限于数据的采集、传输和存储,没有提升到对数据价值进行挖掘的高度,这极大的局限了电网的自动化、信息化水平。
[0003]电力大数据价值密度低的问题已经严重制约了电力行业大数据应用的发展。借助大数据技术,电力公司迫切希望利用自身积累的数据优势转化为公司发展、改革创新的推动力,但是大数据体量大、价值密度低,现阶段难以投入工程实践,或者利用性价比较低、严重浪费资源。因此,如何评价和提升价值密度是电力行业全面发展大数据应用的重要基础,是目前研究亟需解决的问题。事实上,目前关于价值密度的研究存在缺乏定义和量化指标、提升手段单一导致结果有限的问题。

技术实现思路

[0004]本专利技术主要是为了解决目前电力大数据信息价值密度低的问题,提供了一种提升电力大数据的信息价值密度的方法,有效提升电力大数据的信息价值密度,有利于电力行业大数据应用的发展;所提出的“三层过滤机制”技术路线层层递进,涵盖数据面广,便于实现,耗时较少,提升效果十分显著;所提出的价值密度评价指标较好地反映电力大数据的价值密度属性,且计算简短,便于比较;所提出的改进K

means算法聚类效果更好,迭代次数更少,计算量更小;所提出的FP

network算法节约了存储资源,降低了算法的空间复杂度。
[0005]为了实现上述目的,本专利技术采用以下技术方案。
[0006]一种提升电力大数据的信息价值密度的方法,包括以下步骤:步骤S1:针对不同的脏数据类型及其成因,采用不同手段进行数据库维度的脏数据过滤;步骤S2:利用改进K

means算法进行记录维度的横向过滤;步骤S3:利用FP

network算法进行字段维度的纵向过滤;对于数据库,通常将表的行称为“记录”,是属性值的一个集合;将表的列称为“字段”,表征数据的属性。本专利技术提供了一种提升电力大数据的信息价值密度的方法,有效提
升电力大数据的信息价值密度,有利于电力行业大数据应用的发展,促进电网的自动化、信息化水平;所提出的“三层过滤机制”技术路线层层递进,从数据库、记录、字段等多个维度进行过滤,基本涵盖了现有数据约简、属性降维等技术方法所考虑的所有方面,该技术路线切实可行,便于实现,耗时较少,提升效果十分显著;所提出的改进K

means算法通过多初始聚类中心、多机组处理、多核心拆分数据实现不同机组间互相交叉迭代,每次迭代的修正效果优于传统K

means算法,且迭代次数更少,计算量更小,更加适用于处理规模大、种类多的电力大数据;所提出的FP

network算法网络图本质上是一个无向图,相较于Apriori算法需要存储大量候选集、FP

growth算法需要迭代产生频繁模式树,FP

network算法仅需要存储矩阵I和布尔矩阵B,节约了存储资源,降低了算法的空间复杂度。
[0007]作为优选,步骤S1中,所述不同的脏数据类型包括数据缺失、数据异常、数据不同步、数据冗余和信息冗余。电力大数据由于信道错误、远程终端故障、干扰信号影响等会产生一定的“脏数据”,显然这部分数据不仅降低了价值密度,甚至会影响最终业务结果的准确性。因此,“脏数据”的过滤是十分有必要的。数据缺失主要分为两种情形:缺少某些日期或对象的记录;某条记录里缺少字段。造成的原因可能有很多种,如采集系统故障导致出现空值,某段时间设备检修缺少数据,某些偏远地区可能没有配备采集装置和信道,或者人为误操作导致数据缺失等。目前电力信息系统还不成熟,许多系统在采集输入数据后不进行异常检测判断,直接写入后台数据库,很可能会造成数据异常。由于采集装置遍布各个电压等级,从变电站、线路,到用户,不同源的数据间存在着采集频率不一致的问题,这也会影响数据的价值密度。数据冗余主要是由于电力大数据来源广泛,不同信息系统之间缺少明确的测量分工和信息共享,存在许多重复内容,具体包括异名同义、同名异义、字段重复、记录重复等情形。不同于数据冗余,信息冗余是指数据本身虽然正确,但却不可用的情形。
[0008]作为优选,步骤S1中,所述不同手段包括但不限于替代法、离群点检测、相关性分析和无量纲化方法。本专利技术针对不同类型的“脏数据”,给出具体的处理方法,从而实现电力大数据价值密度的提升。
[0009]作为优选,步骤S2中,所述改进K

means算法基于多初始聚类中心和多机组并行处理,具体流程包括以下步骤:步骤A1:选定m台计算机组建集群系统,将n个输入复制m份,分发给m台计算机;步骤A2:选取m组K

means聚类算法的初始聚类中心,派发给各个计算机节点;步骤A3:每个计算机节点独立执行一次K

means聚类;步骤A4:将类间距离最大的一组聚类结果作为当前最优解,若当前最优解已满足预设要求,则得到聚类结果;否则采用类似粒子群算法的移动规则,产生新的m组初始聚类中心,转步骤A2;考虑到传统K

means聚类算法太过依赖于初始聚类中心,导致聚类效果较差甚至大规模数据集时难以收敛的问题,本专利技术提出了一种基于多初始聚类中心、多机组并行处理的改进K

means算法,不仅仅将并行计算机组作为提高计算速率的工具,其核心思想是通过多台机组并行处理,机组间互相交叉迭代,尽可能削弱初始聚类中心对于结果的影响。
[0010]作为优选,所述步骤A3的具体过程,包括以下步骤:步骤A31:获取计算机CPU的内核数c;步骤A32:将n个输入分成c份,派发给各个内核;
步骤A33:各内核中的数据分别与聚类中心进行相似度计算;步骤A34:汇总各内核中的数据与聚类中心的相似度矩阵,得到每个计算机节点上n个输入和矩阵中心的相似度矩阵;步骤A35:根据相似度矩阵将输入归入各类簇,并根据新的聚类情况更新聚类中心;步骤S36:当完成预设迭代次数时,结束本次聚类;本专利技术所提出的改进K

means算法通过多初始聚类中心、多机组处理、多核心拆分数据实现不同机组间互相交叉迭代,每次迭代的修正效果要优于传统K...

【技术保护点】

【技术特征摘要】
1.一种提升电力大数据的信息价值密度的方法,其特征在于,包括以下步骤:步骤S1:针对不同的脏数据类型及其成因,采用不同手段进行数据库维度的脏数据过滤;步骤S2:利用改进K

means算法进行记录维度的横向过滤;步骤S3:利用FP

network算法进行字段维度的纵向过滤。2.根据权利要求1所述的一种提升电力大数据的信息价值密度的方法,其特征在于,步骤S1中,所述不同的脏数据类型包括数据缺失、数据异常、数据不同步、数据冗余和信息冗余。3.根据权利要求1或2所述的一种提升电力大数据的信息价值密度的方法,其特征在于,步骤S1中,所述不同手段包括但不限于替代法、离群点检测、相关性分析和无量纲化方法。4.根据权利要求1所述的一种提升电力大数据的信息价值密度的方法,其特征在于,步骤S2中,所述改进K

means算法基于多初始聚类中心和多机组并行处理,具体流程包括以下步骤:步骤A1:选定m台计算机组建集群系统,将n个输入复制m份,分发给m台计算机;步骤A2:选取m组K

means聚类算法的初始聚类中心,派发给各个计算机节点;步骤A3:每个计算机节点独立执行一次K

means聚类;步骤A4:将类间距离最大的一组聚类结果作为当前最优解,若当前最优解已满足预设要求,则得到聚类结果;否则采用类似粒子群算法的移动规则,产生新的m组初始聚类中心,转步骤A2。5.根据权利要求4所述的一种提升电力大数据的信息价值密度的方法,其特征在于,所述步骤A3的具体过程,包括以下步骤:步骤A31:获取计算机CPU的内核数c;步骤A32:将n个输入分成c份,派发给各个内核;步骤A33:各内核中的数据分别与聚类中心进行相似度计算;步骤A34:汇总各内核中的数据与聚类中心的相似度矩阵,得到每个计算机节点上n个输入和矩阵中心的相似度矩阵;步骤A35:根据相似度矩阵将输入归入各类簇,并根据新的聚类情况更新聚类中心;步骤S36:当完成预设迭代次数时,结束本次聚类。6.根据权利要...

【专利技术属性】
技术研发人员:李鑫徐宏刘书涵花志伟朱重希汪自立李明贤刘扬王佳祯
申请(专利权)人:国网浙江省电力有限公司桐乡市供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1