一种提升电力大数据的信息价值密度的方法技术

技术编号：38814160 阅读：16 留言：0更新日期：2023-09-15 19:53

本发明专利技术公开了一种提升电力大数据的信息价值密度的方法，包括：针对不同的脏数据类型及其成因，采用不同手段进行数据库维度的脏数据过滤；利用改进K

全部详细技术资料下载

【技术实现步骤摘要】
一种提升电力大数据的信息价值密度的方法

[0001]本专利技术涉及大数据处理
，具体涉及一种提升电力大数据的信息价值密度的方法。

技术介绍

[0002]能源互联网的发展使得本就复杂的电力信息系统变得更加庞大，电力行业也进入了“电力大数据”的时代。并且随着智能电网的不断发展，将会有更加复杂、更加精细的信息系统和采集测量装置接入到电力系统中，可以预见未来的电力数据量将呈现爆炸式增长，因此如何应用电力大数据是电力行业发展的重要驱动力。与大数据在金融及互联网方面的应用和研究相比，大数据在智能电网中的应用相对处于比较初始的阶段。智能电网数据信息模态千差万别，包括各种结构化、半结构化和非结构化数据，数据口径不一，加工整合困难，这对数据管理技术和水平提出了极高的要求。目前的电网数据管理大多依赖人工进行，自动化水平低，数据管理也局限于数据的采集、传输和存储，没有提升到对数据价值进行挖掘的高度，这极大的局限了电网的自动化、信息化水平。
[0003]电力大数据价值密度低的问题已经严重制约了电力行业大数据应用的发展。借助大数据技术，电力公司迫切希望利用自身积累的数据优势转化为公司发展、改革创新的推动力，但是大数据体量大、价值密度低，现阶段难以投入工程实践，或者利用性价比较低、严重浪费资源。因此，如何评价和提升价值密度是电力行业全面发展大数据应用的重要基础，是目前研究亟需解决的问题。事实上，目前关于价值密度的研究存在缺乏定义和量化指标、提升手段单一导致结果有限的问题。

技术实现思路

[0004]本专利技术主要是

【技术保护点】

【技术特征摘要】
1.一种提升电力大数据的信息价值密度的方法，其特征在于，包括以下步骤：步骤S1：针对不同的脏数据类型及其成因，采用不同手段进行数据库维度的脏数据过滤；步骤S2：利用改进K
‑
means算法进行记录维度的横向过滤；步骤S3：利用FP
‑
network算法进行字段维度的纵向过滤。2.根据权利要求1所述的一种提升电力大数据的信息价值密度的方法，其特征在于，步骤S1中，所述不同的脏数据类型包括数据缺失、数据异常、数据不同步、数据冗余和信息冗余。3.根据权利要求1或2所述的一种提升电力大数据的信息价值密度的方法，其特征在于，步骤S1中，所述不同手段包括但不限于替代法、离群点检测、相关性分析和无量纲化方法。4.根据权利要求1所述的一种提升电力大数据的信息价值密度的方法，其特征在于，步骤S2中，所述改进K
‑
means算法基于多初始聚类中心和多机组并行处理，具体流程包括以下步骤：步骤A1：选定m台计算机组建集群系统，将n个输入复制m份，分发给m台计算机；步骤A2：选取m组K
‑
means聚类算法的初始聚类中心，派发给各个计算机节点；步骤A3：每个计算机节点独立执行一次K
‑
means聚类；步骤A4：将类间距离最大的一组聚类结果作为当前最优解，若当前最优解已满足预设要求，则得到聚类结果；否则采用类似粒子群算法的移动规则，产生新的m组初始聚类中心，转步骤A2。5.根据权利要求4所述的一种提升电力大数据的信息价值密度的方法，其特征在于，所述步骤A3的具体过程，包括以下步骤：步骤A31：获取计算机CPU的内核数c；步骤A32：将n个输入分成c份，派发给各个内核；步骤A33：各内核中的数据分别与聚类中心进行相似度计算；步骤A34：汇总各内核中的数据与聚类中心的相似度矩阵，得到每个计算机节点上n个输入和矩阵中心的相似度矩阵；步骤A35：根据相似度矩阵将输入归入各类簇，并根据新的聚类情况更新聚类中心；步骤S36：当完成预设迭代次数时，结束本次聚类。6.根据权利要...

【专利技术属性】
技术研发人员：李鑫，徐宏，刘书涵，花志伟，朱重希，汪自立，李明贤，刘扬，王佳祯，
申请(专利权)人：国网浙江省电力有限公司桐乡市供电公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人