Hadoop大数据平台分布式能源数据清洗方法及系统技术方案

技术编号:35177494 阅读:53 留言:0更新日期:2022-10-12 17:44
本发明专利技术提供了一种Hadoop大数据平台分布式能源数据清洗方法及系统,以Hadoop大数据平台为依托,利用python的科学计算库进行数据的初步探索分析,利用第三方绘图库plot画图分析数据,查找异常数据类型、缺失值、数据集规模和各特征下的数据分布情况,然后通过Hadoop大数据平台使用聚类分析填充缺失值和处理异常值,对冗余数据进行去重,实现了分布式能源数据的快速和精准清洗。快速和精准清洗。快速和精准清洗。

【技术实现步骤摘要】
Hadoop大数据平台分布式能源数据清洗方法及系统


[0001]本专利技术涉及电力数据处理
,特别涉及一种Hadoop大数据平台分布式能源数据清洗方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]光伏发电数字化技术不断发展进步,伴随而来的是大批量、高密度、多种类的各种数据。筛选清洗出有效数据、处理异常数据后得到的数据是后期数据分析的基础。光伏系统实际运行过程中存在大量的异常值,产生这些异常值的原因包括数据传播信号噪声,传感器故障,通信,测量设备故障电站等,大量的异常数据降低了数据的有效性,筛选有效数据开展定性及定量分析,实现对分布式能源数据的有效清洗,采用Hadoop大数据平台建模的机器分析不仅可以极大的提升效率,而且可以有效避免人工分析的误差,得到清洗后的数据可以为后续大数据建模分析预测提供有力支撑。
[0004]专利技术人发现,现有的光伏发电数据的处理方法,没有针对分布式能源的数据特点进行清洗,对分布式能源数据的一致性检查、无效值和缺失值的处理能力较差,无法高效和准确的得到可用的光伏发电数据。

技术实现思路

[0005]为了解决现有技术的不足,本专利技术提供了一种Hadoop大数据平台分布式能源数据清洗方法及系统,以Hadoop大数据平台为依托,利用python的科学计算库进行数据的初步探索分析,利用第三方绘图库plot画图分析数据,查找异常数据类型、缺失值、数据集规模和各特征下的数据分布情况,然后通过Hadoop大数据平台使用聚类分析填充缺失值和处理异常值,对冗余数据进行去重,实现了分布式能源数据的快速和精准清洗。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]本专利技术第一方面提供了一种Hadoop大数据平台分布式能源数据清洗方法。
[0008]一种Hadoop大数据平台分布式能源数据清洗方法,其特征在于:
[0009]包括以下过程:
[0010]获取基于Hadoop大数据平台得到的分布式能源数据,将获取的分布式能源数据转换为第一特定数据类型;
[0011]利用第一特定数据类型的数据绘制离散图,找出异常数据,确定异常数据类型;
[0012]将第一特定数据类型的数据转换为第二特定数据类型,通过时间和设备编码构建唯一主键,清除第二特定数据类型的冗余数据;
[0013]判断去除冗余数据后的数据的时间序列是否完整,对时间序列不完整的数据通过相似日填充数据,时间序列完整的进行对数据的缺失值处理;
[0014]使用预设聚类算法对缺失值进行分析预测填充缺失值;
[0015]对得到的异常数据类型,判断数据属性的重要程度,对属性重要程度大于预设值
的数据进行聚类,回填正常值后,得到清洗过后的分布式能源数据。
[0016]作为可选的一种实现方式,使用预设聚类算法对缺失值进行分析预测填充缺失值,包括:
[0017]使用用户的装机容量、时间与天气作为特征,使用预设聚类算法将数据进行分组,并求平均值存储到字典中,当数据异常或者缺失时,根据当前异常或缺失值的标签与各个组的相似度选取最优的值来填充异常数据。
[0018]作为可选的一种实现方式,预设聚类算法,包括:
[0019]输入数据为:存储样本数据的文本文件inputfile,存储样本数据的SequenceFile文件inputPath,存储质心数据的SequenceFile文件centerPath,存储聚类结果文件(SequenceFile文件)所处的路径clusterPath,类的数量k;
[0020]输出数据为:k个类;
[0021]读取inputPath,找出方差最小且利用最大最小距离法选出K个密度大且距离较远的领域的核心点作为初始质心,将质心数据写入centerPath;
[0022]当聚类终止条件不满足时,在Mapper阶段,读取inputPath,对于key所对应的点,遍历所有的质心,选择最近的质心,将该质心的编号作为键,该点的编号作为值传递给Reducer;
[0023]在Reducer阶段,将Mapper阶段传递过来的值根据键归并输出,结果写入clusterPath;
[0024]读取clusterPath,重新计算质心,将结果写入centerPath,循环上述过程直至聚类终止条件满足。
[0025]作为可选的一种实现方式,使用ETL工具kettle将获取的分布式能源数据转换为json类型。
[0026]作为可选的一种实现方式,使用python引用第三方绘图库plot绘制离散图。
[0027]作为可选的一种实现方式,使用python将json类型的数据转换为DataFrame类型,使用扩展程序库pandas进行数据清洗。
[0028]作为可选的一种实现方式,通过Hadoop大数据平台使用聚类分析填充缺失值和处理异常数据。
[0029]本专利技术第二方面提供了一种Hadoop大数据平台分布式能源数据清洗系统。
[0030]一种Hadoop大数据平台分布式能源数据清洗系统,包括:
[0031]数据获取模块,被配置为:获取基于Hadoop大数据平台得到的分布式能源数据,将获取的分布式能源数据转换为第一特定数据类型;
[0032]异常数据识别模块,被配置为:利用第一特定数据类型的数据绘制离散图,找出异常数据,确定异常数据类型;
[0033]冗余数据清洗模块,被配置为:将第一特定数据类型的数据转换为第二特定数据类型,通过时间和设备编码构建唯一主键,清除第二特定数据类型的冗余数据;
[0034]时间序列完整性判断模块,被配置为:判断去除冗余数据后的数据的时间序列是否完整,对时间序列不完整的数据通过相似日填充数据,时间序列完整的进行对数据的缺失值处理;
[0035]缺失值填充模块,被配置为:使用预设聚类算法对缺失值进行分析预测填充缺失
值;
[0036]异常数据处理模块,被配置为:对得到的异常数据类型,判断数据属性的重要程度,对属性重要程度大于预设值的数据进行聚类,回填正常值后,得到清洗过后的分布式能源数据。
[0037]本专利技术第三方面提供了一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如本专利技术第一方面所述的Hadoop大数据平台分布式能源数据清洗方法中的步骤。
[0038]本专利技术第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本专利技术第一方面所述的Hadoop大数据平台分布式能源数据清洗方法中的步骤。
[0039]与现有技术相比,本专利技术的有益效果是:
[0040]1、本专利技术所述的Hadoop大数据平台分布式能源数据清洗方法及系统,以Hadoop大数据平台为依托,利用python的科学计算库进行数据的初步探索分析,利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Hadoop大数据平台分布式能源数据清洗方法,其特征在于:包括以下过程:获取基于Hadoop大数据平台得到的分布式能源数据,将获取的分布式能源数据转换为第一特定数据类型;利用第一特定数据类型的数据绘制离散图,找出异常数据,确定异常数据类型;将第一特定数据类型的数据转换为第二特定数据类型,通过时间和设备编码构建唯一主键,清除第二特定数据类型的冗余数据;判断去除冗余数据后的数据的时间序列是否完整,对时间序列不完整的数据通过相似日填充数据,时间序列完整的进行对数据的缺失值处理;使用预设聚类算法对缺失值进行分析预测填充缺失值;对得到的异常数据类型,判断数据属性的重要程度,对属性重要程度大于预设值的数据进行聚类,回填正常值后,得到清洗过后的分布式能源数据。2.如权利要求1所述的Hadoop大数据平台分布式能源数据清洗方法,其特征在于:使用预设聚类算法对缺失值进行分析预测填充缺失值,包括:使用用户的装机容量、时间与天气作为特征,使用预设聚类算法将数据进行分组,并求平均值存储到字典中,当数据异常或者缺失时,根据当前异常或缺失值的标签与各个组的相似度选取最优的值来填充异常数据。3.如权利要求1或2所述的Hadoop大数据平台分布式能源数据清洗方法,其特征在于:预设聚类算法,包括:输入数据为:存储样本数据的文本文件inputfile,存储样本数据的SequenceFile文件inputPath,存储质心数据的SequenceFile文件centerPath,存储聚类结果文件(SequenceFile文件)所处的路径clusterPath,类的数量k;输出数据为:k个类;读取inputPath,从中选取前k个点作为初始质心,将质心数据写入centerPath;当聚类终止条件不满足时,在Mapper阶段,读取inputPath,对于key所对应的点,遍历所有的质心,选择最近的质心,将该质心的编号作为键,该点的编号作为值传递给Reducer;在Reducer阶段,将Mapper阶段传递过来的值根据键归并输出,结果写入clusterPath;读取clusterPath,重新计算质心,将结果写入centerPath,循环上述过程直至聚类终止条件满足。4.如权...

【专利技术属性】
技术研发人员:刘洋李立生张世栋于海东刘明林黄敏王浩房牧刘文彬刘合金苏国强张鹏平李帅王峰文祥宇由新红张林利
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1