数据清洗方法、装置及服务器制造方法及图纸

技术编号:21184512 阅读:23 留言:0更新日期:2019-05-22 15:07
本发明专利技术提供了一种数据清洗方法、装置及服务器,涉及风电场数据处理的技术领域,该方法包括:获取实测数据样本;在Copula空间中建立风速和功率的联合概率分布;将联合概率分布的取值范围均匀划分成多个概率区间;分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗。本发明专利技术提供的数据清洗方法、装置及服务器,能够基于概率空间对实测样本数据进行清洗,得到较为精细的数据清洗结果,同时,也有助于保证剩余数据的有效性及数据量,为后续数据分析奠定了坚实基础。

Data cleaning methods, devices and servers

The invention provides a data cleaning method, device and server, which relates to the technical field of wind farm data processing. The method includes: acquiring measured data samples; establishing joint probability distribution of wind speed and power in Copula space; dividing the range of joint probability distribution into multiple probability intervals uniformly; and dividing each probability along the dimension of wind speed and power, respectively. Data cleaning of the measured data samples is carried out in the interval. The data cleaning method, device and server provided by the invention can clean the measured sample data based on probability space, and obtain more fine data cleaning results. At the same time, it helps to ensure the validity of the remaining data and the amount of data, and lays a solid foundation for subsequent data analysis.

【技术实现步骤摘要】
数据清洗方法、装置及服务器
本专利技术涉及风电场数据处理的
,尤其是涉及一种数据清洗方法、装置及服务器。
技术介绍
对于风电场的SCADA(SupervisoryControlAndDataAcquisition,数据采集与监视控制系统)系统运行数据而言,异常数据广泛存在。从异常数据的形成原因及规模上来看,主要分为堆积型异常数据和稀疏型异常数据。前者通常是由长时间的异常运行产生,如长期限功率运行、突发或缓变故障、性能劣化等。后者通常是由环境干扰、测量噪声和运行控制等原因产生,如传输信号干扰、风机机械振动、风机控制器切换等。此外,SCADA系统数据记录失真同样会形成部分异常数据。因而,从异常数据规模上来看,堆积型异常数据量通常较大,较易识别,但识别精度通常不高;稀疏型异常数量通常较小,易与有效数据混淆故识别难度大,需要高精度的识别算法。异常数据对所有数据驱动的应用场景,如风功率曲线建模、风电理论功率计算、风机或风电场运行性能评价、风机或风电场运行状态监测及故障诊断等均有较大影响。因而,一般情况下,在根据聚类算法、先验知识等剔除较易识别的堆积型异常数据后,要视应用场景的需求,进一步精细化剔除稀疏型异常数据。而目前,风电异常数据的识别大多针对堆积型异常数据进行,对稀疏型异常数据的识别算法却很少,导致难以对稀疏型异常数据进行处理。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种数据清洗方法、装置及服务器,以缓解对于稀疏型异常数据难以处理的技术问题。第一方面,本专利技术实施例提供了一种数据清洗方法,包括:获取实测数据样本,其中,实测数据样本为风电场中风机的风速和功率的实测运行数据;在Copula空间中建立风速和功率的联合概率分布,其中,联合概率分布的取值范围为[0,1]区间;将联合概率分布的取值范围均匀划分成多个概率区间;分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,上述在Copula空间中建立风速和功率的联合概率分布的步骤包括:采用核密度估计法分别建立风速数据和功率数据的边缘概率分布;根据边缘概率分布建立风速和功率的经验Copula分布,以得到风速数据和功率数据在Copula空间的概率散点分布。结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,上述方法还包括:在Copula空间中,计算概率散点分布对应的评价系数,以对概率散点分布包括的多个概率散点的集中程度进行评价。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,上述数据清洗的算法为四分位法;上述分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗的步骤包括:对于每一个概率区间,分别定义概率区间内的分位点Q1、Q2和Q3,其中Q2为中分位点;其中,基于分位点,四分位法的四分位距表示为:LIQ=Q3-Q1;基于四分位距计算数据清洗的清洗区间,根据清洗区间在每个概率区间内对实测数据样本进行四分位法数据清洗。结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,上述清洗区间表示为:[Llow,Lupp]=[Q1-αLIQ,Q3+αLIQ];其中,Llow为有效数据下限、Lupp为有效数据上限;α为缩放系统;根据清洗区间在每个概率区间内对实测数据样本进行四分位法数据清洗的步骤包括:定义风速和功率在Copula空间维度u、v;在每个空间维度上定义相应的划分间隔和缩放系数;基于划分间隔和缩放系数在每个概率区间内执行四分位法数据清洗的过程。结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,上述方法还包括:获取划分间隔和缩放系数,将划分间隔和缩放系数标记为待优化参数;按照预先设置的约减规则将待优化参数进行约减;以及,设置迭代跳出条件,对约减后的待优化参数进行迭代优化。第二方面,本专利技术实施例还提供一种数据清洗装置,包括:获取模块,用于获取实测数据样本,其中,实测数据样本为风电场中风机的风速和功率的实测运行数据;建立模块,用于在Copula空间中建立风速和功率的联合概率分布,其中,联合概率分布的取值范围为[0,1]区间;划分模块,用于将联合概率分布的取值范围均匀划分成多个概率区间;清洗模块,用于分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,上述建立模块用于:采用核密度估计法分别建立风速数据和功率数据的边缘概率分布;根据边缘概率分布建立风速和功率的经验Copula分布,以得到风速数据和功率数据在Copula空间的概率散点分布。结合第二方面的第一种可能的实施方式,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中,上述装置还包括:评价模块,用于在Copula空间中,计算概率散点分布对应的评价系数,以对概率散点分布包括的多个概率散点的集中程度进行评价。第三方面,本专利技术实施例还提供一种服务器,该服务器包括处理器和存储器;其中,所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序时,实现第一方面所述的方法步骤。第四方面,本专利技术实施例还提供了一种计算机存储介质,用于存储计算机程序指令,当计算机执行所述计算机程序指令时,执行如第一方面所述的方法。本专利技术实施例带来了以下有益效果:本专利技术实施例提供的数据清洗方法、装置及服务器,能够在获取到实测数据样本后,在Copula空间中建立风速和功率的联合概率分布,并将联合概率分布的取值范围均匀划分成多个概率区间,以便于分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗,上述在Copula空间建立联合概率分布的过程,能够基于概率空间对实测样本数据进行清洗,得到较为精细的数据清洗结果,同时,也有助于保证剩余数据的有效性及数据量,为后续数据分析奠定了坚实基础。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种数据清洗方法的流程图;图2为本专利技术实施例提供的一种清洗前后数据分布示意图;图3为本专利技术实施例提供的一种数据清洗装置的结构示意图;图4为本专利技术实施例提供的另一种数据清洗装置的结构示意图;图5为本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在本文档来自技高网...

【技术保护点】
1.一种数据清洗方法,其特征在于,包括:获取实测数据样本,其中,所述实测数据样本为风电场中风机的风速和功率的实测运行数据;在Copula空间中建立所述风速和所述功率的联合概率分布,其中,所述联合概率分布的取值范围为[0,1]区间;将所述联合概率分布的取值范围均匀划分成多个概率区间;分别沿所述风速和所述功率所在的维度,在每个所述概率区间内对所述实测数据样本进行数据清洗。

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:获取实测数据样本,其中,所述实测数据样本为风电场中风机的风速和功率的实测运行数据;在Copula空间中建立所述风速和所述功率的联合概率分布,其中,所述联合概率分布的取值范围为[0,1]区间;将所述联合概率分布的取值范围均匀划分成多个概率区间;分别沿所述风速和所述功率所在的维度,在每个所述概率区间内对所述实测数据样本进行数据清洗。2.根据权利要求1所述的方法,其特征在于,所述在Copula空间中建立所述风速和所述功率的联合概率分布的步骤包括:采用核密度估计法分别建立风速数据和功率数据的边缘概率分布;根据所述边缘概率分布建立所述风速和所述功率的经验Copula分布,以得到所述风速数据和所述功率数据在所述Copula空间的概率散点分布。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述Copula空间中,计算所述概率散点分布对应的评价系数,以对所述概率散点分布包括的多个概率散点的集中程度进行评价。4.根据权利要求1所述的方法,其特征在于,所述数据清洗的算法为四分位法;所述分别沿所述风速和所述功率所在的维度,在每个所述概率区间内对所述实测数据样本进行数据清洗的步骤包括:对于每一个所述概率区间,分别定义所述概率区间内的分位点Q1、Q2和Q3,其中Q2为中分位点;其中,基于所述分位点,所述四分位法的四分位距表示为:LIQ=Q3-Q1;基于所述四分位距计算数据清洗的清洗区间,根据所述清洗区间在每个所述概率区间内对所述实测数据样本进行四分位法数据清洗。5.根据权利要求4所述的方法,其特征在于,所述清洗区间表示为:[Llow,Lupp]=[Q1-αLIQ,Q3+αLIQ];其中,所述Llow为有效数据下限、Lupp为有效数据上限;α为缩放系统;所述根据所述清洗区间在每个所述概率...

【专利技术属性】
技术研发人员:胡阳奚芸华潘晨阳
申请(专利权)人:华北电力大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1