数据清洗方法、装置及服务器制造方法及图纸

技术编号：21184512 阅读：23 留言：0更新日期：2019-05-22 15:07

本发明专利技术提供了一种数据清洗方法、装置及服务器，涉及风电场数据处理的技术领域，该方法包括：获取实测数据样本；在Copula空间中建立风速和功率的联合概率分布；将联合概率分布的取值范围均匀划分成多个概率区间；分别沿风速和功率所在的维度，在每个概率区间内对实测数据样本进行数据清洗。本发明专利技术提供的数据清洗方法、装置及服务器，能够基于概率空间对实测样本数据进行清洗，得到较为精细的数据清洗结果，同时，也有助于保证剩余数据的有效性及数据量，为后续数据分析奠定了坚实基础。

Data cleaning methods, devices and servers

The invention provides a data cleaning method, device and server, which relates to the technical field of wind farm data processing. The method includes: acquiring measured data samples; establishing joint probability distribution of wind speed and power in Copula space; dividing the range of joint probability distribution into multiple probability intervals uniformly; and dividing each probability along the dimension of wind speed and power, respectively. Data cleaning of the measured data samples is carried out in the interval. The data cleaning method, device and server provided by the invention can clean the measured sample data based on probability space, and obtain more fine data cleaning results. At the same time, it helps to ensure the validity of the remaining data and the amount of data, and lays a solid foundation for subsequent data analysis.

全部详细技术资料下载

【技术实现步骤摘要】
数据清洗方法、装置及服务器
本专利技术涉及风电场数据处理的
，尤其是涉及一种数据清洗方法、装置及服务器。
技术介绍
对于风电场的SCADA(SupervisoryControlAndDataAcquisition，数据采集与监视控制系统)系统运行数据而言，异常数据广泛存在。从异常数据的形成原因及规模上来看，主要分为堆积型异常数据和稀疏型异常数据。前者通常是由长时间的异常运行产生，如长期限功率运行、突发或缓变故障、性能劣化等。后者通常是由环境干扰、测量噪声和运行控制等原因产生，如传输信号干扰、风机机械振动、风机控制器切换等。此外，SCADA系统数据记录失真同样会形成部分异常数据。因而，从异常数据规模上来看，堆积型异常数据量通常较大，较易识别，但识别精度通常不高；稀疏型异常数量通常较小，易与有效数据混淆故识别难度大，需要高精度的识别算法。异常数据对所有数据驱动的应用场景，如风功率曲线建模、风电理论功率计算、风机或风电场运行性能评价、风机或风电场运行状态监测及故障诊断等均有较大影响。因而，一般情况下，在根据聚类算法、先验知识等剔除较易识别的堆积型异常数据后，要视应用场景的需求，进一步精细化剔除稀疏型异常数据。而目前，风电异常数据的识别大多针对堆积型异常数据进行，对稀疏型异常数据的识别算法却很少，导致难以对稀疏型异常数据进行处理。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种数据清洗方法、装置及服务器，以缓解对于稀疏型异常数据难以处理的技术问题。第一方面，本专利技术实施例提供了一种数据清洗方法，包括：获取实测数据样本，其中，实测数据样本为风电场中风机的风...

【技术保护点】
1.一种数据清洗方法，其特征在于，包括：获取实测数据样本，其中，所述实测数据样本为风电场中风机的风速和功率的实测运行数据；在Copula空间中建立所述风速和所述功率的联合概率分布，其中，所述联合概率分布的取值范围为[0，1]区间；将所述联合概率分布的取值范围均匀划分成多个概率区间；分别沿所述风速和所述功率所在的维度，在每个所述概率区间内对所述实测数据样本进行数据清洗。

【技术特征摘要】
1.一种数据清洗方法，其特征在于，包括：获取实测数据样本，其中，所述实测数据样本为风电场中风机的风速和功率的实测运行数据；在Copula空间中建立所述风速和所述功率的联合概率分布，其中，所述联合概率分布的取值范围为[0，1]区间；将所述联合概率分布的取值范围均匀划分成多个概率区间；分别沿所述风速和所述功率所在的维度，在每个所述概率区间内对所述实测数据样本进行数据清洗。2.根据权利要求1所述的方法，其特征在于，所述在Copula空间中建立所述风速和所述功率的联合概率分布的步骤包括：采用核密度估计法分别建立风速数据和功率数据的边缘概率分布；根据所述边缘概率分布建立所述风速和所述功率的经验Copula分布，以得到所述风速数据和所述功率数据在所述Copula空间的概率散点分布。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：在所述Copula空间中，计算所述概率散点分布对应的评价系数，以对所述概率散点分布包括的多个概率散点的集中程度进行评价。4.根据权利要求1所述的方法，其特征在于，所述数据清洗的算法为四分位法；所述分别沿所述风速和所述功率所在的维度，在每个所述概率区间内对所述实测数据样本进行数据清洗的步骤包括：对于每一个所述概率区间，分别定义所述概率区间内的分位点Q1、Q2和Q3，其中Q2为中分位点；其中，基于所述分位点，所述四分位法的四分位距表示为：LIQ＝Q3-Q1；基于所述四分位距计算数据清洗的清洗区间，根据所述清洗区间在每个所述概率区间内对所述实测数据样本进行四分位法数据清洗。5.根据权利要求4所述的方法，其特征在于，所述清洗区间表示为：[Llow,Lupp]＝[Q1-αLIQ,Q3+αLIQ]；其中，所述Llow为有效数据下限、Lupp为有效数据上限；α为缩放系统；所述根据所述清洗区间在每个所述概率...

【专利技术属性】
技术研发人员：胡阳，奚芸华，潘晨阳，
申请(专利权)人：华北电力大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人