一种风电场数据清洗方法及装置制造方法及图纸

技术编号：23084944 阅读：29 留言：0更新日期：2020-01-11 01:06

本发明专利技术提供了一种数据清洗方法及装置，结合风力发电过程运行特性，针对运行数据中存在的异常数据，通过基于噪声鲁棒性聚类的运行数据第一次聚类分析、基于数据分布流形的第二次聚类分析等两阶段聚类算法，能够在时域空间有效识别和剔除异常数据，具有较高的可执行性。同时提供了对异常数据剔除效果的性能评价，通过合理的评价标准优化了剔除堆积型异常数据的方案，保证剩余有效数据占比及有效数据量，能够合理提高堆积型异常数据识别精度和执行效率，有利于异常数据识别的自动化实现和工业应用。

A data cleaning method and device for wind farm

全部详细技术资料下载

【技术实现步骤摘要】
一种风电场数据清洗方法及装置
本专利技术涉及一种数据清洗方法及装置，特别涉及一种风电场数据清洗方法及装置。
技术介绍
随着规模化风电的快速发展，同时，受电源结构单一、电力系统有限的调节能力、外送通道容量不足等问题制约，弃风限电现象在中国普遍存在。尤其在中国“三北”地区，风电年利用小时数长期在低位徘徊。目前，风电消纳已成为阻碍中国风电产业健康发展的瓶颈问题，亟需解决。因长时间限功率运行，大多数风电场SCADA系统的记录数据存在较多的堆积型异常数据，即大量非最大风能利用状态的限功率运行数据。此外，因风机运行性能劣化或故障等同样会产生大量非最大出力性能的运行数据。这些异常数据对后续的风功率曲线建模、理论功率计算、风机运行性能评价、运行状态监测及故障诊断等均有较大影响。然而，堆积型异常数据与有效数据通常混合存在，大大增加了异常数据识别、清洗的难度。因而，引起了学界和工业界的广泛关注。考虑到风力发电过程中大量存在的不确定性以及运行数据的复杂非线性，采用聚类方法进行异常数据清洗是一种可行的解决方案。然而，单一的聚类方法难以得到良...

【技术保护点】
1.一种风电场数据清洗方法，其特征在于，所述方法包括以下步骤：/n获取风电场运行数据；/n通过聚类分析方法对运行数据进行第一次聚类分析，将运行数据划分为若干组第一数据类C

【技术特征摘要】
1.一种风电场数据清洗方法，其特征在于，所述方法包括以下步骤：
获取风电场运行数据；
通过聚类分析方法对运行数据进行第一次聚类分析，将运行数据划分为若干组第一数据类Ci＝{C1，C2，...，Ci，...，Cm}(i＝1，2，...，M)；
通过聚类分析方法对每一组第一数据类Ci进行第二次聚类分析，获得若干组第二数据类Cij＝{Ci1，Ci2，...，Cij，...，Cin}(i＝1，2，...，m；j＝1，2，...，n)；
通过联合概率分布空间的数据分布特性评价及优化两次聚类后的数据清洗结果。

2.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，所述第一次聚类分析采用对噪声数据具有较强适应能力的聚类算法。

3.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，所述第一次聚类分析选取欧式距离作为相似性测度，采用K-medoids聚类算法。

4.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第一次聚类分析将运行数据分组数量不少于3组且不大于5组。

5.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第一次聚类分析后根据风电场的特性对第一数据类中的异常数据进行剔除。

6.根据权利要求5所述的一种风电场数据清洗方法，其特征在于，异常数据剔除的数据量应为剔除前数据总量的25％以内。

7.根据权利要求5所述的一种风电场数据清洗方法，其特征在于，第一次聚类分析后剔除异常数据所根据风电场的特性包括风电场风机设计参数或风电场风功率特性。

8.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第二次聚类分析采用具有非凸聚类能力的聚类算法。

9.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第二次聚类分析采用流形谱聚类算法。

10.根据权利要求9所述的一种风电场数据清洗方法，其特征在于，所述流形谱聚类算法定义数据点之间的流形距离，并定义流形距离核，建立流形距离核矩阵，以流形距离核矩阵为基础建立拉普拉斯矩阵，计算拉普拉斯矩阵特征值及其特征列向量建立特征矩阵，基于该特征矩阵进行k均值聚类，获得聚类结果。

11.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第二次聚类分析的分组数量不少于3组且不大于10组。

12.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第二次聚类分析后根据风电场风功率特性对第二次聚类中的异常数据进行剔除。

13.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，基于Copula空间中分段数据点到经过点(0，0)、(1，1)的对称直线的加权距离进行数据清洗结果评价。

14.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，根据风电场风速边...

【专利技术属性】
技术研发人员：陈保卫，李庚达，胡阳，段震清，奚芸华，潘晨阳，王昕，梁凌，李雄威，刘淼，
申请(专利权)人：国电新能源技术研究院有限公司，华北电力大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人