System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种风电机组SCADA数据异常标注方法技术_技高网

一种风电机组SCADA数据异常标注方法技术

技术编号:40361221 阅读:6 留言:0更新日期:2024-02-09 14:48
本发明专利技术公开一种风电机组SCADA数据异常标注方法,包括空间数据划分阶段和时间特征提取阶段,具体步骤流程如下:获取风电机组完整SCADA数据并进行风速区间划分与停机数据剔除;获取的不同风速区间的数据,采用核密度估计的方法获取功率的非参数化分布表达;获取整体风速区间下的可疑样本集合;确定可疑样本区间,并计算每个区间对应的差分序列;获取的相对残差序列和差分序列,构建三种不同特征序列,并采用K‑Means聚类算法,获得四种不同形态的数据点类别。实现了对不同类型数据如正常样本、离群点、变点和故障样本进行精准辨识和标注,为下游任务提供了准确的标签信息和可靠的数据支持。

【技术实现步骤摘要】

本专利技术属于数据处理,具体涉及一种风电机组scada数据异常标注方法。


技术介绍

1、基于scada数据进行风力发电机组状态监测和故障预测模型建立,是当前风电机组运行维护的主流方法。然而,scada系统采集的数据存在一定挑战:一方面,风力发电机组运行环境的动态变化使得scada数据包含不同类型的异常样本;另一方面,scada仅对关键输入变量风速进行单点监测,难以充分反映其空间时间特征,从而影响建模效果。这对依赖scada数据进行下游建模任务提出了质量保障问题。为了解决这一问题,需要设计数据预处理方法对原始scada数据进行精准分类标注,提取关键变量的潜在特征信息。同时,需要选择性地进行特征选择和扩充,以补充scada数据的不足,为下游建模提供高质量输入。

2、现有方法主要关注功率曲线的异常检测,但对不同类别数据的辨识与标注不足。在研究面向极端风况的故障问题时,高风速的离群点可能需要更多的关注。同时,在正常行为建模和故障建模时,需要正确的标签信息。特征选择方法主要基于原始高维scada系统变量进行降维,但单一的时间序列风速数据缺少对风速变化模式等时间特征的提取,这可能导致建模精度的降低。现有方法忽略了时间维度特性的影响,只关注偏离正常运行状态的数据的检测与剔除。scada系统原始数据维度高,且机组各关键部件运行特性各异。不同监测变量对不同关键部件建模的影响程度也有所区别。因此,需要针对性地选择有效的相关信息以保证建模的准确性。

3、综上所述,现有方法在数据异常辨识方面存在一些难点和不足,需要更加关注不同类别数据的辨识与标注,提取风速数据的时间特征;同时,需要考虑时间维度特性的影响,并针对性地选择有效的相关信息,以提高数据异常辨识的准确性和效率,以及提高建模精度。


技术实现思路

1、为了弥补现有技术的不足,本专利技术旨在提供一种风电机组scada数据异常标注方法,基于机组历史运行数据的功率曲线,通过不同风速区间下的样本空间分布初步筛选出包含部分正常样本与所有偏移样本的候选集,再通过时间特征提取对候选集中的所有数据类别进行划分,从而提升后续具体下游任务中的建模精确性。为实现该目的,本专利技术的具体技术方案如下:

2、一种风电机组scada数据异常标注方法,包括空间数据划分阶段和时间特征提取阶段,依据起因和分布特性的区别,功率曲线中的样本可以被划分为正常样本、孤立离群点样本、变点样本以及故障样本这四类样本,该方法具体步骤流程如下:

3、s1.获取风电机组完整scada数据并进行风速区间划分与停机数据剔除;

4、s2.根据步骤s1获取的不同风速区间的数据,采用核密度估计的方法获取功率的非参数化分布表达;

5、s3.根据步骤s2得到的各个风速区间下的功率分布,根据概率密度函数设置每个风速区间以及设置各风速区间的上限和下限置信度,分别获取对应的上下限阈值,并根据上下限阈值与参考值,获取整体风速区间下的可疑样本集合;

6、s4.根据步骤s3得到的每个风速区间下的参考值,计算相对残差序列,通过滑窗技术确定可疑样本区间,并计算每个区间对应的差分序列;

7、s5.根据步骤s4获取的相对残差序列和差分序列,构建三种不同特征序列,并采用k-means聚类算法,获得四种不同形态的数据点类别。

8、进一步地,所述步骤s1中风速区间划分仅在切入风速与切出风速之间进行,在功率曲线下方堆叠的输出有功功率为0的数据对应为停机数据,直接进行剔除;将风速等间隔划分为nv个区间,第i个区间下的输入风速v与输出有功功率p的二维样本表示为:

9、

10、其中,i表示第i个区间,delta指的是每个风速区间的大小,vj和pj两个变量合在一起作为一个样本,表示一组“风速-功率”;δ表示为区间长度,则风速区间个数为:nv=(vcut-out-vcut-in)/δ,其中vcut-out指的是切出风速,vcut-in指的是切入风速,风电机组工作在这个大的风速区间内。

11、进一步地,所述步骤s2中对于第i个区间vi,使用核密度估计方法直接对概率密度函数进行估计,该区间vi下的功率数据表示为[p1,p2,...,pbi],其中,ni为该区间内的样本数量,则在样本px处,使用核密度估计方法得到的概率密度函数由下式表示:

12、

13、其中,h表示kde方法的带宽,κ(·)表示核函数,选用高斯核函数;其中,h表示kde方法的带宽,κ(·)表示核函数,选用高斯核函数;px表示功率值,p(px)代表的是在px这个功率处的边际概率;i与上面风速区间分组对应,指第i个风速区间,pj指的是上一步中划分完风速区间后,在第i个风俗区间下的每一个功率值,j从1取到ni,ni表示第i个风速区间下的样本个数。

14、进一步地,所述步骤s3在每个风速区间下,概率密度最大值对应的输出有功功率数值设置为该区间的参考数值,记为r(v),表示在当前风速区间下的一个预期输出有功功率值;设置两个置信度,记为αui和αli对应正常波动的范围上限ui及下限li,置信度与阈值上下限之间的对应关系表示为:

15、

16、

17、对px积分,在阈值上下限区间内的所有样本代表了输出有功功率的正常波动,被认为是正常样本;在此区间外的所有样本被定义为可疑样本。

18、进一步地,所述步骤s4中定义一个输出有功功率与参考值之间的相对残差序列,记为s,该序列中的第j个相对残差sj为:

19、

20、其中,e是自然常数,pj指的是划分完风速区间后,在第i个风俗区间下的每一个功率值;r(vj)表示风速区间vj下的功率参考数值,概率密度最大值对应的输出有功功率数值设置为该区间的参考数值,记为r(v);对于可疑样本集中的每个数据,通过滑窗技术确定一个可疑样本区间,滑窗的左侧固定在当前的可疑样本处,滑窗右侧不断向右移动,直至该区间内可疑样本的比例少于50%时停止;构建每个区间对应的差分序列,记为d,差分序列的第j项为:dj=sj+1-sj。

21、进一步地,所述步骤s5中的三种不同特征序列分别如下:

22、第一个特征为可疑样本区间的长度,记为ls;

23、第二个特征为每个可疑样本区间与其紧邻的正常样本区间的距离,基于动态时间规整,定义一种平均动态时间规整距离,来表示一个可疑样本区间的相对残差序列ss与其紧邻的正常样本区间相对残差序列sn之间的距离,由下式表示:

24、

25、第三个特征为一个可疑样本区间的差分序列ds与其紧邻的正常样本区间差分序列dn之间的距离,同样由平均动态时间规整距离进行计算,由下式表示:

26、

27、其中,k表示规整路径的长度,上两式都是衡量两个序列的距离,分别从两个序列中有序挑出k个点,两两做差,然后相加开根号得到最终的距离指标;w指代完整的序列,w和wd代表选出的序列,k为从1取到k的迭代本文档来自技高网...

【技术保护点】

1.一种风电机组SCADA数据异常标注方法,其特征在于,所述方法包括空间数据划分阶段和时间特征提取阶段,利用空间数据划分阶段识别出数据中的不同类别样本,通过时间特征提取阶段对关键变量进行特征扩充,依据起因和分布特性的区别,功率曲线中的样本可以被划分为正常样本、孤立离群点样本、变点样本以及故障样本这四类样本,该方法具体步骤流程如下:

2.根据权利要求1所述的一种风电机组SCADA数据异常标注方法,其特征在于,所述步骤S1中风速区间划分仅在切入风速与切出风速之间进行,在功率曲线下方堆叠的输出有功功率为0的数据对应为停机数据,直接进行剔除;将风速等间隔划分为Nv个区间,第i个区间下的输入风速v与输出有功功率P的二维样本表示为:

3.根据权利要求1所述的一种风电机组SCADA数据异常标注方法,其特征在于,所述步骤S2中对于第i个区间Vi,使用核密度估计方法直接对概率密度函数进行估计,该区间Vi下的功率数据表示为[P1,P2,...,PNi],其中,Ni为该区间内的样本数量,则在样本Px处,使用核密度估计方法得到的概率密度函数由下式表示:

4.根据权利要求1所述的一种风电机组SCADA数据异常标注方法,其特征在于,所述步骤S3在每个风速区间下,概率密度最大值对应的输出有功功率数值设置为该区间的参考数值,记为R(v),表示在当前风速区间下的一个预期输出有功功率值;设置两个置信度,记为αUi和αLi对应正常波动的范围上限Ui及下限Li,置信度与阈值上下限之间的对应关系表示为:

5.根据权利要求1所述的一种风电机组SCADA数据异常标注方法,其特征在于,所述步骤S4中定义一个输出有功功率与参考值之间的相对残差序列,记为S,该序列中的第j个相对残差sj为:

6.根据权利要求1所述的一种风电机组SCADA数据异常标注方法,其特征在于,所述步骤S5中的三种不同特征序列分别如下:

7.根据权利要求1或6所述的一种风电机组SCADA数据异常标注方法,其特征在于,所述四类样本分别如下:

...

【技术特征摘要】

1.一种风电机组scada数据异常标注方法,其特征在于,所述方法包括空间数据划分阶段和时间特征提取阶段,利用空间数据划分阶段识别出数据中的不同类别样本,通过时间特征提取阶段对关键变量进行特征扩充,依据起因和分布特性的区别,功率曲线中的样本可以被划分为正常样本、孤立离群点样本、变点样本以及故障样本这四类样本,该方法具体步骤流程如下:

2.根据权利要求1所述的一种风电机组scada数据异常标注方法,其特征在于,所述步骤s1中风速区间划分仅在切入风速与切出风速之间进行,在功率曲线下方堆叠的输出有功功率为0的数据对应为停机数据,直接进行剔除;将风速等间隔划分为nv个区间,第i个区间下的输入风速v与输出有功功率p的二维样本表示为:

3.根据权利要求1所述的一种风电机组scada数据异常标注方法,其特征在于,所述步骤s2中对于第i个区间vi,使用核密度估计方法直接对概率密度函数进行估计,该区间vi下的功率数据表示为[p1,p2,...,pni],其中,ni...

【专利技术属性】
技术研发人员:王银丰张金博刘懿楚张恺沈晓锋干献丰杨秦敏孟文超李超
申请(专利权)人:浙江浙能嘉兴海上风力发电有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1