高维空间异常数据优化识别方法技术

技术编号:26731463 阅读:23 留言:0更新日期:2020-12-15 14:34
本发明专利技术公开了一种高维空间异常数据优化识别方法,首先,通过获取工业过程多维变量运行数据并进行采集及存储,然后进行机理剔除,接着,通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析得到若干组第一数据类C

【技术实现步骤摘要】
高维空间异常数据优化识别方法
本专利技术涉及一种数据预处理方法,具体涉及一种高维空间异常数据优化识别方法及装置。
技术介绍
随着工业物联网的快速发展,海量工业过程运行数据得以采集和存储。以风电工业为例,由于弃风限电、环境干扰、测量噪声和传输存储错误等原因的广泛存在,风机数据采集与监控(SCADA)系统的记录中产生了大量异常数据,主要包括堆积型和稀疏型异常数据。这些异常数据数量庞大并易对由数据驱动的风功率曲线建模、风电理论功率计算、风机运行性能评价、运行状态及故障诊断等应用产生不良影响。由于异常数据与有效数据混合存在、多变量运行数据间复杂非线性等原因,加大了对异常数据识别、清洗的难度。因此,异常数据识别问题引起了学界和工业界的广泛关注和研究。从异常数据类型来看,堆积型异常数据量通常较大,特征明显且较易识别,但识别精度较低,一般用于异常数据初始识别;稀疏型异常数据量通常较小,易与有效数据混淆,识别难度大,依赖高精度的识别算法。目前,聚类方法是实现大量堆积型异常数据识别的可行解决方案,但由于在高维空间下,由于数据存在大量无关属性且分布稀疏等原因,多变量数据在高维空间下的数据识别常常难以取得良好效果。此外,用于稀疏型异常数据识别的有效算法较少,尤其在高维空间下,更加难以实现对稀疏型异常数据有效识别与精度评价。专利技术目的鉴于目前高维空间异常数据识别研究中存在的问题,本专利技术的目的在于提供一种高维空间异常数据优化识别的方法及装置。通过多变量数据在高维空间的多次聚类分析,完成高维空间堆积型异常数据的初始识别及剔除。在此基础上,通过时序空间向概率空间的特征映射,在Copula高维概率空间下,定义多维变量线性相关性评价指标,基于Copula高维概率空间多向四分位算法、智能或数值型优化算法构建稀疏型异常数据优化识别问题描述,完成对高维空间内稀疏型常异常数据优化识别及剔除。在工业物联网背景下,通过采用本专利技术的所述方法进行数据预处理后,最终实现为数据驱动的相关应用奠定基础的目的。
技术实现思路
根据本专利技术的一个方面,提供了一种高维空间异常数据优化识别方法,包括如下步骤:S1:获取工业过程多维变量运行数据,按照一定采样时间进行数据采集及存储;S2:根据变量正常运行范围,进行机理剔除;S3:通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类Ci;S4:通过高维空间聚类分析方法对每一组第一数据类Ci进行第二次聚类分析,获得若干组第二数据类Cij;S5:基于多维变量的边缘概率分布,在Copula高维概率空间下,建立所述多维变量构成的联合概率分布,其中,所述各变量边缘概率分布的取值范围为[0,1],联合概率分布的取值范围为[0,1];S6:在Copula高维概率空间每一个维度上,将所述多维变量联合概率分布的取值范围均匀划分为多个概率区间;S7:基于Copula高维概率空间多向四分位算法、智能或数值型优化算法,对每个所述概率区间内运行数据样本的异常数据进行优化识别。优选地,所述步骤S1中,根据特定的工业过程,基于影响其生产特性的多维变量,按照特定的采样时间,对实际运行数据进行采集及存储,为后续的数据预处理提供数据样本基础。优选地,所述步骤S2中,根据特定工业过程的运行机理及运行特性,对实测运行数据中不符各个变量正常运行范围的异常数据进行机理剔除。优选地,步骤S3中,所述第一次聚类分析选取基于模型的聚类方法,寻找满足此模型的数据集,进而得到数据样本X的第一次聚类结果Ci={C1,C2,…,Ck}(i=1,2,…,k);第一次聚类分析后,根据特定的工业过程运行机理及运行特性,对第一数据类中的异常数据进行剔除,其中,作为异常数据被剔除的数据量在剔除前数据总量的25%以内。优选地,步骤S4中,基于所述第一次聚类结果Ci,经过聚类得到数据样本X的第二次聚类结果Cij={Ci1,Ci2,…,Cim}(i=1,2,…,k;j=1,2,…,m);基于高维空间聚类算法第二次聚类结果,对高维聚类结果进行分析,并对异常数据进行剔除。优选地,步骤S5中,在Copula高维概率空间中建立所述多维变量构成的联合概率分布,对于由任意两个变量构成的联合概率分布,包括以下步骤:S51:采用核密度估计法(KDE)分别建立所述多维变量的边缘概率分布,其中,各变量边缘概率分布的取值范围为[0,1];S52:根据所述边缘概率分布在Copula概率空间建立所述多维变量的联合概率分布,其中,所述联合概率分布的取值范围为[0,1];S53:在所述Copula高维概率空间中,建立多维变量线性相关性评价指标,对所述多维变量的联合概率分布中多个概率散点的集中程度进行评价。优选地,步骤S6中,采用智能或数值型优化算法对所述划分取值范围的划分间隔D进行优化。优选地,步骤S7中,所述基于Copula高维概率空间的多向四分位法包括:对于每一个所述多维变量的概率区间,分别定义所述概率区间内的分位点Q1、Q2和Q3,其中,通过计算所述分位点,定义多向四分位法的四分位距(IQR):IQR=Q3-Q1;基于分位点与四分位距,定义数据识别区间为[NL,NH]=[Q1-μIQR,Q3+μIQR],其中,NL为正常数据下限,NH为正常数据上限,μ为四分位系数。优选地,所述数据识别区间表达式中四分位系数μ采用智能或数值型优化算法求取,根据所述数据识别区间在每个所述概率区间内的执行多向四分位法数据识别,所述数据识别的步骤包括:S71:定义所述多维变量在Copula概率空间上的维度;S72:在高维空间的每一个维度上,基于智能或数值型优化算法,定义并求取相应的划分间隔和四分位系数;S73:基于所述划分间隔和四分位系数,在由任意两个变量构成的联合概率分布每个维度的每个所述概率区间内执行四分位算法,获取识别区间,在每个所述概率区间内,对属于识别区间内的正常数据进行保留,对不属于识别区间的异常数据进行剔除,实现了数据样本中异常数据的横向和纵向的四分位识别,进而对于多变量实现了多向四分位识别。根据本专利技术的另一个方面,提供了上述的数据优化识别方法在风机功率数据清洗方法中的应用,进一步包括以下步骤:步骤一:获取风电场多维变量运行数据,具体为按一定采样时间进行采集和存储的风电场中的风机风速、转子转速和功率的实测运行数据;步骤二:基于运行特性对步骤一种所获取的数据进行机理剔除,具体包括:将风力发电机功率曲线WTPC划分为五个区域,即,区域I:切入阶段,此时风速小于切入风速Vcut,in,机组空转,并网功率为0;区域Ⅱ:最大风能跟踪阶段,此时Vcut,in≤V<Vωr,rated,通过调节转矩来控制转速,维持最大风能利用率;区域Ⅲ:过渡阶段,此时Vωr,rated≤V<Vrated,风机功率Pω,rated≤P<Prated;区域Ⅳ:额定功率阶段,此时Vrate本文档来自技高网
...

【技术保护点】
1.一种高维空间异常数据优化识别方法,其特征在于,包括如下步骤:/nS1:获取工业过程多维变量运行数据,按照一定采样时间进行数据采集及存储;/nS2:根据变量正常运行范围,进行机理剔除;/nS3:通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类C

【技术特征摘要】
1.一种高维空间异常数据优化识别方法,其特征在于,包括如下步骤:
S1:获取工业过程多维变量运行数据,按照一定采样时间进行数据采集及存储;
S2:根据变量正常运行范围,进行机理剔除;
S3:通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类Ci;
S4:通过高维空间聚类分析方法对每一组第一数据类Ci进行第二次聚类分析,获得若干组第二数据类Cij;
S5:基于多维变量的边缘概率分布,在Copula高维概率空间下,建立所述多维变量构成的联合概率分布,其中,所述各变量边缘概率分布的取值范围为[0,1],联合概率分布的取值范围为[0,1];
S6:在Copula高维概率空间每一个维度上,将所述多维变量联合概率分布的取值范围均匀划分为多个概率区间;
S7:基于Copula高维概率空间多向四分位算法、智能或数值型优化算法,对每个所述概率区间内运行数据样本的异常数据进行优化识别。


2.根据权利要求1所述的优化识别方法,其特征在于,所述步骤S1中,根据特定的工业过程,基于影响其生产特性的多维变量,按照特定的采样时间,对实际运行数据进行采集及存储,为后续的数据预处理提供数据样本基础。


3.根据权利要求1所述的优化识别方法,其特征在于,所述步骤S2中,根据特定工业过程的运行机理及运行特性,对实测运行数据中不符各个变量正常运行范围的异常数据进行机理剔除。


4.根据权利要求1所述的优化识别方法,其特征在于,步骤S3中,所述第一次聚类分析选取基于模型的聚类方法,寻找满足此模型的数据集,进而得到数据样本X的第一次聚类结果Ci={C1,C2,…,Ck}(i=1,2,…,k);第一次聚类分析后,根据特定的工业过程运行机理及运行特性,对第一数据类中的异常数据进行剔除,其中,作为异常数据被剔除的数据量在剔除前数据总量的25%以内。


5.根据权利要求1所述的优化识别方法,其特征在于,步骤S4中,基于所述第一次聚类结果Ci,经过聚类得到数据样本X的第二次聚类结果Cij={Ci1,Ci2,…,Cim}(i=1,2,…,k;j=1,2,…,m);基于高维空间聚类算法第二次聚类结果,对高维聚类结果进行分析,并对异常数据进行剔除。


6.根据权利要求1所述的优化识别方法,其特征在于步骤S5中,在Copula高维概率空间中建立所述多维变量构成的联合概率分布,对于由任意两个变量构成的联合概率分布,包括以下步骤:
S51:采用核密度估计法(KDE)分别建立所述多维变量的边缘概率分布,其中,各变量边缘概率分布的取值范围为[0,1];
S52:根据所述边缘概率分布在Copula概率空间建立所述多维变量的联合概率分布,其中,所述联合概率分布的取值范围为[0,1];
S53:在所述Copula高维概率空间中,建立多维变量线性相关性评价指标,对所述多维变量的联合概率分布中多个概率散点的集中程度进行评价。


7.根据权利要求1所述的优化识别方法,其特征在于,步骤S6中,采用智能或数值型优化算法对所述划分取值范围的划分间隔D进行...

【专利技术属性】
技术研发人员:胡阳候文昌房方刘吉臻
申请(专利权)人:华北电力大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1