高维空间异常数据优化识别方法技术

技术编号：26731463 阅读：23 留言：0更新日期：2020-12-15 14:34

本发明专利技术公开了一种高维空间异常数据优化识别方法，首先，通过获取工业过程多维变量运行数据并进行采集及存储，然后进行机理剔除，接着，通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析得到若干组第一数据类C

全部详细技术资料下载

【技术实现步骤摘要】
高维空间异常数据优化识别方法
本专利技术涉及一种数据预处理方法，具体涉及一种高维空间异常数据优化识别方法及装置。
技术介绍
随着工业物联网的快速发展，海量工业过程运行数据得以采集和存储。以风电工业为例，由于弃风限电、环境干扰、测量噪声和传输存储错误等原因的广泛存在，风机数据采集与监控(SCADA)系统的记录中产生了大量异常数据，主要包括堆积型和稀疏型异常数据。这些异常数据数量庞大并易对由数据驱动的风功率曲线建模、风电理论功率计算、风机运行性能评价、运行状态及故障诊断等应用产生不良影响。由于异常数据与有效数据混合存在、多变量运行数据间复杂非线性等原因，加大了对异常数据识别、清洗的难度。因此，异常数据识别问题引起了学界和工业界的广泛关注和研究。从异常数据类型来看，堆积型异常数据量通常较大，特征明显且较易识别，但识别精度较低，一般用于异常数据初始识别；稀疏型异常数据量通常较小，易与有效数据混淆，识别难度大，依赖高精度的识别算法。目前，聚类方法是实现大量堆积型异常数据识别的可行解决方案，但由于在高维空间下，由于数据存在大量无关属性且分布稀疏等原因，多变量数据在高维空间下的数据识别常常难以取得良好效果。此外，用于稀疏型异常数据识别的有效算法较少，尤其在高维空间下，更加难以实现对稀疏型异常数据有效识别与精度评价。专利技术目的鉴于目前高维空间异常数据识别研究中存在的问题，本专利技术的目的在于提供一种高维空间异常数据优化识别的方法及装置。通过多变量数据在高维空间的多次聚类分析，完成高维空间堆积型异常数...

【技术保护点】
1.一种高维空间异常数据优化识别方法，其特征在于，包括如下步骤：/nS1：获取工业过程多维变量运行数据，按照一定采样时间进行数据采集及存储；/nS2：根据变量正常运行范围，进行机理剔除；/nS3：通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析，将运行数据划分为若干组第一数据类C

【技术特征摘要】
1.一种高维空间异常数据优化识别方法，其特征在于，包括如下步骤：
S1：获取工业过程多维变量运行数据，按照一定采样时间进行数据采集及存储；
S2：根据变量正常运行范围，进行机理剔除；
S3：通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析，将运行数据划分为若干组第一数据类Ci；
S4：通过高维空间聚类分析方法对每一组第一数据类Ci进行第二次聚类分析，获得若干组第二数据类Cij；
S5：基于多维变量的边缘概率分布，在Copula高维概率空间下，建立所述多维变量构成的联合概率分布，其中，所述各变量边缘概率分布的取值范围为[0，1]，联合概率分布的取值范围为[0，1]；
S6：在Copula高维概率空间每一个维度上，将所述多维变量联合概率分布的取值范围均匀划分为多个概率区间；
S7：基于Copula高维概率空间多向四分位算法、智能或数值型优化算法，对每个所述概率区间内运行数据样本的异常数据进行优化识别。

2.根据权利要求1所述的优化识别方法，其特征在于，所述步骤S1中，根据特定的工业过程，基于影响其生产特性的多维变量，按照特定的采样时间，对实际运行数据进行采集及存储，为后续的数据预处理提供数据样本基础。

3.根据权利要求1所述的优化识别方法，其特征在于，所述步骤S2中，根据特定工业过程的运行机理及运行特性，对实测运行数据中不符各个变量正常运行范围的异常数据进行机理剔除。

4.根据权利要求1所述的优化识别方法，其特征在于，步骤S3中，所述第一次聚类分析选取基于模型的聚类方法，寻找满足此模型的数据集，进而得到数据样本X的第一次聚类结果Ci＝{C1,C2,…,Ck}(i＝1,2,…,k)；第一次聚类分析后，根据特定的工业过程运行机理及运行特性，对第一数据类中的异常数据进行剔除，其中，作为异常数据被剔除的数据量在剔除前数据总量的25％以内。

5.根据权利要求1所述的优化识别方法，其特征在于，步骤S4中，基于所述第一次聚类结果Ci，经过聚类得到数据样本X的第二次聚类结果Cij＝{Ci1,Ci2,…,Cim}(i＝1,2,…,k；j＝1,2,…,m)；基于高维空间聚类算法第二次聚类结果，对高维聚类结果进行分析，并对异常数据进行剔除。

6.根据权利要求1所述的优化识别方法，其特征在于步骤S5中，在Copula高维概率空间中建立所述多维变量构成的联合概率分布，对于由任意两个变量构成的联合概率分布，包括以下步骤：
S51：采用核密度估计法(KDE)分别建立所述多维变量的边缘概率分布，其中，各变量边缘概率分布的取值范围为[0，1]；
S52：根据所述边缘概率分布在Copula概率空间建立所述多维变量的联合概率分布，其中，所述联合概率分布的取值范围为[0，1]；
S53：在所述Copula高维概率空间中，建立多维变量线性相关性评价指标，对所述多维变量的联合概率分布中多个概率散点的集中程度进行评价。

7.根据权利要求1所述的优化识别方法，其特征在于，步骤S6中，采用智能或数值型优化算法对所述划分取值范围的划分间隔D进行...

【专利技术属性】
技术研发人员：胡阳，候文昌，房方，刘吉臻，
申请(专利权)人：华北电力大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人