基于数据相关性和模糊系统的异常数据预测方法及系统技术方案

技术编号:33709374 阅读:19 留言:0更新日期:2022-06-06 08:38
一种基于数据相关性和模糊系统的异常数据预测方法及系统,方法包括利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率;根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率,生成每种方法对应的概率向量,融合每种方法的概率向量并求解出数据相关性分析结果;实时接收数据并根据数据相关性分析结果建立实时数据集;在线正则化处理实时数据集,将处理后的实时数据集作为输入,通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据;利用预测数据在线调整自适应距离阈值,判断数据的状态,分析数据的变化趋势,提前预判未来出现的异常数据。本发明专利技术能够实时预测未来数据并判断数据状态,学习速度快。学习速度快。学习速度快。

【技术实现步骤摘要】
基于数据相关性和模糊系统的异常数据预测方法及系统


[0001]本专利技术属于复杂装备数据在线预测
,具体涉及一种基于数据相关性和模糊系统的异常数据预测方法及系统。

技术介绍

[0002]信息与互联网技术的发展将人类带入了大数据时代,大数据正在深刻地影响人类社会的发展。在现实背景下,许多数据彼此之间具有一定的相关性,如果单独对每个数据进行分析,分析方法过于孤立,不能充分体现数据所包含的信息。因此,合理有效地进行数据相关性分析和数据降维处理已经成为当前的研究热点。实际的数据通常具有时间相关性,因为其非线性和非稳定性特点导致数据的预测以及状态判断仍有很大的难度,所以提前预测数据并分析出数据的变化趋势,从而可以预防和避免危险事件的发生,具有非常重要的现实意义。
[0003]现有的异常数据预测方法及系统所应用的数据相关性分析Pearson、Spearman和Kendall分析方法都有各自的局限性。其中,Pearson相关系数要求数据总体呈现正态分布,所以无法处理异常数据点,并且不能描述非线性关系;Spearman相关系数对数据的要求没有Pearson相关系数严格,只要两个变量的观测值成对出现,就可以使用Spearman相关系数进行研究;Kendall系数用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。Spearman相关系数和Kendall系数都可以描述简单的非线性关系,但是它们都只利用了数据的排序信息而忽略了数据的内在信息,因而其描述的相关性不够准确。综上所述,仅仅通过单一的数据相关性方法所得到的分析结果并不能充分体现数据之间的相关性;其次,现有的异常数据预测方法及系统采用的预测方法主要包括统计学习方法和机器学习预测方法。统计学习方法主要包括指数平滑法和自回归积分移动平均预测等方法。这类方法仅通过历史数据序列构建数学模型,导致模型简单、参数单一,并不能达到理想的预测效果。传统的机器学习预测方法主要包括BP神经网络、支持向量机(SVM)、循环神经网络(RNN)等方法。其中,BP神经网络在训练过程中需要不断反向调整权重,所以计算量大,学习速度慢;支持向量机训练时间长且只适合小批量样本数据;RNN在训练过程中容易出现梯度消失的问题,导致其在反向传播的过程中无法学习,即它只有短期记忆,在时序数据预测中无法准确地对数据进行长期的预测。另外,上述机器学习方法均是离线训练数据,无法满足系统实时性和快速性的需求。

技术实现思路

[0004]本专利技术的目的在于针对上述现有技术中的问题,提供一种基于数据相关性和模糊系统的异常数据预测方法及系统,通过融合多种数据相关性分析方法的结果,充分体现数据之间的相关性,并且能够实时预测未来数据以及判断数据状态。
[0005]为了实现上述目的,本专利技术有如下的技术方案:
[0006]第一方面,提供一种基于数据相关性和模糊系统的异常数据预测方法,包括:
[0007]利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率;
[0008]根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率,生成每种方法对应的概率向量,融合每种方法的概率向量并且求解出数据相关性分析结果;
[0009]实时接收数据并根据数据相关性分析结果建立实时数据集;
[0010]在线正则化处理实时数据集,以消除不同数据类型的量纲影响;
[0011]将在线正则化处理后的实时数据集作为输入,通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据;
[0012]利用预测数据在线调整自适应距离阈值,判断数据的状态,分析数据的变化趋势,提前预判未来出现的异常数据。
[0013]作为优选,所述多种数据相关性分析方法包括Pearson、Spearman和Kendall分析方法。
[0014]作为优选,所述融合每种方法的概率向量并且求解出数据相关性分析结果的步骤包括:
[0015]计算Pearson、Spearman和Kendall分析方法下的基本概率向量m
pe
、m
sp
和m
ke
三者之间的欧式距离d
ij
,1≤i,j≤3;
[0016]按下式计算第i个判断途径下的权重因子S
i

[0017]按下式根据权重因子S
i
计算基本概率向量m
i
的融合权值w
i

[0018]按下式根据融合权值w
i
计算融合概率向量m
i

:式中,m

i
包括融合后相关概率m
fp
,融合后无关概率m
ip
,融合后无法判断概率m
np

[0019]根据经验条件,若m
fp
>0.9,判定数据相关,否则不相关。
[0020]作为优选,所述实时接收数据并根据数据相关性分析结果建立实时数据集的步骤包括:
[0021]计算出每个因变量yi包括自身在内的所有相关性自变量x,i=1,

,N;
[0022]利用k时刻自变量的值x
k
和在k时刻之前的两个历史时刻自变量x
k
‑2、x
k
‑1以及k+1时刻的因变量t
k+1
构造数据集,所述数据集表达式为t
k+1
=f(x
k
‑2,x
k
‑1,x
k
);
[0023]式中,x
k
=[x
1k
,x
2k

,x
nk
,t
k
]T
,n是目标值t
k+1
的相关自变量个数;
[0024]x
ik
(i=1,

,n)是目标值t
k+1
的第i个自变量k时刻的值;
[0025]t
k
表示k时刻因变量的值;
[0026]t
k+1
表示(k+1)时刻因变量的目标值;
[0027]k为当前时刻,N为因变量总个数。
[0028]作为优选,所述在线正则化处理实时数据集,消除不同数据类型的量纲影响的步骤包括:
[0029]对于k时刻自变量的值x
k
,数据在线正则化处理计算表达式如下:
[0030][0031]其中,和ζ
k
分别是数据k时刻的迭代均值和迭代标准差,x
stk
是k时刻正则化后的数据;
[0032]所述迭代均值按下式进行计算:
[0033][0034]所述迭代方差按下式进行计算:
[0035][0036]式中,是数据(k

1)时刻的迭代均值,是数据(k

1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据相关性和模糊系统的异常数据预测方法,其特征在于,包括:利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率;根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率,生成每种方法对应的概率向量,融合每种方法的概率向量并且求解出数据相关性分析结果;实时接收数据并根据数据相关性分析结果建立实时数据集;在线正则化处理实时数据集,以消除不同数据类型的量纲影响;将在线正则化处理后的实时数据集作为输入,通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据;利用预测数据在线调整自适应距离阈值,判断数据的状态,分析数据的变化趋势,提前预判未来出现的异常数据。2.根据权利要求1所述基于数据相关性和模糊系统的异常数据预测方法,其特征在于,所述多种数据相关性分析方法包括Pearson、Spearman和Kendall分析方法。3.根据权利要求2所述基于数据相关性和模糊系统的异常数据预测方法,其特征在于,所述融合每种方法的概率向量并且求解出数据相关性分析结果的步骤包括:计算Pearson、Spearman和Kendall分析方法下的基本概率向量m
pe
、m
sp
和m
ke
三者之间的欧式距离d
ij
,1≤i,j≤3;按下式计算第i个判断途径下的权重因子S
i
:按下式根据权重因子S
i
计算基本概率向量m
i
的融合权值w
i
:按下式根据融合权值w
i
计算融合概率向量m
i

:式中,m

i
包括融合后相关概率m
fp
,融合后无关概率m
ip
,融合后无法判断概率m
np
;根据经验条件,若m
fp
>0.9,判定数据相关,否则不相关。4.根据权利要求1所述基于数据相关性和模糊系统的异常数据预测方法,其特征在于,所述实时接收数据并根据数据相关性分析结果建立实时数据集的步骤包括:根据融合概率统计出每个因变量y
i
包括自身在内的所有相关自变量x,i=1,

,N;利用k时刻自变量的值x
k
和在k时刻之前的两个历史时刻自变量x
k
‑2、x
k
‑1以及k+1时刻的因变量t
k+1
构造数据集,所述数据集表达式为t
k+1
=f(x
k
‑2,x
k
‑1,x
k
);式中,x
k
=[x
1k
,x
2k

,x
nk
,t
k
]
T
,n是目标值t
k+1
的相关自变量个数;x
ik
(i=1,

,n)是目标值t
k+1
的第i个自变量k时刻的值;t
k
表示k时刻因变量的目标值;t
k+1
表示(k+1)时刻因变量的目标值;k为当前时刻,N为因变量总个数。5.根据权利要求4所述基于数据相关性和模糊系统的异常数据预测方法,其特征在于,所述在线正则化处理实时数据集,消除不同数据类型的量纲影响的步骤包括:针对k时刻自变量的值x
k
,数据在线正则化处理的计算表达式如下:其中,和ζ
k
分别是数据k时刻的迭代均值和迭代标准差,x
stk
是k时刻正则化后的数据;
所述迭代均值按下式进行计算:所述迭代方差按下式进行计算:式中,是数据(k

1)时刻的迭代均值,是数据(k

1)时刻的迭代方差。6.根据权利要求1所述基于数据相关性和模糊系统的异常数据预测方法,其特征在于,所述在线模糊极限学习机算法的数学模型如下:式中,x是TSK模糊模型的输入集合,是TSK模糊模型的预测输出值,L是模糊规则个数,β
i
是输出层权重,G(x;c
i
,a
i
)代表隐藏层的输出,c
i
与a
i
是随机产生的隶属度函数参数;根据FIS与SLFN的等效性,按下式得到具有L个模糊规则的FIS的数学模型:式中,x
st
是经过正则化处理后的自变量数据集,t
st
是经过正则化处理后的目标值数据集;对于TSK模糊模型,后件参数β
i
是输入变量...

【专利技术属性】
技术研发人员:张少杰杨朝旭荣海军张涛刘馨媛陶思宇
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1