System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据处理,具体涉及一种基于变化方向的异常数据识别方法及装置。
技术介绍
1、对于包括现代工业系统在内的复杂系统,如何快速、准确的找出多维时间序列中的异常数据是一个关键问题。
2、之前,大家普遍采用的方法是利用数据挖掘技术从多维时间序列中自动找出有效特征,然后利用它从多维时间序列中识别出异常数据。一方面,这种方法找出的有效特征不具有物理意义,可解释性不好;另一方面,这种方法受到奇异点的影响很大,鲁棒性不好。
技术实现思路
1、鉴于上述的分析,本专利技术旨在公开了一种基于变化方向的异常数据识别方法及装置,解决现有方法存在的可解释性不足以及鲁棒性不好的问题。
2、本专利技术公开了一种基于变化方向的异常数据识别方法,包括:
3、采集工业系统中多个观测量的观测数据,组成基于多观测量的多维时间序列;
4、在数据正常情况下,所述多个观测量之间具有随时间同增或同减的关系;在数据异常时情况下,多个观测量之间不具有同增或同减的关系;
5、将多维时间序列的每一维都划分为一系列的初始基元;
6、对于初始基元按照融合误差最小原则进行相邻基元的合并,并计算合并后的多维时间序列的拟合误差;
7、重复按照融合误差最小原则进行相邻基元的合并,直到拟合误差的值趋于稳定后,输出最终基元;
8、利用最终基元的斜率确定多维时间序列每一维的变化方向;如果一段时间内每一维的变化方向一致,识别为正常数据,否则,识别为异常
9、进一步地,基元为一段数据,并且初始基元对应的数据段的时间间隔为1;当多维时间序列的总时间间隔数为m,对应的初始基元的数目为m-1;
10、所述多维时间序列n为观测量的维度;
11、将多维时间序列t的每一维都划分为m-1个初始基元,其中,对于多维时间序列t的第i维,它的各个初始基元分别表示为:
12、t[xi(t)|t=1,2],t[xi(t)|t=2,3],…,t[xi(t)|t=m-1,m]。
13、进一步地,按照融合误差最小原则进行相邻基元合并时,对于一个基元以及与其左、右相邻的两个基元;如果所述基元与左相邻基元进行融合的融合误差小于与右相邻基元进行融合的融合误差,则,所述基元与左相邻基元进行融合,否则,所述基元与右相邻基元进行融合。
14、进一步地,所述按照融合误差最小原则合并相邻的基元,包括:
15、1)将基元与它的左相邻基元以及它的右相邻基元分别进行合并,合并后得到第一合并基元和第二合并基元;
16、2)利用最小二乘法,分别计算第一合并基元和第二合并基元对应的回归直线;
17、3)计算第一合并基元与对应的回归直线的第一拟合误差,计算第二合并基元与对应的回归直线的第二拟合误差;
18、4)比较第一拟合误差和第二拟合误差,如果第一拟合误差小于第二拟合误差,将基元和它的左相邻基元更新为第一合并基元,将第一拟合误差作为该次拟合的拟合误差;如果第二拟合误差小于第一拟合误差,将基元和它的右相邻基元更新为第二合并基元,将第二拟合误差作为该次拟合的拟合误差。
19、进一步地,所述第一拟合误差xi(t)为第i维的基元在t时刻的取值;为计算的第一合并基元的回归直线在t时刻的取值;
20、所述第二拟合误差xi(t)为第i维的基元在t时刻的取值;为计算的第二合并基元的回归直线在t时刻的取值。
21、进一步地,多维时间序列t的第i维的拟合误差
22、k为预先设定的多维时间序列t的基元数量上限,多维时间序列t的第i维的基元数量为si(si≤k,i=1,2,…,n);
23、多维时间序列t的各个维度的拟合误差之和
24、通过ek的大小判断线性拟合的效果。
25、进一步地,改变多维时间序列t的基元数量的上限k的值,重复按照融合误差最小原则进行相邻基元的合并,计算拟合误差ek的值;画出ek相对于k的变化趋势图,当ek的值趋于稳定时,终止基元的合并过程,输出最终基元。
26、进一步地,最终基元的斜率的计算方法为:
27、多维时间序列t的最终基元的第i维的基元数量为si(i=1,2,...,n),并且第i维第j段基元被表示为
28、t[xi(t)|t=li,j,li,j+1,…,ri,j];
29、其中,li,j为第j段基元的起始时刻,ri,j为第j段基元的终止时刻,同时也作为第j+1段基元的起始时刻ri,j=li,j+1;li,1=1,
30、计算基元t[xi(t)|t=li,j,li,j+1,…,ri,j]对应的回归直线,如果回归直线的斜率大于0,就将多维时间序列t的第i维第j段基元的变化方向设置为+1;
31、采用公式表示为:基元的斜率di(t)=+1,t=li,j,li,j+1,…,ri,j;
32、如果回归直线的斜率不大于0,就将多维时间序列t的第i维第j段基元的变化方向设置为-1;
33、采用公式表示为:基元的斜率di(t)=-1,t=li,j,li,j+1,…,ri,j。
34、进一步地,计算得到了时间序列t的每一个维度在每一段基元内的变化方向后,将多维时间序列t的第i维在整个时间间隔m内的变化方向定义为:
35、[di(t)|t=1,2,...,m];
36、将多维时间序列t的各个维度在整个时间间隔m内的变化方向的值相加得到:
37、
38、当t=l,l+1,...,r时,如果有d(t)=±n,就认为数据是正常的,否则就认为数据是异常的;l为进行异常数据判断的数据的开始时刻,r为结束时刻。
39、本专利技术还公开了一种基于变化方向的异常数据识别装置,包括:
40、多维时间序列数据采集模块,用于采集工业系统中多个观测量的观测数据,组成基于多观测量的多维时间序列;在数据正常情况下,所述多个观测量之间具有随时间同增或同减的关系;在数据异常时情况下,多个观测量之间不具有同增或同减的关系;
41、初始基元生成模块,用于将多维时间序列的每一维都划分为一系列的基元;
42、最终基元生成模块,用于按照融合误差最小原则合并相邻的基元,计算多维时间序列的拟合误差;重复按照融合误差最小原则合并相邻的基元,直到拟合误差的值趋于稳定;
43、异常判断模块,用于利用最终基元的斜率确定多维时间序列每一维的变化方向;如果一段时间内每一维的变化方向一致,识别为正常数据,否则,识别为异常数据。
44、本专利技术至少可实现以下有益效果之一:
45、本专利技术的基于变化方向的异常数据识别方法及装置,解决现有异常数据识别方法中存在的可解释性不足以及鲁棒性不好的问题。通过将多维时间序列用一系列的基元来进行表示,并利用各个基元的斜率来定义它的变化方向,最后利用变化方本文档来自技高网...
【技术保护点】
1.一种基于变化方向的异常数据识别方法,其特征在于,包括:
2.根据权利要求1所述的异常数据识别方法,其特征在于,基元为一段数据,并且初始基元对应的数据段的时间间隔为1;当多维时间序列的总时间间隔数为m,对应的初始基元的数目为m-1;
3.根据权利要求1所述的异常数据识别方法,其特征在于,按照融合误差最小原则进行相邻基元合并时,对于一个基元以及与其左、右相邻的两个基元;如果所述基元与左相邻基元进行融合的融合误差小于与右相邻基元进行融合的融合误差,则,所述基元与左相邻基元进行融合,否则,所述基元与右相邻基元进行融合。
4.根据权利要求3所述的异常数据识别方法,其特征在于,所述按照融合误差最小原则合并相邻的基元,包括:
5.根据权利要求4所述的异常数据识别方法,其特征在于,
6.根据权利要求1所述的异常数据识别方法,其特征在于,
7.根据权利要求6所述的异常数据识别方法,其特征在于,
8.根据权利要求7所述的异常数据识别方法,其特征在于,最终基元的斜率的计算方法为:
9.根据权利要求8所述
10.一种基于变化方向的异常数据识别装置,其特征在于,包括:
...【技术特征摘要】
1.一种基于变化方向的异常数据识别方法,其特征在于,包括:
2.根据权利要求1所述的异常数据识别方法,其特征在于,基元为一段数据,并且初始基元对应的数据段的时间间隔为1;当多维时间序列的总时间间隔数为m,对应的初始基元的数目为m-1;
3.根据权利要求1所述的异常数据识别方法,其特征在于,按照融合误差最小原则进行相邻基元合并时,对于一个基元以及与其左、右相邻的两个基元;如果所述基元与左相邻基元进行融合的融合误差小于与右相邻基元进行融合的融合误差,则,所述基元与左相邻基元进行融合,否则,所述基元与右相邻基元进行融合。
【专利技术属性】
技术研发人员:余彦,符志民,狄宇,张雪峰,高鹏飞,
申请(专利权)人:北京机械设备研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。