当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于相似度的多元时间序列异常检测与诊断方法技术

技术编号:37723813 阅读:12 留言:0更新日期:2023-06-02 00:25
本发明专利技术提供了一种基于相似度的多元时间序列异常检测与诊断方法,包括:S1,获取待测试的多元时间序列;S2,结合基本概率分配方法和谷本测量获取相似度矩阵;S3,利用基于注意力机制的重构模型重构相似度矩阵;S4,比较相似度矩阵和重构矩阵得到相似误差矩阵,将相似误差矩阵中异常元素数量作为对应时刻的异常分数;S5,若异常分数达到第一阈值则该时刻异常,据异常元素分布确定异常属性。基于基本概率分配与谷本系数的相似度矩阵计算方法实现了多元时间序列属性之间的可解释关系,注意力机制的重构模型加强了处理长时间、高维度数据的能力,以更好地描述长期的时间依赖关系,提高异常诊断的能力,能检出异常时刻和异常属性。能检出异常时刻和异常属性。能检出异常时刻和异常属性。

【技术实现步骤摘要】
一种基于相似度的多元时间序列异常检测与诊断方法


[0001]本专利技术涉及数据处理
,尤其涉及一种基于相似度的多元时间序列异常检测与诊断方法。

技术介绍

[0002]随着物联网的普及,无处不在的连接产生大量的高维数据,即多元时间序列。数据挖掘专家需要研究所监控系统内与多元时间序列中预期趋势不一致的模式或实例,被称为异常检测和诊断。由于这些不寻常的模式或实例可能揭示功能异常或潜在故障的信号,因此如何有效地检测和诊断异常对于容错响应和数据库设计等服务质量管理至关重要。
[0003]目前常用的多元时序数据异常检测与诊断方法包括:一种是基于距离的方法使用特定的距离度量来比较一个时间序列中的点或子序列之间的相互关系;基于分布的方法估计数据的分布或对数据拟合一个分布模型。但传统的基于距离或分布的方法往往难以学习更深层次的数据特征,且泛化能力较差。再一种是基于预测的方法使用一个连续的学习模型,根据预测误差,通过当前的上下文窗口来预测不可见的时间戳的状态,但基于预测方法的局限性在于大量的模型参数和捕捉短期波动的困难;再一种是基于重构的方法通过对其子序列的编码来提取低维空间中正常时间序列中的一般模式,但是基于重构的方法中,一些循环机制可以用于时间依赖建模,但是对后期时间步长的计算必须等待之前序列的完成,这需要很高的时间复杂度;再一种是基于编码的方法将时间序列的子序列编码到一个低维的潜在空间中,但是基于编码器的方法鼓励紧凑的潜在特征在输入时间序列中捕获最典型的模式,并忽略非代表性的模式,如异常值,然而,它们对异常值很敏感,并且容易发生过拟合。此外,异常诊断不仅需要发现异常,还需要发现导致异常行为的具体数据源,即异常检测需要可解释性。这使问题更加复杂化,目前很少有方法能够同时解决以上困难。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题,提供一种基于相似度的多元时间序列异常检测与诊断方法。
[0005]为了实现本专利技术的上述目的,本专利技术提供一种基于相似度的多元时间序列异常检测与诊断方法,包括:步骤S1,获取待测试的多元时间序列X={X1,

,X
t


,X
T
},X
t
表示t时刻N维属性向量矩阵,T表示时间戳长度,1≤t≤T;步骤S2,结合基本概率分配方法和谷本测量方法获取每个时刻的N维属性向量矩阵的相似度矩阵;步骤S3,利用基于注意力机制的重构模型重构每个时刻的相似度矩阵,获得每个时刻的重构矩阵;步骤S4,比较每个时刻的相似度矩阵和重构矩阵得到该时刻的相似误差矩阵,依次判断相似误差矩阵中每个元素是否异常,统计相似误差矩阵中异常元素数量并将所述异常元素数量作为对应时刻的异常分数;步骤S5,判断每个时刻的异常分数是否达到第一阈值,若达到第一阈值则认为该时刻的N维属性向量矩阵异常,进一步根据该时刻的相似误差矩阵中异常元素分布确定异常属性。
[0006]本专利技术解决了多元时序数据中的异常检测与诊断问题,为了获取多元时间序列属
性之间的可解释关系,本专利技术提出了一种新的基于基本概率分配与谷本系数的相似度矩阵计算方法,此方法可以获取到原始数据中更多信息,改进的基于注意力的机制的重构模型加强了处理长时间、高维度数据的能力,以更好地描述长期的时间依赖关系提高异常诊断的能力,本专利技术不但能够检测出异常时刻,还能进一步检测出异常时刻具体的异常属性。
附图说明
[0007]图1是本专利技术基于相似度的多元时间序列异常检测与诊断方法的流程示意图。
具体实施方式
[0008]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0009]在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0010]在本专利技术的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0011]本专利技术公开了一种基于相似度的多元时间序列异常检测与诊断方法,在一种优选实施方式中,流程示意图如图1所示,包括:
[0012]步骤S1,获取待测试的多元时间序列X={X1,...,X
t
,...,X
T
},X
t
表示t时刻N维属性向量矩阵,T表示时间戳长度,1≤t≤T。待测试的多元时间序列优选但不限于为物联网系统中多个时间点采集的N路传感器信号集合,每个传感器信号作为一个属性数据;或者为Intel发布的大数据基准测试HiBench,包含26个指标,如网络传输速率、网络TCP等待时间、每秒CPU I/O等待时间等指标,每个指标作为一个属性数据;或者为来自一个大型互联网公司的服务器机器数据集,该集群系统数据集是通过检测许多具有相同状态的机器而生成,一个机器作为一个属性。具体的,可设置一个数据采集设备,该数据采集设备用于从物联网传感器或Intel网站或互联网公司的服务器集群采集多元时间序列数据并存储,本方法执行时从数据采集设备读取多元时间序列数据。
[0013]步骤S2,结合基本概率分配方法和谷本测量方法获取每个时刻的N维属性向量矩阵的相似度矩阵,获取的相似度矩阵具有良好的对称性,该方法可以获取到原始数据中更多信息,并且能够获取多元时间序列属性之间的可解释关系。
[0014]优选地,在步骤S2中,获取t时刻N维属性向量矩阵的相似度矩阵的过程包括:
[0015]步骤S21,获取预训练样本集Z={z1,...,z
m
,...,z
M
},z
m
表示第m个用于训练的N维属性向量矩阵,1≤m≤M;基于预训练样本集构建N维向量矩阵中每维属性相对每个检测类别的高斯型隶属度函数,检测类别包括正常和异常两种。进一步优选地,第n个属性相对检
测类别c

的高斯隶属度函数为:
[0016][0017]其中,x表示待测试样本的第n个属性值;表示预训练样本集中所有样本中属于检测类别c

的第n个属性值的均值;表示预训练样本集所有样本中属于检测类别c

的第n个属性值的标准差,在步骤S21中求解出第n个属性相对每个检测类别的高斯隶属度函数,即正常类别的高斯隶属度函数和异常类别的高斯隶属本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相似度的多元时间序列异常检测与诊断方法,其特征在于,包括:步骤S1,获取待测试的多元时间序列X={X1,...,X
t
,...,X
T
},X
t
表示t时刻N维属性向量矩阵,T表示时间戳长度,1≤t≤T;步骤S2,结合基本概率分配方法和谷本测量方法获取每个时刻的N维属性向量矩阵的相似度矩阵;步骤S3,利用基于注意力机制的重构模型重构每个时刻的相似度矩阵,获得每个时刻的重构矩阵;步骤S4,比较每个时刻的相似度矩阵和重构矩阵得到该时刻的相似误差矩阵,依次判断相似误差矩阵中每个元素是否异常,统计相似误差矩阵中异常元素数量并将所述异常元素数量作为对应时刻的异常分数;步骤S5,判断每个时刻的异常分数是否达到第一阈值,若达到第一阈值则认为该时刻的N维属性向量矩阵异常,进一步根据该时刻的相似误差矩阵中异常元素分布确定异常属性。2.如权利要求1所述的基于相似度的多元时间序列异常检测与诊断方法,其特征在于,在步骤S2中,获取t时刻N维属性向量矩阵的相似度矩阵的过程包括:步骤S21,获取预训练样本集Z={z1,...,z
m
,...,z
M
},z
m
表示第m个用于训练的N维属性向量矩阵,1≤m≤M;基于预训练样本集构建N维向量矩阵中每维属性相对每个检测类别的高斯型隶属度函数,检测类别包括正常和异常两种;步骤S22,匹配t时刻N维向量矩阵X
t
和高斯型隶属度函数,并对匹配结果进行融合获得t时刻N维向量矩阵X
t
中每维属性相对计算类别c的基本概率分配,计算类别c包括正常、异常和正常或异常三种;步骤S23,根据t时刻N维向量矩阵X
t
中每维属性的基本概率分配迭代获取X
t
中该维属性相对每个计算类别的不确定性度;步骤S24,计算t时刻N维向量矩阵X
t
中任意两个属性的相似度,获得t时刻N维属性向量矩阵的相似度矩阵。3.如权利要求2所述的基于相似度的多元时间序列异常检测与诊断方法,其特征在于,在步骤S21中,第n个属性相对检测类别c

的高斯隶属度函数为:其中,x表示待测试样本的第n个属性值;表示预训练样本集中所有样本中属于检测类别c

的第n个属性值的均值;表示预训练样本集所有样本中属于检测类别c

的第n个属性值的标准差;n∈[1,N]。4.如权利要求3所述的基于相似度的多元时间序列异常检测与诊断方法,其特征在于,在步骤S23中,求取t时刻N维向量矩阵X
t
中第n维属性相对计算类别的不确定性度的过程包括:步骤S321,初始化参数:设置变量表示t时刻N维向量矩阵X
t
中第n维属性相对计算类别c的不确定性度,令的初始迭代值为X
t
中第n维属性相对计算类别c的基本概率分配
设p为迭代次数,初始值为1;计算中间变量其中,当计算类别c为正常或者异常时,|c|=1,当计算类别c为正常或异常时,|c|=2;θ表示计算类别c的取值集合,θ={正常,异常,正常或异常};步骤S322,按照如下公式计算的p次迭代值:步骤S323,计算迭代增量若满足Δ<ε,则停止迭代,将作为输出,若不满足Δ<ε,令p=p+1,返回继续执行步骤S322。5.如权利要求4所述的基于相似度的多元时间序列异常检测与诊断方法,其特征在于,所述步骤S24包括:步骤S241,按照如下公式求取t时刻N维向量矩阵X
t
中第n维属性和第n

维属性之间的相似度Sim
t
(n,n

):其中,n

∈[1,N],表示t时刻N维向量矩阵X
t
中第n

维属性相对计算类别c的不确定性度;步骤S242,利用t时刻N维向量矩阵X
t
中所有任意属性之间的相似度组建t时刻相似度矩阵S
t
,S
t
的大小为N
×
N。6.如权利要求3或4或5所述的基于相似度的多元时间序列异常检测与诊断方法,其特征在于,在步骤S3中,所述重构模型包括:张量获取模块:采用不同长度的滑动窗口划分t时刻及t时刻以前的相似度矩阵获得不同大小的窗口矩阵,组合所有窗口矩阵获得t时刻张量χ
t
;多层卷积模块,对t时刻张量进行下采样;基于注意力的网络模块,将下采样后的相似度矩阵按行拆分成行向量,将所有行向量输入多头注意力网络,多...

【专利技术属性】
技术研发人员:范琪琳徐铭泽熊志英卢宇航雷祥李秀华熊庆宇文俊浩
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1