【技术实现步骤摘要】
一种基于多元时序流数据的无监督异常检测分析解决方法
[0001]本专利技术属于机器学习异常检测领域,具体是一种基于多元时序流 数据的无监督异常检测分析解决方法。
技术介绍
[0002]异常是与观测值本体有较大差异的观测值个体。异常检测作为数 据分析中的一个方向,面临了许多挑战:数据为无标签的流型数据, 通常由多种设备产生,是多维向量,需要使用无监督方法学习正常数 据维度之间和历史数据之间的统计分布。流状态的时间序列数据存在 概念漂移或变更点,如增加零部件或工艺流程的改变,需要及时的学 习到这些改变。有些时候我们需要找出问题所在,是哪一个指标出现 了波动,为此,我们需要一个维度粒度的异常分析算法。并且我们假 设要尽量少,同时要高效。
[0003]传统的深度学习通常为批处理方式,预先给出一个训练数据集合 进行离线学习,得到一个训练好的模型,并将测试集同样以批处理形 式喂入网络进行异常检测,这种方式时间和空间成本高,可伸缩性差, 因为模型要从头开始重新训练新的训练数据。
[0004]相较于批处理算法,在线学习的数据 ...
【技术保护点】
【技术特征摘要】
1.一种基于多元时序流数据的无监督异常检测分析解决方法,其特征在于该方法的实现包括三个阶段:离线训练阶段、在线检测阶段和智能异常分析阶段;模型利用深度贝叶斯网络捕获多条序列间隐含关系,利用膨胀卷积捕获时间方向上的隐含关系;当流数据过来时自动计算阈值,进行异常分类;并使用异常反转机制捕获概念漂移;之后通过串行或并行分析最可能出现异常的不定数维度,输出它们并可视化。2.根据权利要求1所述的一种基于多元时序流数据的无监督异常检测分析解决方法,其特征在于该方法实现具体如下:一、离线预训练阶段:步骤1:将历史正常数据预处理,设定窗口大小,封装成批次,作为无监督训练集;步骤2:模型训练;用步骤1获取的训练集对整个模型进行训练,获得所需参数W
*
‑
s、b
*
‑
s、φ
‑
s、θ
‑
s以及训练集的异常得分;编码器模块中,使用滑动窗口机制,将整个训练集的数据批次化、窗口化;输入的数据表示为{x
t
‑
T+i:t+i
|b<i<e},窗口长度为T+1,批次大小为e
‑
b+1,关注批次中的每一个窗口;接下来,具有若干层的TCN模块捕获输入时间序列的时间依赖模式,输出与输入的x
t
‑
T:t
维度相同的h
t
‑
T:t
;然后计算得到h
t
‑
T:t
的均值向量μ
z
和方差向量σ
z
,通过重参数技术采样得到隐空间向量z0,将z0使用PNF机制通过若干层迭代计算,得到非高斯分布的先验概率分布,整个编码器部分公式如下:公式(1)中第一式展示了TCN模块对时间依赖的捕获;第二式和第三式根据h计算高斯分布的均值向量μ
z
和方差向量σ
z
,其中f
φ
(h)代表ReLU激活函数;第四式根据方差进行采样;均值向量μ
z
来自于线性层,方差向量σ
z
由Soft
‑
Plus激活函数和微小扰动∈生成;第五式和第六式展示了PNF处理隐变量z,z=z
K
;代表服从均值为μ
z
,方差为σ
z
的高斯分布;u
z
,W
z
,b
z
andφ代表步骤2中训练好的模型参数;通过编码器模块,最终将会得到潜在空间序列z
Kt
‑
T:t
;解码器模块p
θ
(x|z)包括随机卷积神经网络层和VAE层,该过程公式化为:
其中,公式(2)中一式展示了随机卷积神经网络模块生成隐藏层序列的过程;公式(2)中二三式与公式(1)中一二式类似,唯一的不同在于生成的过程;重构序列直接从概率分布probability distribution中生成,而不是从Planar NF层中生成;同样的参数和θ代表步骤2中训练完成的模型参数;在该模型的离线训练过程中,对网络参数W
*
‑
s、b
*
‑
s、φ
‑
s、θ
‑
s通过ELBO优化;在离线训练集中,取窗口大小为T+1的时间序列数据;根据蒙特卡洛算法,将采样长度设为L,第1个样本记为1≤l≤L;因此能够定义单个损失函数:其中h
t
=TCN(X
t
‑
T:t
),TCN为随机卷积神经网络的范式,表示为x
t
的先验概率服从的先验概率服从代表x
t
在满足q
φ
【专利技术属性】
技术研发人员:司展宇,樊谨,汪森,汪炜杰,孙丹枫,邬惠峰,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。