当前位置: 首页 > 专利查询>闽江学院专利>正文

基于负相关性的受污染时间序列无监督异常检测方法技术

技术编号:38895037 阅读:18 留言:0更新日期:2023-09-22 14:17
本发明专利技术涉及一种基于负相关性的受污染时间序列无监督异常检测方法。利用自动编码器框架内的语义表征和异常检测之间的负相关性来建立软污染校准策略。为了模拟这种负相关性,本发明专利技术引入形态相似性来表示语义,并引入重构一致性来检测异常。首先,根据学习到的高斯分布中生成的代表性正常样本,有效地测量形态相似性。然后,本发明专利技术基于形态相似性与重构一致性之间的负相关性,设计了异常测量校准损失函数,以校准由污染样本造成的异常度量偏差。通过在公开的时间序列数据集上进行实验,结果表明本发明专利技术提出的方法在训练集受到污染的情况下,有效地改善了异常检测性能。有效地改善了异常检测性能。有效地改善了异常检测性能。

【技术实现步骤摘要】
基于负相关性的受污染时间序列无监督异常检测方法


[0001]本专利技术属于时间序列异常检测
,具体涉及一种基于负相关性的受污染时间序列无监督异常检测方法。

技术介绍

[0002]近年来,科学技术的飞速发展和人类社会的进步为各个领域积累了丰富多样的数据。其中,时间序列数据占据了相当大的比例,包括心电图医疗记录、网络流量记录和股价行情等。如何充分挖掘和利用这些时间序列数据已经成为数据挖掘领域研究的一个热点。在某些领域中,异常数据通常蕴含着更有价值的信息,因此时间序列异常检测的研究引起了越来越多的关注。
[0003]目前,有监督学习作为一种理论完备的方法在时序数据异常检测的研究中得到了广泛应用。然而,有监督学习需要大量标记的训练数据,这个过程既耗时又耗费人力。因此,无监督学习凭借其能够从无类别标记数据中提取有用信息的特点,在时序数据异常检测领域展现出广阔的研究前景,但同时也面临着巨大的挑战。
[0004]近年来,许多学者在无监督时序异常检测的研究中做出了重要的努力。其中一些方法尝试了传统的基于邻近的算法[1],例如利用距离和密度等空间信息从正常数据中挖掘异常数据,并将离群点定义为异常数据。虽然这些方法易于理解,但适用性有限。最近,随着深度学习的迅猛发展,基于深度卷积神经网络的方法已经被应用于时序数据异常检测的研究[2

4]。这些方法主要从重构误差的角度展开研究,通过生成模型学习数据集的内在特征,依靠数据内部的共性来检测异常点。较大的重构误差被视为异常点的标志。当训练数据足够丰富时,生成模型能够快速收敛。
[0005]在现实场景中,由于标注数据费时且费力,导致数据集容易受到异常污染。传统的无监督时间序列异常检测方法在受污染的训练数据下会产生有偏差的异常度量。目前,大多数现有方法采用硬策略来校准污染数据,即为训练数据分配伪标签。然而,这些硬策略依赖于阈值的选择,导致次优的性能。

技术实现思路

[0006]本专利技术的目的在于解决上述问题,提供一种基于负相关性的受污染时间序列无监督异常检测方法,利用自动编码器框架内的语义表征和异常检测之间的负相关性来建立软污染校准策略。为了模拟这种负相关性,本专利技术引入形态相似性来表示语义,并引入重构一致性来检测异常。首先,根据学习到的高斯分布中生成的代表性正常样本,有效地测量形态相似性。然后,本专利技术基于形态相似性与重构一致性之间的负相关性,设计了异常测量校准损失函数,以校准由污染样本造成的异常度量偏差。通过在公开的时间序列数据集上进行实验,结果表明本专利技术提出的方法在训练集受到污染的情况下,有效地改善了异常检测性能。
[0007]为实现上述目的,本专利技术的技术方案是:一种基于负相关性的受污染时间序列无
监督异常检测方法,利用自动编码器框架内的语义表征和异常检测之间的负相关性来建立软污染校准策略,为模拟这种负相关性,引入形态相似性来表示语义,并引入重构一致性来检测异常;首先,根据学习到的高斯分布中生成的代表性正常样本,有效地测量形态相似性;然后,基于形态相似性与重构一致性之间的负相关性,设计异常测量校准损失函数,以校准由污染样本造成的异常度量偏差。
[0008]在本专利技术一实施例中,该方法实现如下:
[0009]输入一组受污染的样本,x1,x2,x3,

,x
N
,其中包括异常类别的实例;
[0010]使用一个轻量级的编码器网络f将样本映射到低维特征空间;
[0011]采用对抗性训练范式,利用判别器D将低维特征空间的后验分布与高斯分布进行对齐;
[0012]利用解码器g对低维特征空间的样本进行重建,并通过分布中心采样生成具有代表性正常样本;
[0013]计算输入样本与重建样本之间的重建一致性损失以及重建样本与代表性正常样本之间的形态相似性损失以衡量重建样本的质量及重建样本与代表性正常样本之间的相似度;
[0014]将重建一致性损失和形态相似性损失输入异常度量校准损失校准损失利用重建一致性和形态相似性之间的负相关性进行有效校准,以校准由污染样本造成的异常度量偏差。
[0015]在本专利技术一实施例中,代表性正常样本的生成方式具体如下:
[0016]代表性正常样本从低维特征空间的中心区域生成,并符合高斯分布;采用生成式对抗网络GAN框架来实现;首先,引入判别器D,并训练其区分输入样本的特征和从高斯分布中采样的噪声;对抗性损失函数的形式如下:
[0017][0018]其中,噪声向量ω是从高斯分布中采样得到的,μ
z
表示特征的平均值,I
d
表示协方差矩阵,表示对判别器D在输入ω上的输出取对数的期望值;表示从真实数据分布中采样一个样本x,f(x)表示通过编码器网络从样本x中提取特征,表示对判别器D在编码器提取的特征f(x)上的输出取对数的期望值。通过对抗性损失函数迫使特征的分布与高斯分布保持一致;
[0019]为生成代表性正常样本,从学习到的高斯分布中采样随机噪声其中γ是用于控制随机噪声的超参数;通过调整γ的大小,在与概率分布中心不同距离上对随机噪声进行采样;在生成代表性正常样本时,我们使用解码器网络g将随机噪声映射为代表性正常样本即在本专利技术中,我们选择了γ的值为0.1。通过将γ设为较小的值,我们有更高的机会生成具有代表性的正常样本。
[0020]在本专利技术一实施例中,所述校准由污染样本造成的异常度量偏差的具体实现方式如下:
[0021]引入形态相似性损失和重建一致性损失
其中x
i
表示输入样本,表示代表性正常样本,表示x
i
的重建结果;这些损失函数用于量化重建样本质量及重建样本与代表性正常样本之间的相似;
[0022]异常测量校准损失的设计:首先考虑重建的L2损失回归,其目标是最小化重建值和零之间的平方误差;当推断出一个重建平均值为μ、方差为σ2的高斯分布时,对目标进行修改,修改后的目标旨在使重建值为零的概率最大化;因此,利用高斯概率密度函数,将目标表述为以下形式的最大化:
[0023][0024]公式(2)进一步修改为以下形式的最小化:
[0025][0026]公式(3)中显示L2损失部分的构成,它被所削弱,并被的噪声项进一步惩罚;通过放大噪声项,L2损失的影响被削弱,从而使对的惩罚比例更大,有效地防止无限期地最小化重建损失;为确保可靠性并减少表示噪声项的模糊性,利用形态相似性,设考虑重建目标公式(3)产生的异常测量校准损失的表述如下:
[0027][0028]其中,用来表示μ2;
[0029]公式(4)通过利用来对污染样本的施加较小地惩罚,有效阻碍对污染样本的过度拟合;此外,与代表性正常样本相比,异常样本将表现出不同的重建模式,从而导致损失函数中的污染样本的值更高;因此,损失值被其系数调整到较低水平;另一方面,由于重建一致性和形态相似性之间的负相关性,第二个项对较高的值进行惩罚,并防止被无限地最小化。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于负相关性的受污染时间序列无监督异常检测方法,其特征在于,利用自动编码器框架内的语义表征和异常检测之间的负相关性来建立软污染校准策略,为模拟这种负相关性,引入形态相似性来表示语义,并引入重构一致性来检测异常;首先,根据学习到的高斯分布中生成的代表性正常样本,有效地测量形态相似性;然后,基于形态相似性与重构一致性之间的负相关性,设计异常测量校准损失函数,以校准由污染样本造成的异常度量偏差。2.根据权利要求1所述的基于负相关性的受污染时间序列无监督异常检测方法,其特征在于,该方法实现如下:输入一组受污染的样本,x1,x2,x3,

,x
N
,其中包括异常类别的实例;使用一个轻量级的编码器网络f将样本映射到低维特征空间;采用对抗性训练范式,利用判别器D将低维特征空间的后验分布与高斯分布进行对齐;利用解码器g对低维特征空间的样本进行重建,并通过分布中心采样生成具有代表性正常样本;计算输入样本与重建样本之间的重建一致性损失以及重建样本与代表性正常样本之间的形态相似性损失以衡量重建样本的质量及重建样本与代表性正常样本之间的相似度;将重建一致性损失和形态相似性损失输入异常度量校准损失校准损失利用重建一致性和形态相似性之间的负相关性进行有效校准,以校准由污染样本造成的异常度量偏差。3.根据权利要求2所述的基于负相关性的受污染时间序列无监督异常检测方法,其特征在于,代表性正常样本的生成方式具体如下:代表性正常样本从低维特征空间的中心区域生成,并符合高斯分布;采用生成式对抗网络GAN框架来实现;首先,引入判别器D,并训练其区分输入样本的特征和从高斯分布中采样的噪声;对抗性损失函数的形式如下:其中,噪声向量ω是从高斯分布中采样得到的,μ
z
表示特征的平均值,I
d
表示协方差矩阵,表示对判别器D在输入ω上的输出取对数的期望值;表示从真实数据分布中采样一个样本x,f(x)表示通过编码器网络从样本x中提取特征,表示对判别器D在编码器提取的特征f(x)上的输出取对数的期望值;通过对抗性损失函数迫使特征的分布与高斯分布保持一致;为生成代表性正常样本,从学习到的高斯分布中采样随机噪声其中γ是用于控制随机噪声的超参数;...

【专利技术属性】
技术研发人员:李佐勇林晓辉樊好义陈新伟黄训华
申请(专利权)人:闽江学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1