一种数据驱动的云平台系统的异常诊断方法及装置制造方法及图纸

技术编号:36753926 阅读:11 留言:0更新日期:2023-03-04 10:43
本发明专利技术公开了尤其涉及一种数据驱动的云平台系统的异常诊断方法及装置,涉及计算机技术领域,方法包括S1构建异常诊断模型;S2获取训练数据集,并导入到异常诊断模型进行训练优化;S3获取云平台系统的实时检测数据,并导入到优化后的异常诊断模型,得到第一损失和第二损失;S4根据第一损失和第二损失确定云平台系统的异常分数;S5根据异常分数判断云平台系统的异常;基于卷积神经网络对抗性训练和POT动态阈值选择构造深度网络模型对多元时间序列进行异常检测,并且添加了基于每个数据点进行异常归因矩阵计算的异常解释模块,在云平台中的高维、复杂的数据中,有效检测数据异常,并能给出异常在云平台数据中最有可能发生的维度。给出异常在云平台数据中最有可能发生的维度。给出异常在云平台数据中最有可能发生的维度。

【技术实现步骤摘要】
一种数据驱动的云平台系统的异常诊断方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种数据驱动的云平台系统的异常诊断方法及装置。

技术介绍

[0002]经过几十年的发展,从Christopher Strachey在论文中首次提出虚拟化概念到如今,云计算已经从一组有前途的虚拟化和数据中心技术发展为向最终客户提供计算即服务的综合范式[1]。并且具有强大的计算能力,允许用户以多种方式访问 和执行云计算,且根据需要快速提供资源。至此,云计算能使计算能力像商品般流通,便利我们的生活,其具有以下几个主要特点:

规模大,云供应商拥有成百上千万台的服务器来给用户提供超强的计算能力。

虚拟化,只需要一部手机或者一台电脑就能满足我们的需求。

通用性,在“云”的支撑下,云计算可以支持多种不同应用的运行。

可扩展性,云计算或是云服务都具有动态规模,可以满足用户增长的需求。

按需服务,云计算相当于一个计算资源池,用户可以根据自己的需求进行购买。然而,随着数据量和网络应用范围的急剧增加,云平台的部署越来越多,需要处理的数据呈指数级增长,这些都需要依赖云计算系统的可靠性。
[0003]在初始阶段,研究人员通过分析系统指标(如I/O请求数,内存使用率,吞吐率等)提出了单变量时间序列异常检测方法。但随着云系统复杂性的增加,云的性能监控数据都是以多元时间序列存在的,例如监控cpu异常状态时需要收集用户空间占用cpu百分比,空闲cpu百分比,等待输入输出的cpu时间百分比,cpu使用总的百分比等不同维度数据。因此为了提高云计算系统的可靠性,对其所收集的多元时间序列进行异常检测以及检测以后对异常的解释或是对异常的发生进行溯源都是当前研究的热点问题之一[3]。
[0004]近年来,国内外相关研究人员在多变量时间序列异常检测和异常解释方面取得的相当大的进展,根据提出的时间,时间序列异常检测算法主要分为以下两类:
[0005]1.传统的时间序列异常检测方法。Principal Component Analysis(PCA)[4]方法利用特征值的权重计算样本点的特征值对应的特征向量距离差,从而计算出数据值与该方向的偏差程度。它根据每个方向的偏差程度累计来识别异常。Local Outlier Factor(LOF)[5]是局部离群因子检测方法,给数据集中的每个点都会计算一个离群因子,通过比较离群因子是否接近于1来确定异常,若远大于1则认定为异常,接近于1则为正常。Copula

based outlier detection(COPOD)[6]基于copula统计概率函数对多个随机变量间的依赖关系进行建模,通过经验累计分布来得到empirical copula,进而估算各个维度上的尾端概率。OneClass SVM(OCSVM)[7]旨在学习正常数据的决策边界,同时考虑一些异常值。如果数据是二维的,就是找一个超平面来划分正常数据和一些异常值,如果是多维数据,就是找一个曲面来划分。通过观察数据点是否在决策边界内来识别异常。
[0006]2.基于深度学习的异常检测方法。Multivariate Anomaly Detection with GAN(MAD

GAN)[8],其基本架构类似于之前的生成对抗网络(GAN),MAD

GAN采用长短期循环神经网络作为GAN学习的基本模型来分析多变量时间序列数据的时间相关性。它的优点是不
需要为似然估计引入下界,只通过对多个时间序列之间的非线性关联进行建模来进行异常检测。OmniAnomaly[9]提出了一种动态选择阈值(POT)的方法,并使用随机循环神经网络和平面归一化流来生成重建概率。UnSupervised Anomaly Detection(USAD)[10]使用三个基础自编码器结合对抗性训练风格来检测异常。Multivariate Time

Series Anomaly Detection via Graph Attention Network(MTAD

GAT)[11]通过结合预测和重建方法共同构建模型,使用图注意力网络对特征和时间相关性进行建模,并将其传递给GRU网络(LSTM的简化版本)。Deep Transformer Networks for Anomaly Detection(TranAD)[12]是结合Transformer进行异常检测的典型代表。它使用注意机制来学习时间趋势,并结合与模型无关的元学习,即使在有限的数据集下也能保证其性能,仍然通过重构误差来判断异常。
[0007]在异常检测之后,如何解释检测到的异常一直是研究人员关注的焦点,在实际生产当中有非常大的应用价值。Multi

Scale Con

volutional Recurrent Encoder

Decode(MSCRED)[13]中计算了异常严重程度,使用不同的通道宽度来捕获短期、中期和长期异常。OmniAnomaly[9]使用HitRate@P\%来衡量模型的诊断性能。TranAD[12]在此基础上增加了归一化累计折扣NDCG@P\%。[14]中提出了贝叶斯网络,用于对多个网络和系统的物理特征进行因果关系检测。在[15]中使用无监督方法来减少异常特征空间以连续隔离异常。
[0008]由于异常本身的复杂性和未知性,以及静态阈值设置的局限性,因此,现有的异常检测方法仍然存在以下不足:1)对于云平台多元时间序列中与正常数据相似的轻微异常检测性能不足。2)过于依赖研究人员对阈值的经验判断。3)缺少异常解释部分的工作或没有直观的解释异常,不能帮助研究人员做进一步决策。

技术实现思路

[0009]本专利技术的目的就在于为了解决上述问题设计了一种数据驱动的云平台系统的异常诊断方法及装置。
[0010]本专利技术通过以下技术方案来实现上述目的:
[0011]一种数据驱动的云平台系统的异常诊断方法,包括:
[0012]S1、构建异常诊断模型,异常诊断模型包括输入层、卷积自动编码器、第一CNN解码器、第二CNN解码器和输出层,输入层用于输入训练数据集或实时检测数据,输出层用于输出卷积自动编码器与第一CNN解码器和第二CNN解码器的损失,输入层的输出与卷积自动编码器的输入连接,卷积自动编码器的输出分别与第一CNN解码器和第二CNN解码器的输入连接,第一CNN解码器的输出与卷积自动编码器的输入连接,第一CNN解码器和第二CNN解码器的输出均与输出层的输入连接;
[0013]S2、获取训练数据集,并导入到异常诊断模型进行训练优化;
[0014]S3、获取云平台系统的实时检测数据,并导入到优化后的异常诊断模型,得到第一损失和第二损失;
[0015]S4、根据第一损失和第二损失确定云平台系统的异常分数;
[0016]S5本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据驱动的云平台系统的异常诊断方法,其特征在于,包括:S1、构建异常诊断模型,异常诊断模型包括输入层、卷积自动编码器、第一CNN解码器、第二CNN解码器和输出层,输入层用于输入训练数据集或实时检测数据,输出层用于输出卷积自动编码器与第一CNN解码器和第二CNN解码器的损失,输入层的输出与卷积自动编码器的输入连接,卷积自动编码器的输出分别与第一CNN解码器和第二CNN解码器的输入连接,第一CNN解码器的输出与卷积自动编码器的输入连接,第一CNN解码器和第二CNN解码器的输出均与输出层的输入连接;S2、获取训练数据集,并导入到异常诊断模型进行训练优化;S3、获取云平台系统的实时检测数据,并导入到优化后的异常诊断模型,得到第一损失和第二损失;S4、根据第一损失和第二损失确定云平台系统的异常分数;S5、根据异常分数判断云平台系统的异常。2.根据权利要求1所述的一种数据驱动的云平台系统的异常诊断方法,其特征在于,在S2中包括:S21、获取训练数据集,并进行归一化处理后输入到异常诊断模型;S22、卷积自动编码器进行编码获得第一编码信息;S23、第一CNN解码器和第二CNN解码器分别对第一编码信息进行特征重构并获得第...

【专利技术属性】
技术研发人员:陈鹏宋雨佳赵志明辛茹月单文煜陈娟
申请(专利权)人:衢州海易科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1