基于数据增强的物联感知云数据中心异常定位方法技术

技术编号:37682729 阅读:11 留言:0更新日期:2023-05-28 09:36
本发明专利技术公开了基于数据增强的物联感知云数据中心异常定位方法,涉及云数据领域,包括S1获取训练数据集;S2构建异常检测模型;S3训练数据集导入异常检测模型进行优化训练;S4实时获取云数据中心的原始数据,并导入优化后的异常检测模型获得原始数据的预测值;S5根据预测值和原始数据的真实值判断云数据中心的原始数据的异常;利用数据增强

【技术实现步骤摘要】
基于数据增强的物联感知云数据中心异常定位方法


[0001]本专利技术涉及云数据领域,尤其涉及一种基于数据增强的物联感知云数据中心异常定位方法。

技术介绍

[0002]1991年美国麻省理工学院(MIT)的KevinAshton教授首次提出物联网的概念。1999年美国麻省理工学院建立了“自动识别中心(Auto

ID)”,提出“万物皆可通过网络互联”,阐明了物联网的基本含义[1]。早期的物联网是依托射频识别(RFID)技术的物流网络,随着技术和应用的发展,物联网的内涵已经发生了较大变化。物联网是基于互联网、传统电信网等信息承载体,通过信息传感设备,按约定的协议,将任何物体与网络相连接,物体通过信息传播媒介进行信息交换和通信,以实现智能化识别、定位、跟踪和监管的一种互联互通的网络。其应用领域主要包括运输和物流、工业制造、健康医疗、智能环境(家庭、办公、工厂)等,具有十分广阔的市场前景。物联网具有以下几个特征:

整体感知,物联网上部署多种类型传感器,每个传感器都是一个信息源,不同类别的传感器所捕获的信息内容和信息格式不同。传感器获得的数据具有实时性,按一定的频率周期性地采集环境信息,不断更新数据。

可靠传输,物联网技术的重要基础和核心仍旧是互联网,通过各种有线和无线网络与互联网融合,将物体的信息实时准确地传递出去。

智能处理,物联网将传感器和智能处理相结合,利用云计算、模式识别等各种智能技术,扩充其应用领域。从传感器获得的海量信息中分析、加工和处理有意义的数据,以适应不同用户的不同需求,发现新的应用领域和应用模式。但是,随着大数据技术的不断发展和应用,从物联网中实时采集的数据量就呈指数级增长。并且有少部分的数据是含有异常甚至还会是含有噪声干扰的数据,除非它们被处理,以获得有价值的东西。
[0003]数据增强技术是从现有的训练样本中生成新的训练样本的技术(可以增加表示了不同特征的数据),广泛使用于图像数据,但是在多元时间序列异常检测中应用较少。使用数据增强可以增加训练数据,提高模型泛化能力,避免样本不均衡,还可以避免神经网络过拟合,提升模型鲁棒性。这对于云数据中心的物联网数据来说,很大程度上给异常检测带来显著的效果。
[0004]在物联网发展初期阶段,研究人员需要处理的实时数据量是很少的,需要分析的时间序列数据也还是单变量形式,被监控的对象产生的时间序列异常也能很快、很准确的被检测出来。但是随着物联网和大数据的发展壮大,海量、非平稳、非线性和高噪声的实时数据被采集到,多数都是以多元时间序列的形式存储在云数据中心(云数据中心是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备),这又给研究人员带来了极大的挑战。不仅要对存储在云数据中心的海量实时数据进行预处理,还要对处理之后的多元时间序列进行异常检测(异常往往都是伴随着随机、稀缺等特性的),检测的目的还是为了监视被监控的对象的状态,从而判断云数据中心是否处于正常运行状态,以及物联网中是否存在异常需要进行处理。因此,为了提高物联网和云
数据中心的可靠性,对其所收集的实时多元时间序列进行异常检测是当前研究的热点问题之一。
[0005]近年来,国内外相关研究人员在多元时间序列异常检测方面取得了相当大的进展,根据是否使用神经网络,时间序列异常检测算法主要分为以下两类:
[0006]1、传统的时间序列异常检测方法。3

sigma[2]方法是当所选数据服从正态分布时,异常值超过3倍标准差就可视其为异常值。ARIMA[3]整合移动平均自回归模型是让模型学习一段历史数据,然后预测,通过比对真实值与预测值的偏差来判断是否为异常。S

H

ESD[4]是由Twitter发布的一种季节性异常检测方法。Histogram

based Outlier Score(HBOS)[5]假设数据集的每个维度相互独立,然后对每个维度进行区间划分,区间的密度越高,异常评分越低。Principal Component Analysis(PCA)[6]方法利用特征值的权重计算样本点的特征值对应的特征向量距离差,从而计算出数据值与该方向的偏差程度。它根据每个方向的偏差程度累计来识别异常。
[0007]2、基于深度学习的异常检测方法。Local Neural Transformations(LNT)[7]方法使用了数据增强技术,是在CPC架构的基础之上融合局部神经转换并根据提出的动态确定对比损失来检测异常。Neural Transformation Learning for Anomaly Detection(NeuTraL AD)[8]核心思想是将变换后的数据嵌入到一个语义空间中,使得变换后的数据仍然与其未变换的形式相似,而不同的变换很容易区分。然后将这种可学习的变换用于异常检测。Multi

Scale Con

volutional Recurrent Encoder

Decode(MSCRED)[9]模型是通过卷积编码器和解码器来重构签名矩阵,并进一步利用残差签名矩阵来检测异常。OmniAnomaly[10]模型在考虑了时间依赖性和随机性的同时,学习潜在表示,以捕获多元时间序列的正常模式。并将具有低重建概率的模式视为异常。Deep Transformer Networks for Anomaly Detection(TranAD)[11]是结合Transformer进行异常检测的典型代表。它使用注意机制来学习时间趋势,并结合与模型无关的元学习,即使在有限的数据集下也能保证其性能,仍然通过重构误差来判断异常。Multivariate Anomaly Detection with GAN(MAD

GAN)[12]是利用LSTM

RNN作为GAN学习的基础模型来分析多个数据流之间复杂多元依赖性,并使用GAN训练的生成器和鉴别器来检测异常,此模型采用新的异常分数(结合每个测试样本的鉴别结果和重建残差)。
[0008]由于实时存储在云数据中心的物联网时间序列数据的时间特性和空间特性之间相互影响,以及异常本身的随机性和稀缺性,可能会导致假阳率的增加且异常标签的缺乏使异常难以检测。因此,现有的异常检测方法仍然存在以下不足:

由于物联网监控对象的复杂性和高动态性,采集的实时数据的非平稳、非线性和高噪声等特性使得时间序列不同时间特性和空间特性之间的相关性信息提取难度增加,导致异常检测的假阳率增加。

面对高维、海量的数据,现有的基于深度学习的检测方法主要针对特定场景才能提高异常检测的精度,这还远远不能满足复杂物联网的要求。

技术实现思路

[0009]本专利技术的目的就在于为了解决上述问题设计了一种基于数据增强的物联感知云数据中心异常定位方法。
[0010]本专利技术通过以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于数据增强的物联感知云数据中心异常定位方法,其特征在于,包括:S1、获取训练数据集X=(x1,...,x
n
)
T

n
×
T
,其中n表示多元时间序列的最大长度,T表示多元时间序列的特征维度数;S2、构建异常检测模型,异常检测模型包括数据增强

神经转换层、ConvLSTM编码层和基于注意力的自回归LSTM网络层,数据增强

神经转换层为包括一个残差块的残差网络;S3、训练数据集导入异常检测模型进行优化训练;S4、实时获取云数据中心的原始数据,并导入优化后的异常检测模型获得原始数据的预测值;S5、根据预测值和原始数据的真实值判断云数据中心的原始数据的异常。2.根据权利要求1所述的基于数据增强的物联感知云数据中心异常定位方法,其特征在于,残差块是串联两个卷积核为3
×
3的2D卷积,一个2D卷积包括instance normalization层和RELU激活层,分别并使用BatchNormalization批标准化和relu激活函数,ConvLSTM编码层包括两个ConvLSTM单元,ConvLSTM单元中使用64个过滤器和1
×
3大小的卷积核,激活函数使用relu激活函数,基于注意力的自回归LSTM网络层依次包括第一自注意层、LSTM网络和第二自注意层。3.根据权利要求2所述的基于数据增强的物联感知云数据中心异常定位方法,其特征在于,在S3中包括:S31、导入异常检测模型的数据经过数据增强

神经转换层得到不同的转换视图;S32、将不同的视图整合在一起并送入ConvLSTM编码层中,分离视图并提取时间特征和空间特征,得到潜在表征;S33、潜在表征通过基于注意力的自回归LSTM网络层得到预测值;S34、使用预测值和真实值之间的均方误差作为异常检测模型的损失函数;S35、采用注意力机制对数据进行权重计算,根据计算出来的权重提取有用信息和降维处理,表示为其...

【专利技术属性】
技术研发人员:陈鹏张瑞陈娟赵志明牛宪华熊玲
申请(专利权)人:衢州海易科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1