System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于度量间和时间维度选择的KPI数据降维方法、电子设备及存储介质技术_技高网

基于度量间和时间维度选择的KPI数据降维方法、电子设备及存储介质技术

技术编号:41124495 阅读:4 留言:0更新日期:2024-04-30 17:51
基于度量间和时间维度选择的KPI数据降维方法、电子设备及存储介质,属于异常检测处理技术领域。为在多维KPI异常检测中提高精度和效率,本发明专利技术多维KPI数据集进行低方差过滤处理,得到预处理的多维KPI数据集;进行度量间维度选择处理,包括使用时间序列编码压缩KPI序列,然后使用均值漂移聚类保留相关性维度,得到度量间维度选择的多维KPI数据集;对预处理的多维KPI数据集进行时间维度选择处理,包括使用3‑sigma标注各维度KPI数据的离群值,然后使用样本熵选择离群值符合真实异常分布的维度,得到时间维度选择的多维KPI数据集;将两个数据集取并集得到基于度量间和时间维度选择的KPI数据降维数据集。

【技术实现步骤摘要】

本专利技术属于异常检测处理,具体涉及基于度量间和时间维度选择的kpi数据降维方法、电子设备及存储介质。


技术介绍

1、kpi(关键性能指标)本质上是由机器产生的一系列时间序列。kpi按时间序列进行监控,测量包括cpu利用率、在线用户数和作业数等指标。它反映了云服务和基础设施的运营状态。随着云服务的快速发展,在服务运营过程中不断产生多维度的kpi。近年来,为了满足有效异常检测的需求,基于深度学习的多变量kpi异常检测(multivariate kpianomalydetection)已成为主流趋势。随着kpi维度数量的增长,异常检测中的冗余维度也在增加。具有高维度复杂性的数据增加了计算成本和存储需求。这种现象被称为“维度诅咒”,导致了异常检测的精确度降低和训练时间增大。因此,数据降维方法在多维kpi异常检测中非常重要。然而,尽管针对时间序列数据存在大量的数据降维方法,目前并没有专门针对kpi数据的降维方法研究。

2、以pca为代表的特征提取方法,特征提取方法将原始数据转换或映射到所提取的特征上。pca主成分分析采用正交变换,将由线性相关变量表示的观测数据转换为由独立自变量表示的少数数据。pca的思想是将n维特征映射到k维(k<n)上,这是一种全新的正交特征。这个k维特征被称为主成分,是一个重建的k维特征,而不是从n维特征中去除剩余的n-k维特征。

3、以svm-rfe,csfs等为代表的特征选择方法,特征选择方法通过删除冗余特征来去除原始数据集中的特征数量,从而更好地保留了原始数据集的特征。特征选择方法不会改变原有特征的值,新生成的k个特征由原始n维特征中删去n-k维特征得到。

4、但是,无论是特征提取还是特征选择方法,往往是针对一般的时间序列而设计,但在kpi异常检测中,比起时间序列,模型更注重离群点和异常值。离群点指的是那些显著偏离周围点的值,如果离群点与真正的异常点符合的较好,那么异常检测的精确度就会提高,反之如果存在很多非异常值的离群点,就会产生大量的假阳性。


技术实现思路

1、本专利技术要解决的问题是在多维kpi异常检测中提高精度和效率,提出基于度量间和时间维度选择的kpi数据降维方法、电子设备及存储介质。

2、为实现上述目的,本专利技术通过以下技术方案实现:

3、一种基于度量间和时间维度选择的kpi数据降维方法,包括如下步骤:

4、s1.采集关键性能指标的时间序列数据,构成多维kpi数据集;

5、s2.对步骤s1得到的多维kpi数据集进行低方差过滤处理,得到预处理的多维kpi数据集;

6、s3.对步骤s2得到的预处理的多维kpi数据集进行度量间维度选择处理,包括使用时间序列编码压缩kpi序列,然后使用均值漂移聚类保留相关性维度,得到度量间维度选择的多维kpi数据集;

7、s4.对步骤s2得到的预处理的多维kpi数据集进行时间维度选择处理,包括使用3-sigma标注各维度kpi数据的离群值,然后使用样本熵选择离群值符合真实异常分布的维度,得到时间维度选择的多维kpi数据集;

8、s5.将步骤s3得到的度量间维度选择的多维kpi数据集和步骤s4得到的时间维度选择的多维kpi数据集取并集,得到基于度量间和时间维度选择的kpi数据降维数据集。

9、进一步的,步骤s1得到的多维kpi数据集为m’维度的关键性能指标的时间序列x’=[x1,x2,...,xi’,...,xm’],其中得到xi’∈rn×1为第i’个长度为n的时间序列。

10、进一步的,步骤s2将xi’的每个维度计算方差d(xi’),然后去除d(xi’)>threshold的维度,其中threshold为设置的阈值,得到预处理的多维kpi数据集x=[x1,x2,...xi,...xm],其中m为经过低方差过滤处理降维后的维数,xi∈rn×1为第i个长度为n的经过低方差过滤处理降维后时间序列。

11、进一步的,步骤s2中设置阈值为0。

12、进一步的,步骤s3的具体实现方法包括如下步骤:

13、s3.1.使用时间序列编码压缩kpi序列:基于分段聚合近似算法paa,设置分割窗口,然后对分割窗口执行压缩操作,采用平均聚合函数进行压缩,得到时间序列编码压缩后的kpi序列,平均聚合函数的计算表达式为:

14、

15、其中,qi为压缩后的时间点,xj为第j个时间戳对应的时间序列,s为压缩比;

16、得到压缩为长度为w的序列q1,q2,...,qw,w=(n/s+1);

17、s3.2.将步骤s3.1得到的时间序列编码压缩后的kpi序列利用均值漂移聚类保留相关性维度,均值漂移聚类的具体实现方法包括如下步骤:

18、s3.2.1.选择一个初始的窗口大小h和初始的数据点x;

19、s3.2.2.对于数据点x,计算以x为中心,窗口大小为h的邻域内的数据点的密度中心c,计算表达式为:

20、

21、其中,k为核函数,通常使用高斯核函数;

22、s3.2.3.将数据点x向密度中心c进行移动,表达式为:

23、x→c      (3)

24、s3.2.4.重复步骤s3.2.2和s3.2.3直到达到迭代次数的上限,或者当数据点的移动小于设定阈值时停止;

25、s3.2.5.利用步骤s3.2.1-s3.2.4的方法,均值漂移聚类的输入为时间序列编码压缩后的kpi序列,输出为每个维度的聚类标签,经过均值漂移聚类后得到共k个聚类,所有聚类包含的维数表示为[m1,m2,...mk],输出形状为m1×n的kpi矩阵,其中m1为所有被选择的类的总维数,得到度量间维度选择的多维kpi数据集的表达式为:

26、

27、

28、其中,mj为每个聚类包含的维数,f(mj)表示选择mj大于1的聚类。

29、进一步的,步骤s4的具体实现方法包括如下步骤:

30、s4.1.对步骤s2得到的预处理的多维kpi数据集进行时间维度选择处理,使用3-sigma标注各维度kpi数据的离群值,3-sigma阈值的计算表达式为:

31、upper=mean+3*std     (6)

32、lower=mean-3*std     (7)

33、其中,upper和lower分别为上阈值和下阈值,mean为所有时间点的平均值,std为所有时间点的标准差;

34、将步骤s2得到的预处理的多维kpi数据集中超过阈值范围的点将被标记为离群值,得到形状为m×n的标签矩阵,其中离群值标记为1,正常点标记为零,得到标签列表;

35、s4.2.使用样本熵对步骤s4.1得到的标签列表进行计算,计算所有标签列表的样本熵后,使用箱形图box-plot方法设置阈值,然后选择样本熵小于阈值的kpi序列作为时间维度本文档来自技高网...

【技术保护点】

1.一种基于度量间和时间维度选择的KPI数据降维方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于度量间和时间维度选择的KPI数据降维方法,其特征在于,步骤S1得到的多维KPI数据集为M’维度的关键性能指标的时间序列X’=[X1,X2,…,Xi’,…,XM’],其中得到Xi’∈RN×1为第i’个长度为N的时间序列。

3.根据权利要求2所述的一种基于度量间和时间维度选择的KPI数据降维方法,其特征在于,步骤S2将Xi’的每个维度计算方差D(Xi’),然后去除D(Xi’)>threshold的维度,其中threshold为设置的阈值,得到预处理的多维KPI数据集X=[X1,X2,…Xi,…XM],其中M为经过低方差过滤处理降维后的维数,Xi∈RN×1为第i个长度为N的经过低方差过滤处理降维后时间序列。

4.根据权利要求3所述的一种基于度量间和时间维度选择的KPI数据降维方法,其特征在于,步骤S2中设置阈值为0。

5.根据权利要求4所述的一种基于度量间和时间维度选择的KPI数据降维方法,其特征在于,步骤S3的具体实现方法包括如下步骤:

6.根据权利要求5所述的一种基于度量间和时间维度选择的KPI数据降维方法,其特征在于,步骤S4的具体实现方法包括如下步骤:

7.根据权利要求6所述的一种基于度量间和时间维度选择的KPI数据降维方法,其特征在于,步骤S5将步骤S3得到的度量间维度选择的多维KPI数据集和步骤S4得到的时间维度选择的多维KPI数据集取并集,最终得到M3×N的KPI维数。

8.一种电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-7任一项所述的一种基于度量间和时间维度选择的KPI数据降维方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的一种基于度量间和时间维度选择的KPI数据降维方法。

...

【技术特征摘要】

1.一种基于度量间和时间维度选择的kpi数据降维方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于度量间和时间维度选择的kpi数据降维方法,其特征在于,步骤s1得到的多维kpi数据集为m’维度的关键性能指标的时间序列x’=[x1,x2,…,xi’,…,xm’],其中得到xi’∈rn×1为第i’个长度为n的时间序列。

3.根据权利要求2所述的一种基于度量间和时间维度选择的kpi数据降维方法,其特征在于,步骤s2将xi’的每个维度计算方差d(xi’),然后去除d(xi’)>threshold的维度,其中threshold为设置的阈值,得到预处理的多维kpi数据集x=[x1,x2,…xi,…xm],其中m为经过低方差过滤处理降维后的维数,xi∈rn×1为第i个长度为n的经过低方差过滤处理降维后时间序列。

4.根据权利要求3所述的一种基于度量间和时间维度选择的kpi数据降维方法,其特征在于,步骤s2中设置阈值为0。

...

【专利技术属性】
技术研发人员:舒燕君左德承张展高天润温东新董剑冯懿封威
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1