一种调度自动化系统运维异常指标推荐方法及系统技术方案

技术编号:38056296 阅读:11 留言:0更新日期:2023-06-30 11:21
本发明专利技术公开了一种调度自动化系统运维异常指标推荐方法及系统,该方法包括:计算运维指标间的相关性,得到调度自动化系统运维指标相关性矩阵;以及根据异常数据在时间上的连续性,检测出当前运维异常指标;使用调度自动化系统运维指标相关性矩阵计算运维异常指标的异常得分;对异常得分进行过滤和排序给出推荐异常。本发明专利技术方法能够有效消除单个时间点的单个指标的误报,准确识别电网调度自动化系统中服务器节点的运维指标异常,降低运维人员处理海量异常告警的成本。海量异常告警的成本。海量异常告警的成本。

【技术实现步骤摘要】
一种调度自动化系统运维异常指标推荐方法及系统


[0001]本专利技术属于电力系统自动化
,尤其是一种调度自动化系统运维异常指标推荐方法及系统。

技术介绍

[0002]随着调度自动化系统架构的变化,以及大量云计算,大数据,人工智能等新技术的应用,目前的调度自动化系统内部复杂度越来越高,这也导致了运维工作的难度越来越大。传统的人工运维已经难以支撑动辄上百台服务器的运维需求。因此,调度自动化系统的智能运维是一个迫切需要解决的任务。而运维指标异常检测是调度自动化系统智能运维的一个重要方向。智能化的运维指标异常检测就是要通过算法,自动、实时、准确地从监控数据中发现异常,为后续的系统诊断与自愈提供基础。
[0003]由于运维数据异常标注难以及对运维数据异常实时性快速检测的需求,目前工业界对系统运维指标还是以无监督异常检测算法为主。运维指标的无监督异常检测是对系统内每个机器的每个运维指标的最近数据点进行异常检测。通过对数据进行分析计算,识别出最新的数据点相对于之前的点而言是否为孤立的点,把这些孤立的点视为异常点。无监督异常检测会给出被检测数据点的异常排名或者异常分值,依据基于样本之间的距离或样本点所在的密度来判别是否为异常。然而调度自动化系统的运维数据含有大量的数据的抖动和毛刺,这很容易让无监督异常检测产生大量误报。而过高的误报率会给运维人员带来过多的干扰,最后导致智能运维不可用,并且产生大量的告警信息,使得告警人员无法准确定位故障位置。

技术实现思路

[0004]本专利技术的目的在于提供一种调度自动化系统运维异常指标推荐方法及系统,解决现有单指标无监督异常检测方法误报高的问题,降低误报率,保障电网调度自动化系统安全稳定运行。
[0005]为达到上述目的,本专利技术采用的技术方案如下:
[0006]本专利技术提供一种调度自动化系统运维异常指标推荐方法,包括:
[0007]获取调度自动化系统各服务器节点中,以当前时刻为基准的预设时间长度的各运维指标数据序列;
[0008]分别对所述预设时间长度的各运维指标数据序列进行拆分,得到各运维指标的子序列;
[0009]分别对所述各运维指标的子序列进行异常检测,识别出当前时刻的运维异常指标;
[0010]基于当前时刻调度自动化系统运维指标相关性矩阵计算当前时刻的运维异常指标的异常得分;
[0011]基于所述当前时刻的运维异常指标的异常得分进行当前时刻异常指标推荐。
[0012]进一步的,所述各服务器节点的运维指标包括运维指标类别:服务器节点负载、cpu、磁盘、内存、文件句柄和网络;每个运维指标类别包含多个该类别下的运维指标。
[0013]进一步的,所述运维指标的采样间隔为1分钟。
[0014]进一步的,所述获取调度自动化系统各服务器节点中,以当前时刻为基准的预设时间长度的各运维指标数据序列,包括:
[0015]从调度自动化系统信息管理大区的时序库中抽取当前时刻各服务器节点的各运维指标数据;
[0016]对各服务器节点,选取以当前时刻为基准,往前时间窗口T2分钟内的运维指标数据,构成运维指标数据序列。
[0017]进一步的,所述时间窗口T2取值为30分钟。
[0018]进一步的,分别对所述预设时间长度的各运维指标数据序列进行拆分,得到各运维指标的子序列,包括:
[0019]选取运维指标数据序列的最新三个时刻数据m
t
,m
t
‑1,m
t
‑2,
[0020]将运维指标数据序列去除最新三个时刻数据的剩余数据分别与三个时刻数据组合,形成三个子序列,表示如下:
[0021][0022][0023][0024]其中,S
m1
、S
m2
和S
m3
分别表示三个子序列,m
t
表示当前时刻t的运维指标数据,m
t

j
表示当前时刻前j个时刻的运维指标数据,j=1,2,
……
T2。
[0025]进一步的,得到各运维指标的子序列后,还包括:
[0026]对每个子序列进行一阶差分计算,并使用min

max归一化将运维指标数据映射到[0,1]区间,得到预处理后的子序列。
[0027]进一步的,分别对所述各运维指标的子序列进行异常检测,识别出当前时刻的运维异常指标,包括:
[0028]同时采用拉依达准则和局部异常因子算法两种方式对各子序列进行异常检测,如果两种方式均检测出一子序列的最后一个数据为异常点,则该子序列异常;
[0029]如果一运维指标的三个子序列都检测为异常,则判断当前时刻的该运维指标发生异常,为运维异常指标。
[0030]进一步的,所述基于当前时刻调度自动化系统运维指标相关性矩阵计算当前时刻的运维异常指标的异常得分,包括:
[0031]根据各服务器节点的所有运维指标分别构建各服务器节点的运维指标矩阵;
[0032]根据各服务器节点的运维指标矩阵分别构建各服务器节点的运维指标相关性矩阵;
[0033]根据各服务器节点的运维指标相关性矩阵构建调度自动化系统的运维指标相关性矩阵;
[0034]根据调度自动化系统的运维指标相关性矩阵计算各运维异常指标的异常得分如下:
[0035][0036]其中,Score
m
表示运维异常指标m
t
的异常得分,n表示运维异常指标m
t
的相关运维指标个数,m
i

表示第i个相关的运维指标,Sgn(m
i

)表示符号函数,当m
i

为运维异常指标时为1,否则为0,NMI(m,m
i

)表示运维指标m与运维异常指标m
i

之间的相关性值,相关性值从所属子系统的运维指标相关性矩阵中获取。
[0037]进一步的,所述根据各服务器节点的所有运维指标分别构建各服务器节点的运维指标矩阵,包括:
[0038]以同一运维指标类别下的运维指标为列向量,构建各服务器节点的运维指标矩阵,其中,对于单个运维指标,取从当前时刻开始往前时间窗口T1分钟内的数据作为作为列向量。
[0039]进一步的,所述根据各服务器节点的运维指标矩阵分别构建各服务器节点的运维指标相关性矩阵,包括:
[0040]计算各服务器节点的运维指标矩阵中两两指标间的归一化互信息,得到各服务器节点的运维指标相关性矩阵。
[0041]进一步的,所述根据各服务器节点的运维指标相关性矩阵构建调度自动化系统的运维指标相关性矩阵,包括:
[0042]对调度自动化系统内的各服务器节点计算得到的运维指标相关性矩阵进行求和取平均,得到调度自动化系统的运维指标相关性矩阵。
[0043]进一步的,得到调度自动化系统的运维指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种调度自动化系统运维异常指标推荐方法,其特征在于,包括:获取调度自动化系统各服务器节点中,以当前时刻为基准的预设时间长度的各运维指标数据序列;分别对所述预设时间长度的各运维指标数据序列进行拆分,得到各运维指标的子序列;分别对所述各运维指标的子序列进行异常检测,识别出当前时刻的运维异常指标;基于当前时刻调度自动化系统运维指标相关性矩阵计算当前时刻的运维异常指标的异常得分;基于所述当前时刻的运维异常指标的异常得分进行当前时刻异常指标推荐。2.根据权利要求1所述的一种调度自动化系统运维异常指标推荐方法,其特征在于,所述各服务器节点的运维指标包括运维指标类别:服务器节点负载、cpu、磁盘、内存、文件句柄和网络;每个运维指标类别包含多个该类别下的运维指标。3.根据权利要求2所述的一种调度自动化系统运维异常指标推荐方法,其特征在于,所述运维指标的采样间隔为1分钟。4.根据权利要求2所述的一种调度自动化系统运维异常指标推荐方法,其特征在于,所述获取调度自动化系统各服务器节点中,以当前时刻为基准的预设时间长度的各运维指标数据序列,包括:从调度自动化系统信息管理大区的时序库中抽取当前时刻各服务器节点的各运维指标数据;对各服务器节点,选取以当前时刻为基准,往前时间窗口T2分钟内的运维指标数据,构成运维指标数据序列。5.根据权利要求4所述的一种调度自动化系统运维异常指标推荐方法,其特征在于,所述时间窗口T2取值为30分钟。6.根据权利要求4所述的一种调度自动化系统运维异常指标推荐方法,其特征在于,分别对所述预设时间长度的各运维指标数据序列进行拆分,得到各运维指标的子序列,包括:选取运维指标数据序列的最新三个时刻数据m
t
,m
t
‑1,m
t
‑2,将运维指标数据序列去除最新三个时刻数据的剩余数据分别与三个时刻数据组合,形成三个子序列,表示如下:成三个子序列,表示如下:成三个子序列,表示如下:其中,S
m1
、S
m2
和S
m3
分别表示三个子序列,m
t
表示当前时刻t的运维指标数据,m
t

j
表示当前时刻前j个时刻的运维指标数据,j=1,2,
……
T2。7.根据权利要求6所述的一种调度自动化系统运维异常指标推荐方法,其特征在于,得到各运维指标的子序列后,还包括:对每个子序列进行一阶差分计算,并使用min

max归一化将运维指标数据映射到[0,1]区间,得到预处理后的子序列。8.根据权利要求7所述的一种调度自动化系统运维异常指标推荐方法,其特征在于,分
别对所述各运维指标的子序列进行异常检测,识别出当前时刻的运维异常指标,包括:同时采用拉依达准则和局部异常因子算法两种方式对各子序列进行异常检测,如果两种方式均检测出一子序列的最后一个数据为异常点,则该子序列异常;如果一运维指标的三个子序列都检测为异常,则判断当前时刻的该运维指标发生异常,为运维异常指标。9.根据权利要求8所述的一种调度自动化系统运维异常指标推荐方法,其特征在于,所述基于当前时刻调度自动化系统运维指标相关性矩阵计算当前时刻的运维异常指标的异常得分,包括:根据各服务器节点的所有运维指标分别构建各服务器节点的运维指标矩阵;根据各服务器节点的运维指标矩阵分别构建各服务器...

【专利技术属性】
技术研发人员:彭程高尚陈子韵黄鑫健徐丽燕孔彦茹李昊季学纯季惠英沙一川
申请(专利权)人:国电南瑞南京控制系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1