一种系统故障检测方法、装置、设备及介质制造方法及图纸

技术编号:33088712 阅读:21 留言:0更新日期:2022-04-15 10:57
本申请公开了一种系统故障检测方法、装置、设备及介质,该方法包括:获取待检测服务系统中每个服务节点的当前运行数据;利用预设数据标准化方法对当前运行数据进行标准化处理,以得到各种运行状态数据分别对应的标准分数;利用携带有故障类型标签的历史运行数据对基于逻辑回归算法构建的待训练模型进行训练,以得到训练后的监督学习模型;提取训练后的监督学习模型中每种线性参数对应的权重系数;利用线性参数的权重系数分别对相应的运行状态数据的标准分数进行加权计算,并基于加权得分对待检测服务系统进行故障定位。本申请基于历史运行数据得到监督学习模型,并通过加权计算的方式利用该模型对当前运行数据进行检测以对系统故障进行检测。系统故障进行检测。系统故障进行检测。

【技术实现步骤摘要】
一种系统故障检测方法、装置、设备及介质


[0001]本专利技术涉及计算机系统领域,特别涉及一种系统故障检测方法、装置、设备及介质。

技术介绍

[0002]云原生环境主要有微服务、自动化发布、持续交付和容器化四个特点。微服务架构在独立部署、快速交付和扩展能力上表现出极大的优势,但同时,微服务系统中由于服务众多,服务之间的调用关系也会变得异常复杂,当系统出现问题时,运维管理员难以快速、精准、全面的寻找故障和排查问题。因此在服务系统环境中,故障检测和根因定位需要更加智能的算法模型。
[0003]目前,在私有云监控、大型微服务故障排查、云原生平台智能运维等服务及运维数据较多的服务系统场景中,当服务系统中出现问题时,由于服务系统中服务节点众多,服务节点之间的调用关系也会变得异常复杂,现有技术手段大多通过阈值检测和规则告警等方法进行故障的寻找和排查,运维人员往往难以快速、精准、全面的寻找故障和排查问题。
[0004]综上,如何自动、快速、精准、全面的对服务系统中的故障进行检测和定位是目前有待解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种系统故障检测方法、装置、设备及介质,能够自动、快速、精准、全面的对服务系统中的故障进行检测和定位。其具体方案如下:
[0006]第一方面,本申请公开了一种系统故障检测方法,包括:
[0007]获取待检测服务系统中每个服务节点的当前运行数据;所述当前运行数据包括多种运行状态数据;
[0008]利用预设数据标准化方法对所述当前运行数据进行标准化处理,以得到各种所述运行状态数据分别对应的标准分数;
[0009]利用携带有故障类型标签的历史运行数据对基于逻辑回归算法构建的待训练模型进行训练,以得到训练后的监督学习模型;
[0010]提取所述训练后的监督学习模型中每种线性参数对应的权重系数;其中,不同的所述线性参数分别对应不同的所述运行状态数据;
[0011]利用所述线性参数的权重系数分别对相应的所述运行状态数据的标准分数进行加权计算,并基于加权得分对所述待检测服务系统进行故障定位。
[0012]可选的,所述获取待检测服务系统中每个服务节点的当前运行数据,包括:
[0013]获取待检测服务系统中每个服务节点的系统性能指标数据、微服务调用链数据和系统日志数据,以得到每个所述服务节点的当前运行数据。
[0014]可选的,所述获取待检测服务系统中每个服务节点的系统性能指标数据、微服务调用链数据和系统日志数据,以得到每个所述服务节点的当前运行数据,包括:
[0015]确定时间序列的滑动窗口的时间长度;
[0016]在每个所述滑动窗口的时间长度内基于第一预设时间间隔对所述待检测服务系统中每个服务节点的系统性能指标数据进行采样,以得到按照时序排列的与多个所述滑动窗口对应的多组系统性能指标数据;
[0017]在每个所述滑动窗口的时间长度内基于第二预设时间间隔对所述待检测服务系统中每个服务节点的微服务调用链数据进行采样,以得到按照时序排列的与多个所述滑动窗口对应的多组微服务调用链数据;
[0018]在每个所述滑动窗口的时间长度内基于第三预设时间间隔对所述待检测服务系统中每个服务节点的系统日志数据进行采样,以得到按照时序排列的与多个所述滑动窗口对应的多组系统日志数据。
[0019]可选的,所述利用预设数据标准化方法对所述当前运行数据进行标准化处理,以得到各种所述运行状态数据分别对应的标准分数,包括:
[0020]计算每组所述系统性能指标数据对应的z分数以及每组所述系统性能指标数据中不同系统性能指标数据之间的一阶差分数据对应的z分数;
[0021]获取每组所述微服务调用链数据中的微服务调用时间,并计算每组所述微服务调用链数据中的微服务调用时间对应的z分数以及每组所述微服务调用链数据中不同微服务调用时间之间的一阶差分数据对应的z分数;
[0022]利用预设日志模板对每组所述系统日志数据进行匹配以得到每组所述系统日志数据中不同系统日志数据对应的匹配分值,并计算每组所述系统日志数据中不同系统日志数据对应的匹配分值的z分数以及每组所述系统日志数据对应的不同匹配分值之间的一阶差分数据的z分数。
[0023]可选的,对所述当前运行数据中的任一组运行状态数据进行标准化处理的过程,包括:
[0024]利用优化后均值计算公式以及优化后方差计算公式,分别计算该组运行状态数据对应的均值和方差,并基于该组运行状态数据对应的均值和方差计算该组运行状态数据对应的z分数;其中,
[0025]所述优化后均值计算公式为:
[0026]所述优化后方差计算公式为:
[0027]其中,n表示该组运行状态数据对应的数据样本量,x
i
表示该组运行状态数据中的第i个数据样本,mean表示均值,s2表示方差。
[0028]可选的,所述利用携带有故障类型标签的历史运行数据对基于逻辑回归算法构建的待训练模型进行训练之前,还包括:
[0029]获取历史正常运行数据和历史故障运行数据;
[0030]向所述历史正常运行数据添加包含相应的运行时间区间标签以及无故障类型标签的标签信息,以得到作为负样本的第一历史运行数据;
[0031]向所述历史故障运行数据添加包含相应的运行时间区间标签以及故障类型标签
的标签信息,并对已添加标签信息的所述历史故障运行数据进行重采样得到作为正样本的第二历史运行数据,以使所述第二历史运行数据对应的样本数与所述第一历史运行数据对应的样本数之间的比例达到预设正负样本比例。
[0032]可选的,所述利用所述线性参数的权重系数分别对相应的所述运行状态数据的标准分数进行加权计算,包括:
[0033]通过预设专家知识获取接口获取用于对所述线性参数的权重系数进行优化的专家知识;
[0034]利用所述专家知识对所述线性参数的权重系数进行相应的调整,以得到所述线性参数的调整后权重系数;
[0035]利用所述线性参数的调整后权重系数分别对相应的所述运行状态数据的标准分数进行加权计算。
[0036]可选的,所述利用所述线性参数的权重系数分别对相应的所述运行状态数据的标准分数进行加权计算,并基于加权得分对所述待检测服务系统进行故障定位,包括:
[0037]利用所述线性参数的权重系数分别对每个所述服务节点中相应的所述运行状态数据的标准分数进行加权计算,以得到每个所述服务节点的加权得分;
[0038]按照加权得分从大到小的顺序从所有所述服务节点中筛选出预设数量个加权得分大于预设阈值的所述服务节点,以基于筛选后得到的所述服务节点确定出发生故障的目标服务节点;
[0039]从所述目标服务节点对应的所有所述线性参数的所述权重系数中筛选出最大权重系数,并将所述最大权重系数对应的所述线性参数的参数类型确定为相应的故障根因。
[0040]第二方面,本申请公开了一种系统故障检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统故障检测方法,其特征在于,包括:获取待检测服务系统中每个服务节点的当前运行数据;所述当前运行数据包括多种运行状态数据;利用预设数据标准化方法对所述当前运行数据进行标准化处理,以得到各种所述运行状态数据分别对应的标准分数;利用携带有故障类型标签的历史运行数据对基于逻辑回归算法构建的待训练模型进行训练,以得到训练后的监督学习模型;提取所述训练后的监督学习模型中每种线性参数对应的权重系数;其中,不同的所述线性参数分别对应不同的所述运行状态数据;利用所述线性参数的权重系数分别对相应的所述运行状态数据的标准分数进行加权计算,并基于加权得分对所述待检测服务系统进行故障定位。2.根据权利要求1所述的系统故障检测方法,其特征在于,所述获取待检测服务系统中每个服务节点的当前运行数据,包括:获取待检测服务系统中每个服务节点的系统性能指标数据、微服务调用链数据和系统日志数据,以得到每个所述服务节点的当前运行数据。3.根据权利要求2所述的系统故障检测方法,其特征在于,所述获取待检测服务系统中每个服务节点的系统性能指标数据、微服务调用链数据和系统日志数据,以得到每个所述服务节点的当前运行数据,包括:确定时间序列的滑动窗口的时间长度;在每个所述滑动窗口的时间长度内基于第一预设时间间隔对所述待检测服务系统中每个服务节点的系统性能指标数据进行采样,以得到按照时序排列的与多个所述滑动窗口对应的多组系统性能指标数据;在每个所述滑动窗口的时间长度内基于第二预设时间间隔对所述待检测服务系统中每个服务节点的微服务调用链数据进行采样,以得到按照时序排列的与多个所述滑动窗口对应的多组微服务调用链数据;在每个所述滑动窗口的时间长度内基于第三预设时间间隔对所述待检测服务系统中每个服务节点的系统日志数据进行采样,以得到按照时序排列的与多个所述滑动窗口对应的多组系统日志数据。4.根据权利要求3所述的系统故障检测方法,其特征在于,所述利用预设数据标准化方法对所述当前运行数据进行标准化处理,以得到各种所述运行状态数据分别对应的标准分数,包括:计算每组所述系统性能指标数据对应的z分数以及每组所述系统性能指标数据中不同系统性能指标数据之间的一阶差分数据对应的z分数;获取每组所述微服务调用链数据中的微服务调用时间,并计算每组所述微服务调用链数据中的微服务调用时间对应的z分数以及每组所述微服务调用链数据中不同微服务调用时间之间的一阶差分数据对应的z分数;利用预设日志模板对每组所述系统日志数据进行匹配以得到每组所述系统日志数据中不同系统日志数据对应的匹配分值,并计算每组所述系统日志数据中不同系统日志数据对应的匹配分值的z分数以及每组所述系统日志数据对应的不同匹配分值之间的一阶差分
数据的z分数。5.根据权利要求4所述的系统故障检测方法,其特征在于,对所述当前运行数据中的任一组运行状态数据进行标准化处理的过程,包括:利用优化后均值计算公式以及优化后方差计算公式,分别计算该组运行状态数据对应的均值和方差,并基于该组运行状态数据对应的均值和方差计算该组运行状态数据对应的z分数;其中,所述优化后均值计算公式为:所述优化后方差计算公式为:其中,n表示该组运行状态数据对应的数据样本量,x
i<...

【专利技术属性】
技术研发人员:赵利强
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1