【技术实现步骤摘要】
本公开涉及一种基于指标阈值的故障检测方法、装置、电子设备及存储介质。
技术介绍
1、升级是破坏分布式系统可用性的最有破坏性且不可避免的维护任务之一。升级过程中的任何故障都是灾难性的,因为它会进一步扩大升级造成的服务中断。持续部署的日益采用进一步增加了升级任务的频率和负担。
2、实践中的一种解决方案是,通过分析一些真实的分布式系统升级故障,揭示升级故障的根本原因、暴露条件和修复策略,并且以此为基础设计静态检查器,在升级之前对代码进行静态检查。还有一种解决方案是,在升级部署之前进行快速的主动审计,检测相关故障的风险并给出改进方案。上述的两种方案有一个共同的局限性在于静态性。具体地说,上述的方案都是在升级部署之前的检测工作,并不能实时发现实际升级期间出现的升级故障。
3、工业界的分布式系统中为了实时发现出现的各种故障,往往采用的是基于指标的检测方法。但是在实际的升级场景下,由于系统内会出现大量的进程重启现象,节点上的服务也可能受到一定的影响,采用静态阈值告警策略会导致系统短时间内发出大量告警信息,我们将其称为告警风暴。
...【技术保护点】
1.一种基于指标阈值的故障检测方法,其特征在于,包括以下步骤:
2.如权利要求1所述的故障检测方法,其特征在于,所述告警规则的获取方法,包括:
3.如权利要求2所述的故障检测方法,其特征在于,所述告警规则的获取方法,还包括:
4.如权利要求1所述的故障检测方法,其特征在于,所述假告警信息的获取方法,包括:
5.如权利要求1所述的故障检测方法,其特征在于,还包括步骤:
6.如权利要求1所述的故障检测方法,其特征在于,当所述指标值触发至少一个所述告警规则,形成告警信息,根据真告警库中的真告警信息和假告警库的假告警
...【技术特征摘要】
1.一种基于指标阈值的故障检测方法,其特征在于,包括以下步骤:
2.如权利要求1所述的故障检测方法,其特征在于,所述告警规则的获取方法,包括:
3.如权利要求2所述的故障检测方法,其特征在于,所述告警规则的获取方法,还包括:
4.如权利要求1所述的故障检测方法,其特征在于,所述假告警信息的获取方法,包括:
5.如权利要求1所述的故障检测方法,其特征在于,还包括步骤:
6.如权利要求1所述的故障检测方法,其特征在于,当所述指标值触发至少一个所述告警规则,形成告警信息,根据...
【专利技术属性】
技术研发人员:张一鸣,徐子康,李乔,高聪明,吴荣鑫,沈志荣,舒继武,
申请(专利权)人:厦门大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。