一种节点故障检测方法和装置制造方法及图纸

技术编号:22597443 阅读:14 留言:0更新日期:2019-11-20 12:24
本申请实施例公开了一种节点故障检测方法和装置,涉及计算机技术领域,解决了现有技术不能根据节点运行任务的变化,动态调整故障检测方法的问题。具体方案为:将任务发送至从节点;获取从节点的故障概率模型;根据从节点的故障概率模型,确定第一故障检测组;第一故障检测组为从节点运行任务时所属的故障检测组,第一故障检测组为至少一个故障检测组中的一个,其中,至少一个故障检测组中不同的故障检测组采用的故障检测方法不同;若接收到从节点发送的任务运行成功消息,且第一故障检测组和第二故障检测组不同,发送与第一故障检测组对应的故障检测任务至从节点。本申请实施例提供的方案适合于对节点进行故障检测。

A node fault detection method and device

The embodiment of the application discloses a node fault detection method and device, which relates to the field of computer technology and solves the problem that the existing technology cannot dynamically adjust the fault detection method according to the change of node operation task. The specific scheme is: send the task to the slave node; obtain the failure probability model of the slave node; determine the first failure detection group according to the failure probability model of the slave node; the first failure detection group is the failure detection group that the slave node belongs to when running the task, and the first failure detection group is one of at least one failure detection group, in which at least one failure detection group has different failures The fault detection method adopted by the fault detection group is different; if the task operation success message sent from the node is received, and the first fault detection group and the second fault detection group are different, the fault detection task corresponding to the first fault detection group is sent to the slave node. The scheme provided by the embodiment of the application is suitable for fault detection of nodes.

【技术实现步骤摘要】
一种节点故障检测方法和装置
本申请实施例涉及计算机
,尤其涉及一种节点故障检测方法和装置。
技术介绍
云计算是一种按使用量付费的模式,广泛应用于云数据中心系统。云数据中心系统规模通常较为庞大,拥有成千上万台服务器,一方面,云服务提供商为保证服务质量,避免违反服务水平协议,必需持续监控各个服务器运行状态,及时发现节点故障,保证云服务的可靠性和稳定性;另一方面,高效的节点资源故障检测机制对云数据中心的健康、稳定运行尤为重要。因此,云数据中心系统采用的故障检测方法需要在保证检测准确性的基础上,尽量减少系统资源的占用。现有技术中的故障检测方法通常在集群内的所有节点采用同一种检测方法,例如:主从架构检测、Cassandra、Swim或Akka等检测方法。该故障检测方法为静态指定检测方法,不能根据节点运行任务的变化,动态调整故障检测方法,导致在故障概率低的节点,占用过多的系统检测资源,而对故障概率高的节点,故障检测不具备针对性,导致故障检测准确率不高。
技术实现思路
本申请实施例提供一种节点故障检测方法和装置,能够根据节点运行任务的变化,动态调整故障检测方法,减少系统资源占用的同时,提高故障检测的准确率。为达到上述目的,本申请实施例采用如下技术方案:本申请实施例的第一方面,提供一种节点故障检测方法,应用于主节点,该方法包括:先将任务发送至从节点;再获取该从节点的故障概率模型;该故障概率模型包括至少一种故障类型,以及分别与每一种故障类型对应的故障概率;再根据该从节点的故障概率模型,确定第一故障检测组;该第一故障检测组为从节点运行该任务时所属的故障检测组,该第一故障检测组为至少一个故障检测组中的一个,其中,该至少一个故障检测组中不同的故障检测组采用的故障检测方法不同;若接收到该从节点发送的任务运行成功消息,且该第一故障检测组和第二故障检测组不同,发送与该第一故障检测组对应的故障检测任务至该从节点;其中,该第二故障检测组为该从节点当前所属的故障检测组。如此一来,能够根据节点运行任务的变化,确定节点运行任务时所属的故障检测组,并在节点运行任务时所属的故障检测组与节点当前所属的故障检测组发生变化时,动态调整故障检测方法,在减少系统资源占用的同时,提高了故障检测的准确率,同时上报同类节点故障风险预警,保证系统稳定性。结合第一方面,在第一种可能的实现方式中,上述根据从节点的故障概率模型,确定第一故障检测组,包括:根据从节点的故障概率模型,获取该从节点的第一向量,该第一向量为该从节点的故障概率模型中由故障概率组成的向量;计算至少一个故障检测组中每个故障检测组的目标向量与所述从节点的第一向量的向量距离,将所述向量距离最小的故障检测组作为第一故障检测组;其中,至少一个故障检测组中每个故障检测组的目标向量不同,该至少一个故障检测组包括:简单检测组、磁盘检测组、网络检测组、CPU检测组和内存检测组。如此一来,能够根据从节点的故障概率模型确定出从节点运行该任务时所属的故障检测组。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述获取从节点的故障概率模型,包括:获取该从节点的任务特征向量;根据该任务特征向量和第一故障概率模型集确定对应该任务特征向量的故障概率模型;其中,该第一故障概率模型集包括至少两个任务特征向量,以及与该至少两个任务特征向量一一对应的故障概率模型。如此一来,能够根据任务特征向量和第一故障概率模型集,确定出从节点运行该任务时的故障概率模型。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述获取从节点的故障类型和故障概率,包括:获取该从节点的任务特征向量;根据该任务特征向量、从节点运行该任务的操作系统平台以及第二故障概率模型集确定对应该任务特征向量和操作系统平台的故障概率模型;其中,该第二故障概率模型集包括至少一个操作系统平台、至少两个任务特征向量,以及与该至少两个任务特征向量和至少一个操作系统平台一一对应的故障概率模型。如此一来,能够根据任务特征向量、操作系统平台和第二故障概率模型集,确定出从节点运行该任务时的故障概率模型。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述获取从节点的任务特征向量,包括:根据该从节点上运行的所有任务中每个任务对应的特征代码片段,获取该从节点的任务特征向量。如此一来,能够根据各个任务的特征代码片段提取出从节点的任务特征向量。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:主节点确定从节点是否故障,若主节点确定该从节点故障,主节点将与该从节点的任务特征向量相似的所有从节点的故障风险上报至计算框架。如此一来,能够上报同类节点故障风险预警,保证系统稳定性。本申请实施例的第二方面,提供一种节点故障检测方法,应用于从节点,该方法包括:从节点先接收主节点发送的任务;若从节点运行该任务成功,从节点向主节点发送任务运行成功消息;从节点接收主节点发送的与第一故障检测组对应的故障检测任务;该第一故障检测组和第二故障检测组不同;其中,该第一故障检测组为从节点运行该任务时所属的故障检测组,该第二故障检测组为所述从节点当前所属的故障检测组,该第一故障检测组和该第二故障检测组分别为至少一个故障检测组中的一个,该至少一个故障检测组中不同的故障检测组采用的故障检测方法不同。该至少一个故障检测组包括:简单检测组、磁盘检测组、网络检测组、CPU检测组和内存检测组。如此一来,在节点运行任务时所属的故障检测组与节点当前所属的故障检测组发生变化时,动态调整故障检测方法,在减少系统资源占用的同时,提高了故障检测的准确率,同时上报同类节点故障风险预警,保证系统稳定性。本申请实施例的第三方面,提供一种节点故障检测装置,应用于主节点,该装置包括:发送单元,用于将任务发送至从节点;获取单元,用于获取该从节点的故障概率模型;该故障概率模型包括至少一种故障类型,以及分别与每一种故障类型对应的故障概率;处理单元,用于根据该获取单元获取的从节点的故障概率模型,确定第一故障检测组;该第一故障检测组为从节点运行所述任务时所属的故障检测组,该第一故障检测组为至少一个故障检测组中的一个,其中,该至少一个故障检测组中不同的故障检测组采用的故障检测方法不同;接收单元,用于接收从节点发送的任务运行成功消息;发送单元,还用于若接收单元接收到从节点发送的任务运行成功消息,且处理单元确定第一故障检测组和第二故障检测组不同,发送单元发送与第一故障检测组对应的故障检测任务至该从节点;其中,该第二故障检测组为所述从节点当前所属的故障检测组。结合第三方面,在第一种可能的实现方式中,上述获取单元,还用于:根据从节点的故障概率模型,获取该从节点的第一向量,该第一向量为该从节点的故障概率模型中由故障概率组成的向量;计算至少一个故障检测组中每个故障检测组的目标向量与从节点的第一向量的向量距离,将向量距离最小的故障检测组作为所述第一故障检测组;其中,至少一个故障检测组中每个故障检测组的目标向量不同,该至少一个故障检测组包括:简单检测组、磁盘检测组、本文档来自技高网...

【技术保护点】
1.一种节点故障检测方法,其特征在于,应用于主节点,所述方法包括:/n将任务发送至从节点;/n获取所述从节点的故障概率模型;所述故障概率模型包括至少一种故障类型,以及分别与每一种所述故障类型对应的故障概率;/n根据所述从节点的故障概率模型,确定第一故障检测组;所述第一故障检测组为所述从节点运行所述任务时所属的故障检测组,所述第一故障检测组为至少一个故障检测组中的一个,其中,所述至少一个故障检测组中不同的故障检测组采用的故障检测方法不同;/n若接收到所述从节点发送的任务运行成功消息,且所述第一故障检测组和第二故障检测组不同,发送与所述第一故障检测组对应的故障检测任务至所述从节点;其中,所述第二故障检测组为所述从节点当前所属的故障检测组。/n

【技术特征摘要】
1.一种节点故障检测方法,其特征在于,应用于主节点,所述方法包括:
将任务发送至从节点;
获取所述从节点的故障概率模型;所述故障概率模型包括至少一种故障类型,以及分别与每一种所述故障类型对应的故障概率;
根据所述从节点的故障概率模型,确定第一故障检测组;所述第一故障检测组为所述从节点运行所述任务时所属的故障检测组,所述第一故障检测组为至少一个故障检测组中的一个,其中,所述至少一个故障检测组中不同的故障检测组采用的故障检测方法不同;
若接收到所述从节点发送的任务运行成功消息,且所述第一故障检测组和第二故障检测组不同,发送与所述第一故障检测组对应的故障检测任务至所述从节点;其中,所述第二故障检测组为所述从节点当前所属的故障检测组。


2.根据权利要求1所述的节点故障检测方法,其特征在于,所述根据所述从节点的故障概率模型,确定第一故障检测组,包括:
根据所述从节点的故障概率模型,获取所述从节点的第一向量,所述第一向量为所述从节点的故障概率模型中由所述故障概率组成的向量;
计算至少一个故障检测组中每个故障检测组的目标向量与所述从节点的第一向量的向量距离,将所述向量距离最小的故障检测组作为所述第一故障检测组;其中,至少一个故障检测组中每个故障检测组的目标向量不同。


3.根据权利要求1或2所述的节点故障检测方法,其特征在于,所述至少一个故障检测组包括:简单检测组、磁盘检测组、网络检测组、CPU检测组和内存检测组。


4.根据权利要求1-3任一项所述的节点故障检测方法,其特征在于,所述获取所述从节点的故障概率模型,包括:
获取所述从节点的任务特征向量;
根据所述任务特征向量和第一故障概率模型集确定对应所述任务特征向量的故障概率模型;
其中,所述第一故障概率模型集包括至少两个任务特征向量,以及与所述至少两个任务特征向量一一对应的故障概率模型。


5.根据权利要求1-3任一项所述的节点故障检测方法,其特征在于,所述获取所述从节点的故障类型和故障概率,包括:
获取所述从节点的任务特征向量;
根据所述任务特征向量、所述从节点运行所述任务的操作系统平台以及第二故障概率模型集确定对应所述任务特征向量和所述操作系统平台的故障概率模型;
其中,所述第二故障概率模型集包括至少一个操作系统平台、至少两个任务特征向量,以及与所述至少两个任务特征向量和所述至少一个操作系统平台一一对应的故障概率模型。


6.根据权利要求4或5所述的节点故障检测方法,其特征在于,所述获取所述从节点的任务特征向量,包括:
根据所述从节点上运行的所有任务中每个任务对应的特征代码片段,获取所述从节点的任务特征向量。


7.根据权利要求1-6任一项所述的节点故障检测方法,其特征在于,所述方法还包括:
所述主节点确定所述从节点是否故障;
若所述主节点确定所述从节点故障,所述主节点将与所述从节点的任务特征向量相似的所有从节点的故障风险上报至计算框架。


8.一种节点故障检测方法,其特征在于,应用于从节点,所述方法包括:
所述从节点接收主节点发送的任务;
若所述从节点运行所述任务成功,所述从节点向所述主节点发送任务运行成功消息;
所述从节点接收所述主节点发送的与第一故障检测组对应的故障检测任务;所述第一故障检测组和第二故障检测组不同;其中,所述第一故障检测组为所述从节点运行所述任务时所属的故障检测组,所述第二故障检测组为所述从节点当前所属的故障检测组,所述第一故障检测组和所述第二故障检测组分别为至少一个故障检测组中的一个,所述至少一个故障检测组中不同的故障检测组采用的故障检测方法不同。


9.根据权利要求8所述的节点故障检测方法,其特征在于,所述至少一个故障检测组包括:简单检测组、磁盘检测组、网络检测组、CPU检测组和内存检测组。


10.一种节点故障检测装置,其特征在于,应用于主节点,所述装置包括:
发送单元,用于将任务发送至从节点;
获取单元,用于获取所述从节点的故障概率模型;所述故障概率模型包括至少一种故...

【专利技术属性】
技术研发人员:朱韧曾艳刘力力
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1