The embodiment of the application discloses a node fault detection method and device, which relates to the field of computer technology and solves the problem that the existing technology cannot dynamically adjust the fault detection method according to the change of node operation task. The specific scheme is: send the task to the slave node; obtain the failure probability model of the slave node; determine the first failure detection group according to the failure probability model of the slave node; the first failure detection group is the failure detection group that the slave node belongs to when running the task, and the first failure detection group is one of at least one failure detection group, in which at least one failure detection group has different failures The fault detection method adopted by the fault detection group is different; if the task operation success message sent from the node is received, and the first fault detection group and the second fault detection group are different, the fault detection task corresponding to the first fault detection group is sent to the slave node. The scheme provided by the embodiment of the application is suitable for fault detection of nodes.
【技术实现步骤摘要】
一种节点故障检测方法和装置
本申请实施例涉及计算机
,尤其涉及一种节点故障检测方法和装置。
技术介绍
云计算是一种按使用量付费的模式,广泛应用于云数据中心系统。云数据中心系统规模通常较为庞大,拥有成千上万台服务器,一方面,云服务提供商为保证服务质量,避免违反服务水平协议,必需持续监控各个服务器运行状态,及时发现节点故障,保证云服务的可靠性和稳定性;另一方面,高效的节点资源故障检测机制对云数据中心的健康、稳定运行尤为重要。因此,云数据中心系统采用的故障检测方法需要在保证检测准确性的基础上,尽量减少系统资源的占用。现有技术中的故障检测方法通常在集群内的所有节点采用同一种检测方法,例如:主从架构检测、Cassandra、Swim或Akka等检测方法。该故障检测方法为静态指定检测方法,不能根据节点运行任务的变化,动态调整故障检测方法,导致在故障概率低的节点,占用过多的系统检测资源,而对故障概率高的节点,故障检测不具备针对性,导致故障检测准确率不高。
技术实现思路
本申请实施例提供一种节点故障检测方法和装置,能够根据节点运行任务的变化,动态调整故障检测方法,减少系统资源占用的同时,提高故障检测的准确率。为达到上述目的,本申请实施例采用如下技术方案:本申请实施例的第一方面,提供一种节点故障检测方法,应用于主节点,该方法包括:先将任务发送至从节点;再获取该从节点的故障概率模型;该故障概率模型包括至少一种故障类型,以及分别与每一种故障类型对应的故障概率;再根据该从节点的故障概 ...
【技术保护点】
1.一种节点故障检测方法,其特征在于,应用于主节点,所述方法包括:/n将任务发送至从节点;/n获取所述从节点的故障概率模型;所述故障概率模型包括至少一种故障类型,以及分别与每一种所述故障类型对应的故障概率;/n根据所述从节点的故障概率模型,确定第一故障检测组;所述第一故障检测组为所述从节点运行所述任务时所属的故障检测组,所述第一故障检测组为至少一个故障检测组中的一个,其中,所述至少一个故障检测组中不同的故障检测组采用的故障检测方法不同;/n若接收到所述从节点发送的任务运行成功消息,且所述第一故障检测组和第二故障检测组不同,发送与所述第一故障检测组对应的故障检测任务至所述从节点;其中,所述第二故障检测组为所述从节点当前所属的故障检测组。/n
【技术特征摘要】
1.一种节点故障检测方法,其特征在于,应用于主节点,所述方法包括:
将任务发送至从节点;
获取所述从节点的故障概率模型;所述故障概率模型包括至少一种故障类型,以及分别与每一种所述故障类型对应的故障概率;
根据所述从节点的故障概率模型,确定第一故障检测组;所述第一故障检测组为所述从节点运行所述任务时所属的故障检测组,所述第一故障检测组为至少一个故障检测组中的一个,其中,所述至少一个故障检测组中不同的故障检测组采用的故障检测方法不同;
若接收到所述从节点发送的任务运行成功消息,且所述第一故障检测组和第二故障检测组不同,发送与所述第一故障检测组对应的故障检测任务至所述从节点;其中,所述第二故障检测组为所述从节点当前所属的故障检测组。
2.根据权利要求1所述的节点故障检测方法,其特征在于,所述根据所述从节点的故障概率模型,确定第一故障检测组,包括:
根据所述从节点的故障概率模型,获取所述从节点的第一向量,所述第一向量为所述从节点的故障概率模型中由所述故障概率组成的向量;
计算至少一个故障检测组中每个故障检测组的目标向量与所述从节点的第一向量的向量距离,将所述向量距离最小的故障检测组作为所述第一故障检测组;其中,至少一个故障检测组中每个故障检测组的目标向量不同。
3.根据权利要求1或2所述的节点故障检测方法,其特征在于,所述至少一个故障检测组包括:简单检测组、磁盘检测组、网络检测组、CPU检测组和内存检测组。
4.根据权利要求1-3任一项所述的节点故障检测方法,其特征在于,所述获取所述从节点的故障概率模型,包括:
获取所述从节点的任务特征向量;
根据所述任务特征向量和第一故障概率模型集确定对应所述任务特征向量的故障概率模型;
其中,所述第一故障概率模型集包括至少两个任务特征向量,以及与所述至少两个任务特征向量一一对应的故障概率模型。
5.根据权利要求1-3任一项所述的节点故障检测方法,其特征在于,所述获取所述从节点的故障类型和故障概率,包括:
获取所述从节点的任务特征向量;
根据所述任务特征向量、所述从节点运行所述任务的操作系统平台以及第二故障概率模型集确定对应所述任务特征向量和所述操作系统平台的故障概率模型;
其中,所述第二故障概率模型集包括至少一个操作系统平台、至少两个任务特征向量,以及与所述至少两个任务特征向量和所述至少一个操作系统平台一一对应的故障概率模型。
6.根据权利要求4或5所述的节点故障检测方法,其特征在于,所述获取所述从节点的任务特征向量,包括:
根据所述从节点上运行的所有任务中每个任务对应的特征代码片段,获取所述从节点的任务特征向量。
7.根据权利要求1-6任一项所述的节点故障检测方法,其特征在于,所述方法还包括:
所述主节点确定所述从节点是否故障;
若所述主节点确定所述从节点故障,所述主节点将与所述从节点的任务特征向量相似的所有从节点的故障风险上报至计算框架。
8.一种节点故障检测方法,其特征在于,应用于从节点,所述方法包括:
所述从节点接收主节点发送的任务;
若所述从节点运行所述任务成功,所述从节点向所述主节点发送任务运行成功消息;
所述从节点接收所述主节点发送的与第一故障检测组对应的故障检测任务;所述第一故障检测组和第二故障检测组不同;其中,所述第一故障检测组为所述从节点运行所述任务时所属的故障检测组,所述第二故障检测组为所述从节点当前所属的故障检测组,所述第一故障检测组和所述第二故障检测组分别为至少一个故障检测组中的一个,所述至少一个故障检测组中不同的故障检测组采用的故障检测方法不同。
9.根据权利要求8所述的节点故障检测方法,其特征在于,所述至少一个故障检测组包括:简单检测组、磁盘检测组、网络检测组、CPU检测组和内存检测组。
10.一种节点故障检测装置,其特征在于,应用于主节点,所述装置包括:
发送单元,用于将任务发送至从节点;
获取单元,用于获取所述从节点的故障概率模型;所述故障概率模型包括至少一种故...
【专利技术属性】
技术研发人员:朱韧,曾艳,刘力力,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。