The present application provides a method and device for detecting failures. The method includes: the cluster monitor receives state information sent by each client in at least one client, and the state information is used to indicate the failure state of the storage unit of the server communicating with each client; the cluster monitor is based on the description. The state information sent by each client determines the failure state of the storage unit of the server that is communicated with at least one client; the cluster monitor determines a fault in a server that is communicated with at least one client according to the failure state of the storage unit of the at least one client communication server. The server can reduce the complexity of detecting faults. One
【技术实现步骤摘要】
检测故障的方法和装置
本申请涉及计算机领域,并且,更具体地,涉及计算机领域中检测故障的方法和装置。
技术介绍
分布式文件系统在客户端(client)将数据写到各个服务器或者从服务器读取数据,当服务器(server)的磁盘出现故障时,需要及时检测到故障并将故障隔离,否则客户端无法感知磁盘状态,一直给故障的磁盘发送请求消息,最终导致出现操作错误。现有的检测故障的方法服务器检测磁盘的故障,不同的故障类型对应不同的检测机制,每种检测机制在不同的场景下需要配置不同的参数,并且每新增一种故障都需要增加新的检测机制,这样,会增加检测故障的复杂度。
技术实现思路
本申请提供一种检测故障的方法和装置,能够降低检测故障的复杂度。第一方面,提供了一种检测故障的方法,包括:集群监测器接收至少一个客户端中每个客户端发送的状态信息,所述状态信息用于指示与所述每个客户端通信的服务器的存储单元的故障状态;所述集群监测器根据所述每个客户端发送的状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态;所述集群监测器根据所述至少一个客户端通信的服务器的存储单元的故障状态,在与所述至少一个客户端通信的服务器中确定故障服务器;所述集群监测器向所述至少一个客户端中的第一客户端发送所述故障服务器的存储单元的故障状态。因此,本申请实施例中,集群监测器根据状态信息,能够确定故障服务器,集群检测器可以屏蔽底层存储单元的故障,能够减少维护的成本,降低检测故障的复杂性。可选地,存储单元也可以是硬盘或磁盘等。可选地,存储单元的故障状态可以是存储单元存在故障、存储单元正常、存储单元的故障状态未知。在某些实现 ...
【技术保护点】
1.一种检测故障的方法,其特征在于,包括:
【技术特征摘要】
1.一种检测故障的方法,其特征在于,包括:集群监测器接收至少一个客户端中每个客户端发送的状态信息,所述状态信息用于指示与所述每个客户端通信的服务器的存储单元的故障状态;所述集群监测器根据所述每个客户端发送的状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态;所述集群监测器根据所述至少一个客户端通信的服务器的存储单元的故障状态,在与所述至少一个客户端通信的服务器中确定故障服务器。2.根据权利要求1所述的方法,其特征在于,所述每个客户端发送的状态信息包括多个状态信息,所述多个状态信息中每个状态信息为所述每个客户端的每个周期的状态信息;所述集群监测器根据所述每个客户端发送的状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态,包括:所述集群监测器根据所述每个客户端发送的多个状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态。3.根据权利要求2所述的方法,其特征在于,所述集群监测器根据所述每个客户端发送的多个状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态,包括:所述集群监测器对所述每个客户端发送的多个状态信息中每个状态信息指示的存储单元的故障状态对应的数值进行加权,确定与所述至少一个客户端通信的服务器的存储单元的得分;所述集群监测器根据与所述至少一个客户端通信的服务器的存储单元的得分,确定与所述至少一个客户端通信的服务器的存储单元的故障状态。4.根据权利要求3所述的方法,其特征在于,所述集群监测器对所述每个客户端发送的多个状态信息中每个状态信息对应的数值进行加权,确定与所述至少一个客户端通信的服务器的存储单元的得分,包括:所述集群监测器对所述每个客户端发送的多个状态信息中每个状态信息指示的第一存储单元的故障状态对应数值进行加权,确定所述第一存储单元的得分;其中,所述集群监测器根据与所述至少一个客户端通信的服务器的存储单元的得分,确定与所述至少一个客户端通信的服务器的存储单元的故障状态,包括:若所述第一存储单元的得分小于第一阈值,则所述集群监测器将所述第一存储单元确定故障的存储单元;若所述第一存储单元的得分大于所述第一阈值,则所述集群监测器将所述第一存储单元确定为正常的存储单元;若所述第一存储单元的得分等于所述第一阈值,则所述集群监测器将所述第一存储单元确定为未知的存储单元。5.根据权利要求4所述的方法,其特征在于,在将所述第一存储单元确定为故障的存储单元之后,若所述第一存储单元的得分大于所述第一阈值,则所述集群监测器将所述第一存储单元确定为正常的存储单元。6.根据权利要求1至5中任一项所述的方法,其特征在于,与所述至少一个客户端通信的服务器的存储单元的故障状态为与所述至少一个客户端通信的服务器的存储单元的得分,所述集群监测器根据所述至少一个客户端通信的服务器的存储单元的故障状态,在与所述至少一个客户端通信的服务器中确定故障服务器,包括:所述集群监测器将与所述至少一个客户端通信的服务器中存储单元得分总和小于第二阈值的服务器确定为所述故障服务器。7.根据权利要求6所述的方法,其特征在于,在所述集群监测器将与所述至少一个客户端通信的服务器中存储单元得分总和小于第二阈值的服务器确定为所述故障服务器之后,所述方法还包括:若所述故障服务器的磁盘得分总和大于或等于所述第二阈值,所述集群监测器将所述故障服务器恢复为正常服务器。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述集群监测器维护与所述至少一个客户端中每个客户端通信的服务器的存储单元的故障状态,所述方法还包括:所述集群监测器在预设时间段内未收到所述至少一个客户端中第二客户端发送的状态信息,所述集群监测器将与所述第二客户端...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。