The invention discloses a method and a device for detecting faults, belonging to the technical field of database. The method includes: the number of abnormal IO events recorded on each node statistics distributed storage system n nodes, n is an integer greater than 1; according to the number of abnormal IO events recorded on the statistics of each node, the node for each node in the transceiver to vote, the receiving of response include: node request node data request and response data request; then, according to the number of votes each node obtained from n nodes selected at least one node as the fault node. The invention solves the problem that the process of detecting faults is complicated and the detection efficiency is low, and simplifies the process of detecting faults and improves the detection efficiency, and is used for fault detection.
【技术实现步骤摘要】
故障检测方法及装置
本专利技术涉及数据库
,特别涉及一种故障检测方法及装置。
技术介绍
分布式存储系统包括三种类型的节点(节点指的是一台运行有用户业务进程的物理服务器或虚拟服务器):元数据节点、计算节点和存储节点。其中,元数据节点用于保存用户业务的管理数据,存储节点用于保存用户业务的业务数据,计算节点用于向用户提供接口以访问存储节点中保存的业务数据。这三种类型的节点作为一个整体来处理用户业务。当某一节点出现故障时,可能会导致被处理的用户业务受损,但并不会导致该用户业务中断(即用户业务处于亚健康状态),在这种情况下,也需要及时进行故障检测,确定故障节点(即出现故障的节点),并采取相应的措施以便继续处理该用户业务。现有技术中,当被处理的用户业务受损时,通常是先确定该用户业务对应的接口,再确定该接口对应的计算节点,然后检测该计算节点是否出现故障,当该计算节点出现故障时,进行故障恢复,当该计算节点未出现故障时,检测保存业务数据的存储主节点(为了防止业务数据丢失,同一业务数据被同时保存在存储主节点和存储备节点上)是否出现故障,当该存储主节点出现故障时,进行故障恢复,当该存储主节点未出现故障时,检测保存该业务数据的存储备节点是否出现故障,当该存储备节点出现故障时,进行故障恢复。此外,还可能需要对保存管理数据的元数据节点进行故障检测。由于需要对较多节点进行故障检测,所以检测故障的过程较繁琐,检测效率较低。
技术实现思路
为了解决现有技术检测故障的过程较繁琐,检测效率较低的问题,本专利技术提供了一种故障检测方法及装置。所述技术方案如下:第一方面,提供了一种故障检测方法, ...
【技术保护点】
一种故障检测方法,其特征在于,所述方法包括:统计分布式存储系统的n个节点中每个节点上记录的输入输出IO异常事件数量,所述n为大于1的整数,所述IO异常事件为IO操作超时所产生的事件;根据统计的每个节点上记录的IO异常事件数量,为所述每个节点所属的收发对中的节点投票,所述收发对包括:发起数据请求的请求节点和响应所述数据请求的响应节点;根据每个节点获得的投票数量从所述n个节点中筛选出至少一个节点作为故障节点。
【技术特征摘要】
1.一种故障检测方法,其特征在于,所述方法包括:统计分布式存储系统的n个节点中每个节点上记录的输入输出IO异常事件数量,所述n为大于1的整数,所述IO异常事件为IO操作超时所产生的事件;根据统计的每个节点上记录的IO异常事件数量,为所述每个节点所属的收发对中的节点投票,所述收发对包括:发起数据请求的请求节点和响应所述数据请求的响应节点;根据每个节点获得的投票数量从所述n个节点中筛选出至少一个节点作为故障节点。2.根据权利要求1所述的方法,其特征在于,所述根据每个节点获得的投票数量从所述n个节点中筛选出至少一个节点作为故障节点,包括:根据每个节点获得的投票数量将所述n个节点降序排列;将排名前m位的节点确定为所述故障节点,所述m为大于等于1的整数。3.根据权利要求1或2所述的方法,其特征在于,在所述统计分布式存储系统的n个节点中每个节点上记录的输入输出IO异常事件数量之前,所述方法还包括:获取第一节点与其余节点的交互时延,得到多个交互时延,所述第一节点为所述n个节点中的任一节点;确定目标交互时延的数量p,所述目标交互时延为与所述多个交互时延中的最小交互时延的差值大于预设差值的交互时延;在所述第一节点上记录p个IO异常事件。4.根据权利要求1或2所述的方法,其特征在于,在所述统计分布式存储系统的n个节点中每个节点上记录的输入输出IO异常事件数量之前,所述方法还包括:获取第一节点与其余节点的交互时延,得到多个交互时延,所述第一节点为所述n个节点中的任一节点;确定所述多个交互时延中大于预设时延阈值的交互时延的数量p;在所述第一节点上记录p个IO异常事件。5.根据权利要求1所述的方法,其特征在于,所述根据统计的每个节点上记录的IO异常事件数量,为所述每个节点所属的收发对中的节点投票,包括:根据统计的第一节点上记录的IO异常事件数量p,为所述第一节点所属的p个收发对中每个收发对包括的第一节点和响应节点分别投票,所述第一节点为所述n个节点中的任一节点,所述第一节点用于发起数据请求,所述响应节点用于响应所述数据请求。6.根据权利要求1所述的方法,其特征在于,所述统计分布式存储系统的n个节点中每个节点上记录的输入输出IO异常事件数量,包括:检测被处理的用户业务是否出现异常;当所述用户业务出现异常时,...
【专利技术属性】
技术研发人员:廖东方,黄世准,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。