An embodiment of the invention provides a monitoring method, device and system for the working state of nodes in a distributed cluster system. Including monitoring method, node of the distributed cluster system in the working state of the predetermined length of each access node in a distributed cluster system by other nodes to determine as the number of heartbeat detection timeout; choose the highest number of nodes from the various nodes in the connected state; the node for the selected network; when the node selects the network connection status is unimpeded, judging whether the node is selected as the dead node; when the node selects the network connection status is disconnected, the judgment result is generated: the node selects a node is really dead. The invention can identify timely, effective and reliable dead nodes and fast, improves the stability of the clusters.
【技术实现步骤摘要】
分布式集群系统中节点的工作状态的监测方法、装置及系统
本专利技术涉及分布式系统领域,尤其涉及一种分布式集群系统中节点的工作状态的监测方法和装置以及系统。
技术介绍
随着云计算在各领域的广泛应用和数据量的增加,对分布式文件系统的规模、性能和可靠性都提出了很高的需求。在大规模集群下,小概率事件会变得频繁发生。节点假死就是其中一个需要解决的问题。节点假死后,如果不能有效及时的识别出来,会严重影响整个集群的稳定性和性能,会导致上层应用出现短暂的不可用。但假死节点很难检测,如果方法不对,也会误判。
技术实现思路
本专利技术的实施例提供了一种分布式集群系统节点的工作状态的监测方法和装置以及系统,能够及时有效识别节点的工作状态。为了实现上述目的,本专利技术采取了如下技术方案。一种分布式集群系统中节点的工作状态的监测方法,包括:获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;从所述各个节点中选择所述次数最高的节点;获取选择出的所述节点的网络连接状态;当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。一种分布式集群系统中节点的工作状态的监测装置,包括:第一获取模块,获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;选择模块,从所述各个节点中选择所述次数最高的节点;第二获取模块,获取选择出的所述节点的网络连接状态;判断模块,当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点 ...
【技术保护点】
一种分布式集群系统中节点的工作状态的监测方法,其特征在于,包括:获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;从所述各个节点中选择所述次数最高的节点;获取选择出的所述节点的网络连接状态;当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。
【技术特征摘要】
1.一种分布式集群系统中节点的工作状态的监测方法,其特征在于,包括:获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;从所述各个节点中选择所述次数最高的节点;获取选择出的所述节点的网络连接状态;当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述判断结果发送给所述分布式集群系统中除所述选择出的所述节点外的其他节点,使得除所述选择出的所述节点外的其他节点进行相应处理。3.根据权利要求2所述的方法,其特征在于,所述除所述选择出的所述节点外的其他节点进行相应处理的步骤包括:当所述判断结果为:选择出的所述节点为假死节点时,所述除所述选择出的所述节点外的所述其他节点停止给所述假死节点分配任务;或者,停止等待所述假死节点对已分配任务的反馈消息。4.根据权利要求2所述的方法,其特征在于,所述除所述选择出的所述节点外的其他节点进行相应处理的步骤包括:当所述判断结果为:当选择出的所述节点为真死节点时,所述除所述选择出的所述节点外的所述其他节点断开与所述真死节点的连接。5.根据权利要求1所述的方法,其特征在于,所述获取选择出的所述节点的网络连接状态的步骤包括:通过因特网包探测器来测试所述节点的网络连接状态,以获取选择出的所述节点的网络连接状态。6.根据权利要求1所述的方法,其特征在于,所述获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数的步骤包括:所述分布式集群系统中的各个节点每隔固定时长向其他节点连续发送预定数量的心跳请求;当所述其他节点中的第二节点没给发送心跳请求的第一节点返回心跳请求的响应消息时,则所述第二节点被所述第一节点判断为心跳检测超时...
【专利技术属性】
技术研发人员:张俊峰,游峰,李纲彬,金鑫鑫,
申请(专利权)人:北京华云网际科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。