分布式集群系统中节点的工作状态的监测方法、装置及系统制造方法及图纸

技术编号:16703475 阅读:52 留言:0更新日期:2017-12-02 16:48
本发明专利技术实施例提供了一种分布式集群系统中节点的工作状态的监测方法、装置以及系统。所述分布式集群系统中节点的工作状态的监测方法,包括:获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;从所述各个节点中选择所述次数最高的节点;获取选择出的所述节点的网络连接状态;当选择出的所述节点的网络连接状态为畅通时,判断为选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。本发明专利技术可以及时、有效、可靠、快速的识别假死节点,提高了集群的稳定性。

Monitoring methods, devices and systems for the working state of nodes in a distributed cluster system

An embodiment of the invention provides a monitoring method, device and system for the working state of nodes in a distributed cluster system. Including monitoring method, node of the distributed cluster system in the working state of the predetermined length of each access node in a distributed cluster system by other nodes to determine as the number of heartbeat detection timeout; choose the highest number of nodes from the various nodes in the connected state; the node for the selected network; when the node selects the network connection status is unimpeded, judging whether the node is selected as the dead node; when the node selects the network connection status is disconnected, the judgment result is generated: the node selects a node is really dead. The invention can identify timely, effective and reliable dead nodes and fast, improves the stability of the clusters.

【技术实现步骤摘要】
分布式集群系统中节点的工作状态的监测方法、装置及系统
本专利技术涉及分布式系统领域,尤其涉及一种分布式集群系统中节点的工作状态的监测方法和装置以及系统。
技术介绍
随着云计算在各领域的广泛应用和数据量的增加,对分布式文件系统的规模、性能和可靠性都提出了很高的需求。在大规模集群下,小概率事件会变得频繁发生。节点假死就是其中一个需要解决的问题。节点假死后,如果不能有效及时的识别出来,会严重影响整个集群的稳定性和性能,会导致上层应用出现短暂的不可用。但假死节点很难检测,如果方法不对,也会误判。
技术实现思路
本专利技术的实施例提供了一种分布式集群系统节点的工作状态的监测方法和装置以及系统,能够及时有效识别节点的工作状态。为了实现上述目的,本专利技术采取了如下技术方案。一种分布式集群系统中节点的工作状态的监测方法,包括:获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;从所述各个节点中选择所述次数最高的节点;获取选择出的所述节点的网络连接状态;当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。一种分布式集群系统中节点的工作状态的监测装置,包括:第一获取模块,获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;选择模块,从所述各个节点中选择所述次数最高的节点;第二获取模块,获取选择出的所述节点的网络连接状态;判断模块,当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。一种分布式集群系统中节点的工作状态的监测系统,包括:分布式集群系统中的至少三个节点、监测装置;所述监测装置用于:获取预定时长内分布式集群系统中各个所述节点的被其他节点判断为心跳检测超时的次数;从所述各个节点中选择所述次数最高的节点;获取选择出的所述节点的网络连接状态;当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例中解决了现有技术中无法准确、快速判断出节点的工作状态的问题。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的一种分布式集群系统中节点的工作状态的监测方法的处理流程图;图2为本专利技术提供的一种分布式集群系统中节点的工作状态的监测装置的连接示意图;图3为本专利技术实施例提供的一种分布式集群系统中节点的工作状态的监测系统的连接示意图。具体实施方式下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。如图1所示,为本专利技术所述的一种分布式集群系统中节点的工作状态的监测方法,包括:步骤11,获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;步骤12,从所述各个节点中选择所述次数最高的节点;步骤13,获取选择出的所述节点的网络连接状态;该步骤具体为:通过因特网包探测器来测试所述节点的网络连接状态,以获取选择出的所述节点的网络连接状态。例如,可以通过PING命令。步骤14,当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;步骤15,当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。本专利技术可以及时、有效、可靠、快速的识别假死节点,比较简单。可选的,所述方法还包括:步骤16,将所述判断结果发送给所述分布式集群系统中除所述选择出的所述节点外的其他节点,使得除所述选择出的所述节点外的其他节点进行相应处理。本专利技术可以及时、有效、可靠、快速的识别假死节点,进行相应处理,提高了集群的稳定性。步骤16具体为:步骤161,当所述判断结果为:选择出的所述节点为假死节点时,所述除所述选择出的所述节点外的所述其他节点停止给所述假死节点分配任务;或者,停止等待所述假死节点对已分配任务的反馈消息。步骤162,当所述判断结果为:当选择出的所述节点为真死节点时,所述除所述选择出的所述节点外的所述其他节点断开与所述真死节点的连接。可选的,步骤11包括:步骤111,所述分布式集群系统中的各个节点每隔固定时长向其他节点连续发送预定数量的心跳请求;例如,一节点每隔2秒给其他节点发送2个心跳请求。步骤112,当所述其他节点中的第二节点没给发送心跳请求的第一节点返回心跳请求的响应消息时,则所述第二节点被所述第一节点判断为心跳检测超时;该实施例中的第一节点和第二节点只是为了表述不同节点,都为待监测节点。步骤113,根据各个所述第一节点的判断结果,统计出所述第二节点被判断为心跳检测超时的次数。如图2所示,为本专利技术所述的一种分布式集群系统中假死节点的监测装置,包括:第一获取模块21,获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;选择模块22,从所述各个节点中选择所述次数最高的节点;第二获取模块23,获取选择出的所述节点的网络连接状态;判断模块24,当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。所述的装置,还包括:发送模块25,将所述判断结果发送给所述分布式集群系统中除所述选择出的所述节点外的其他节点,使得除所述选择出的所述节点外的其他节点进行相应处理。所述第二获取模块23包括:心跳超时检测子模块231,用于所述分布式集群系统中的各个节点每隔固定时长向其他节点连续发送预定数量的心跳请求;判断子模块232,当所述其他节点中的第二节点没给发送心跳请求的第一节点返回心跳请求的响应消息时,则所述第二节点被所述第一节点判断为心跳检测超时;统计子模块233,根据各个所述第一节点的判断结果,统计出所述第二节点被判断为心跳检测超时的次数。如图3所述,为本专利技术所述的一种分布式集群系统中假死节点的监测系统,包括:分布式集群系统中的至少三个节点31、监测装置32;其中,监测装置可以设置在管理节点上,管理节点为不同于所述分布式集群系统中的至少三个待监测节点31外的节点。所述监测装置32用于:获取预定时长内分布式集群系统中各个所述节点的被其他节点判断为心跳检测超时的次数;从所述各个节点中选择所述次数最高的节点;获取选择出的所述节点的网络连接状态;当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述本文档来自技高网...
分布式集群系统中节点的工作状态的监测方法、装置及系统

【技术保护点】
一种分布式集群系统中节点的工作状态的监测方法,其特征在于,包括:获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;从所述各个节点中选择所述次数最高的节点;获取选择出的所述节点的网络连接状态;当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。

【技术特征摘要】
1.一种分布式集群系统中节点的工作状态的监测方法,其特征在于,包括:获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数;从所述各个节点中选择所述次数最高的节点;获取选择出的所述节点的网络连接状态;当选择出的所述节点的网络连接状态为畅通时,生成判断结果为:选择出的所述节点为假死节点;当选择出的所述节点的网络连接状态为断开时,生成判断结果为:选择出的所述节点为真死节点。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述判断结果发送给所述分布式集群系统中除所述选择出的所述节点外的其他节点,使得除所述选择出的所述节点外的其他节点进行相应处理。3.根据权利要求2所述的方法,其特征在于,所述除所述选择出的所述节点外的其他节点进行相应处理的步骤包括:当所述判断结果为:选择出的所述节点为假死节点时,所述除所述选择出的所述节点外的所述其他节点停止给所述假死节点分配任务;或者,停止等待所述假死节点对已分配任务的反馈消息。4.根据权利要求2所述的方法,其特征在于,所述除所述选择出的所述节点外的其他节点进行相应处理的步骤包括:当所述判断结果为:当选择出的所述节点为真死节点时,所述除所述选择出的所述节点外的所述其他节点断开与所述真死节点的连接。5.根据权利要求1所述的方法,其特征在于,所述获取选择出的所述节点的网络连接状态的步骤包括:通过因特网包探测器来测试所述节点的网络连接状态,以获取选择出的所述节点的网络连接状态。6.根据权利要求1所述的方法,其特征在于,所述获取预定时长内分布式集群系统中各个节点的被其他节点判断为心跳检测超时的次数的步骤包括:所述分布式集群系统中的各个节点每隔固定时长向其他节点连续发送预定数量的心跳请求;当所述其他节点中的第二节点没给发送心跳请求的第一节点返回心跳请求的响应消息时,则所述第二节点被所述第一节点判断为心跳检测超时...

【专利技术属性】
技术研发人员:张俊峰游峰李纲彬金鑫鑫
申请(专利权)人:北京华云网际科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1