System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种分布式系统领域,更具体地说,涉及一种两维探测的集群管理技术。
技术介绍
1、现有集群管理技术多采用集群管理结点以心跳的方式探测被管理的集群结点(下文称其为业务集群结点)的形式。
2、存在问题1:业务集群结点内部模块的健康状况无法精准探测到。如:业务集群结点内部有多个功能模块,其中某一个关键功能模块发生了故障,但是与集群管理结点通信并回复心跳的功能模块并未发生故障,当使用现有的集群管理技术,集群管理结点会认为此业务集群结点心跳回复正常,并未发生故障,进而无法探测出此故障。
3、问题2:现有集群管理技术存在误判的可能性,可靠性相对较差。如在复杂的网络架构下,集群管理结点(可能是多个结点组成的集群)发现其管理的业务集群结点回复心跳都超时,认为这些业务集群结点都发生故障,但是真正的故障原因是集群管理结点自身对外的网络出现故障导致收不到业务集群结点的心跳。
技术实现思路
1、针对上述问题,本专利技术提供了一种两维探测的集群管理技术,本专利技术所描述的集群管理技术,业务集群结点会将内部出现故障的模块的信息上报给集群管理结点,并且还会有其他业务集群结点辅助探测此业务集群结点的健康状况,发现有故障模块并上报给集群管理结点,这样集群管理结点就能够及时探测出该业务集群结点出现了故障。本专利技术所描述的集群管理技术,集群管理结点会单方面认为业务集群结点心跳超时,但是缺少辅助探测业务集群结点上报其探测的业务集群结点出现故障,由于缺少辅助探测的依据,集群管理结点只会
2、为了达到上述目的,本专利技术提供一种两维探测的集群管理技术,包括如下步骤:
3、s1、业务集群结点管理模块自身内部探测步骤,包括如下内容:
4、a、管理模块开始运行,并等待事件的触发;
5、b、当发探测心跳定时事件触发,发送心跳包给集群结点的所有功能模块,用以探测各功能模块的健康状况;
6、c、当集群管理结点探测心跳包到来事件触发,回复集群管理结点一个心跳应答数据包,这个数据包中需要放入内部探测数据和辅助探测数据;
7、d、当检查心跳超时定时事件触发,检查所有功能模块回复心跳包的情况,当业务集群结点内部模块未回复最新心跳序号的心跳应答包,更新内部探测数据,将此功能模块的心跳超时次数加1,并进行警告操作;
8、e、当心跳应答包到来事件触发,从心跳应答包中获取功能模块的信息,再更新内部探测数据,将此功能模块的心跳超时次数清0;
9、s2、业务集群结点内部功能模块辅助探测其他业务集群结点步骤,包括如下内容:
10、a、业务集群结点内部功能模块开始运行,并等待事件的触发;
11、b、当发送辅助探测心跳包事件触发,发送心跳探测包给被其辅助探测的业务集群结点功能模块,用以探测被其辅助探测的业务集群结点的功能模块的健康状况;
12、c、当内部管理模块探测心跳包到来事件触发,发送心跳应答包给内部管理模块,心跳应答包中包括收到探测心跳包中的心跳序号、此功能模块的身份信息和此功能模块所记录的辅助探测数据;
13、d、当辅助探测心跳应答包到来事件触发,从心跳应答包中获取被辅助探测的业务集群结点身份信息和功能模块身份信息,更新辅助探测数据,将此被探测的业务集群结点的功能模块的心跳超时次数清0;
14、e、当辅助探测心跳包到来事件触发,发送心跳应答包给辅助探测心跳包的发送方,心跳应答包中包含探测心跳包中的心跳序号、此功能模块所属的业务集群结点身份信息和此功能模块身份信息;
15、f、当其他业务事件触发,进行相应的业务逻辑处理;
16、s3、集群管理结点探测业务集群结点步骤,包括如下内容:
17、a、集群管理结点开始运行,并等待事件的触发;
18、b、当发探测心跳定时事件触发,发送心跳包给所有业务集群结点的管理模块,用以探测业务集群结点的健康状况;
19、c、当心跳应答包到来事件触发,从心跳应答包中获取被探测的业务集群结点身份信息和该业务集群结点上报的数据记录下来,并更新内部数据,将此业务集群结点的心跳超时次数清0;
20、d、当检查心跳超时定时事件触发,分析内部数据中记录的所有业务集群结点回复心跳包的情况和上报的数据,决策业务集群结点出现异常或故障,对异常或故障结点进行相应的处理;
21、s4、异常或故障节点处理方式,包括如下内容:
22、a、针对异常结点,以心跳包连续超时的次数是否达到或超过管理结点设定的阈值作为达到故障的判定条件,当心跳超时的情况发生,对此类结点进行警告处理;
23、b、针对内部功能模块故障的病态结点,当产生病态的功能模块对系统及业务产生影响,将此病态结点踢出集群,当产生病态的功能模块对系统及业务不产生影响,而此结点的其他功能模块都正常工作,选择保留此结点;
24、c、针对与集群管理结点和所有辅助探测结点都心跳超时的故障结点,表示已经宕机,直接将其踢出集群。
25、优选地,所述步骤s1中步骤a的事件包括:
26、①、发探测心跳定时事件,此事件是个定时事件,周期性地触发;
27、②、集群管理结点的探测心跳包到来事件,当收到集群管理结点的心跳包时,会触发此事件;
28、③、检查心跳超时定时事件,此事件是个定时事件,周期性地触发;
29、④、心跳应答包到来事件,当收到该管理模块所管理的功能模块回复的心跳答应包时,会触发此事件。
30、优选地,所述业务集群结点内部模块包括网络收发模块、磁盘io模块、业务逻辑处理模块。
31、优选地,所述步骤s2中步骤a的事件包括:
32、①、发送辅助探测心跳包事件,此事件是个定时事件,周期性地触发;
33、②、内部管理模块探测心跳包到来事件,当收到内部管理模块的心跳包时,会触发此事件;
34、③、辅助探测心跳应答包到来事件,当收到被此功能模块辅助探测的业务集群结点回复的心跳应答包时触发;
35、④、辅助探测心跳包到来事件,当收到其他业务集群结点功能模块发送的探测心跳包时触发;
36、⑤、其他业务事件,业务数据包到来时触发。
37、优选地,所述步骤s3中步骤a的事件包括:
38、①、发送探测心跳包定时事件,此事件是个定时事件,周期性地触发;
39、②、检查心跳超时定时事件,此事件是个定时事件,周期性地触发;
40、③、心跳应答包到来事件,当收到业务集群结点回复的心跳应答包时触发。
41、优选地,所述步骤s4中步骤b将病态结点踢出集群以发送心跳包的方式或发送事件数据包的方式给所有其他非病态的业务集群结点,通知所有其他非病态的业务集群结点此病态结点已被踢出集群,数据包中包含此病态结点已被踢出集本文档来自技高网...
【技术保护点】
1.一种两维探测的集群管理技术,其特征在于,包括如下步骤:
2.根据权利要求1所述两维探测的集群管理技术,其特征在于,所述步骤S1中步骤a的事件包括:
3.根据权利要求1所述两维探测的集群管理技术,其特征在于,所述业务集群结点内部模块包括网络收发模块、磁盘IO模块、业务逻辑处理模块。
4.根据权利要求1所述两维探测的集群管理技术,其特征在于,所述步骤S2中步骤a的事件包括:
5.根据权利要求1所述两维探测的集群管理技术,其特征在于,所述步骤S3中步骤a的事件包括:
6.根据权利要求1所述两维探测的集群管理技术,其特征在于,所述步骤S4中步骤b将病态结点踢出集群以发送心跳包的方式或发送事件数据包的方式给所有其他非病态的业务集群结点,通知所有其他非病态的业务集群结点此病态结点已被踢出集群,数据包中包含此病态结点已被踢出集群的信息,后续所有其他非病态的业务集群结点将不再与此病态结点进行信息交互,认为其已下线。
【技术特征摘要】
1.一种两维探测的集群管理技术,其特征在于,包括如下步骤:
2.根据权利要求1所述两维探测的集群管理技术,其特征在于,所述步骤s1中步骤a的事件包括:
3.根据权利要求1所述两维探测的集群管理技术,其特征在于,所述业务集群结点内部模块包括网络收发模块、磁盘io模块、业务逻辑处理模块。
4.根据权利要求1所述两维探测的集群管理技术,其特征在于,所述步骤s2中步骤a的事件包括:
5.根据权利...
【专利技术属性】
技术研发人员:刘洪洋,刘华骏,赵世强,段兴伟,师松阳,孟文,
申请(专利权)人:大连飞创信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。