The present invention provides a self construction method, device and system for cluster cluster system, when the service node determines the first node failure management, through business start nodes communicate with each other, each service node determines a plurality of candidate nodes from multiple service nodes, and from a number of identified second candidate nodes in a node management second, the management node instead of the first node, second node management the original sub tasks other candidate nodes in addition to the second node management several candidate nodes, thus failure fast election of a new management node in the first cluster management node does not need to stop the operation of the system, but also do not need other equipment to improve the efficient use of cluster management node, system reliability and system resources, the cluster system can be safe and stable operation.
【技术实现步骤摘要】
集群系统自构建方法、装置及集群系统
本专利技术涉及通信
,尤其涉及一种集群系统自构建方法、装置及集群系统。
技术介绍
随着信息技术的不断发展,集群技术正在越来越多的领域中被广泛应用,常见的如服务器集群、数据库集群等。在应用集群的技术中,集群通常会按照一定的策略设置管理节点和业务节点,分别按各自承担的任务工作,而且管理节点还要负责监测各业务节点的状态和工作情况,如果业务节点发生故障,管理节点要确保将该发生故障的业务节点所承担的任务切换到其它正常的业务节点,从而增强集群的可靠性。而当管理节点发生故障,则会导致集群的任务调度出现问题。现有技术中通常在管理节点发生故障后,暂停集群的运行,由人工查明原因排出故障;或者,另设一台备用管理节点,在管理节点发生故障后,由该备用管理节点执行管理节点所承担的任务。现有技术中,当管理节点发生故障,通过暂停集群的运行,由人工查明原因排出故障,降低了集群系统的工作效率;而另设备用管理节点,在管理节点正常工作时,通常备用管理节点处于闲置状态,浪费了系统资源。
技术实现思路
本专利技术提供一种集群系统自构建方法、装置及集群系统,以在管理节点发 ...
【技术保护点】
一种集群系统自构建方法,其特征在于,所述集群系统包括第一管理节点和多个业务节点,所述第一管理节点用于将任务划分为多个子任务并分发给所述业务节点;所述方法包括:当所述业务节点确定所述第一管理节点出现故障时,所述业务节点间启动相互通信;所述多个业务节点中的每一业务节点从所述多个业务节点中确定若干个候选节点,并从所述若干个候选节点中确定出第二管理节点,所述第二管理节点用于替代所述第一管理节点,所述若干个候选节点中除所述第二管理节点之外的其他候选节点用于执行所述第二管理节点原有的子任务。
【技术特征摘要】
1.一种集群系统自构建方法,其特征在于,所述集群系统包括第一管理节点和多个业务节点,所述第一管理节点用于将任务划分为多个子任务并分发给所述业务节点;所述方法包括:当所述业务节点确定所述第一管理节点出现故障时,所述业务节点间启动相互通信;所述多个业务节点中的每一业务节点从所述多个业务节点中确定若干个候选节点,并从所述若干个候选节点中确定出第二管理节点,所述第二管理节点用于替代所述第一管理节点,所述若干个候选节点中除所述第二管理节点之外的其他候选节点用于执行所述第二管理节点原有的子任务。2.根据权利要求1所述的方法,其特征在于,所述多个业务节点中的每一业务节点从所述多个业务节点中确定若干个候选节点,具体包括:每一所述业务节点自我监控其运转情况和健康度,并将其健康度和任务量广播给其他业务节点;每一所述业务节点根据各业务节点的健康度和任务量进行排序,以健康度较高且任务量较少的前N个业务节点为所述候选节点。3.根据权利要求1所述的方法,其特征在于,所述从所述若干个候选节点中确定出第二管理节点,具体包括:每一所述候选节点与其余所述候选节点进行通信,根据其余所述候选节点对该候选节点的通信延迟状况的评价、以及该候选节点的健康度,获取得分;根据各所述候选节点的得分,淘汰得分最低的所述候选节点;重复上述获取得分和淘汰得分最低的候选节点,直至剩余一个所述候选节点,作为所述第二管理节点。4.根据权利要求3所述的方法,其特征在于,所述每一所述候选节点与其余所述候选节点进行通信后,还包括:若某一所述候选节点出现通信无反馈,则视为该候选节点弃权,淘汰该候选节点;将上一轮选举过程淘汰的候选节点重新加入本轮选举过程中。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述业务节点确定所述第一管理节点出现故障前,还包括:所述业务节点接收所述第一管理节点广播的心跳包,所述心跳包由所述第一管理节点根据自我监控其运转情况和健康度所生成;所述业务节点确定所述第一管理节点出现故障,具体包括:当所述业务节点未收到所述心跳包时,确定所述第一管理节点出现故障。6.根据权利要求1所述的方法,其特征在于,所述第二管理节点替代所述第一管理节点后,还包括:若所述第一管理节点修复成功,将其作为业务节点重新添加到所述集群系统中。7.一种集群系统自构建装置,其特征在于,所述集群系统包括第一管理节点和多个业务节点,所述第一管理节点用于将任务划分为多个子任务并分发给所述业务节点;所述装置部署于所述第一管理节点及所述业务节点上,所述装置包括:通信模块,用于所述业务节点与所述第一管理节通信,并当所述业务节点确定所...
【专利技术属性】
技术研发人员:张勋,张呈宇,魏进武,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。