基于国产化平台的高可靠集群构建方法技术

技术编号:17998866 阅读:102 留言:0更新日期:2018-05-19 16:10
本发明专利技术公开了一种基于国产化平台的高可靠集群构建方法,包括双层心跳检测,所述双层心跳检测包括如下步骤:将所有集群节点按照物理位置将其划分为不同区域,将网络通信代价小且网络状况稳定的节点划分为同一区域;每个区域选出一个节点作为主控节点,其它节点均为普通节点;在各主控节点之间进行域间心跳检测,各主控节点收集其所在区域内的所有普通节点的状态信息并通过心跳包发送给其它所有域的主控节点;进行域内心跳检测,域内的所有节点组成一个逻辑心跳环,由主控节点组建域内的心跳包并沿着环依次向下转发,检测环内节点的状态,具有较低的预测误差以及较短的检测时间。

【技术实现步骤摘要】
基于国产化平台的高可靠集群构建方法
本专利技术涉及指挥自动化技术,尤其是一种基于国产化平台的高可靠集群构建方法。
技术介绍
集群就是将一组计算机通过网络连接在一起,并与相关软件相结合,对外提供透明的服务。高可靠集群系统中,系统的容错与任务分配机制至关重要。容错机制所涉及的主要技术是故障检测和故障恢复,其中故障检测是故障恢复的前提。任务分配方法往往能大大提高系统资源的利用率,而负载均衡分配方法则能够根据系统各节点的负载情况,动态地进行任务分配,能够很好地提高系统整体资源利用率。在目前的高可靠集群系统研究中,主要存在以下三个问题:(1)高可靠集群软件大多运行在X86平台上,在国产化自主可控计算机平台上运行的较少;(2)随着集群系统规模的增大,心跳数据包的数量也随之增多,网络延时会变得不确定,此时若采用固定的心跳包超时阈值的方法,可能会加大误判的可能性;(3)在任务的负载均衡分配方法中,由于没有考虑不同任务与不同节点的相关性,导致最终处理结果并不满足用户实际需求。
技术实现思路
专利技术目的:针对上述现有技术存在的缺陷,本专利技术旨在提供一种基于国产化平台的高可靠集群构建方法。技术方案:一种基本文档来自技高网...
基于国产化平台的高可靠集群构建方法

【技术保护点】
一种基于国产化平台的高可靠集群构建方法,其特征在于,包括双层心跳检测,所述双层心跳检测包括如下步骤:将所有集群节点按照物理位置将其划分为不同区域,将网络通信代价小且网络状况稳定的节点划分为同一区域;每个区域选出一个节点作为主控节点,其它节点均为普通节点;在各主控节点之间进行域间心跳检测,各主控节点收集其所在区域内的所有普通节点的状态信息并通过心跳包发送给其它所有域的主控节点;进行域内心跳检测,域内的所有节点组成一个逻辑心跳环,由主控节点组建域内的心跳包并沿着环依次向下转发,检测环内节点的状态。

【技术特征摘要】
1.一种基于国产化平台的高可靠集群构建方法,其特征在于,包括双层心跳检测,所述双层心跳检测包括如下步骤:将所有集群节点按照物理位置将其划分为不同区域,将网络通信代价小且网络状况稳定的节点划分为同一区域;每个区域选出一个节点作为主控节点,其它节点均为普通节点;在各主控节点之间进行域间心跳检测,各主控节点收集其所在区域内的所有普通节点的状态信息并通过心跳包发送给其它所有域的主控节点;进行域内心跳检测,域内的所有节点组成一个逻辑心跳环,由主控节点组建域内的心跳包并沿着环依次向下转发,检测环内节点的状态。2.根据权利要求1所述的基于国产化平台的高可靠集群构建方法,其特征在于,还包括负载均衡调度,所述负载均衡调度包括如下步骤:将集群系统中的节点按照处理任务类型侧重点划分为不同的资源组;在负载均衡器分配任务时,根据任务与资源组的相关度以及资源组的综合负载情况,进行资源组间调度,将任务分配给负载小、相关度高的资源组处理,再由该资源组根据组内各节点的负载情况,进行资源组内调度,将任务分配给具体的节点执行。3.根据权利要求1所述的基于国产化平台的高可靠集群构建方法,其特征在于,所述域间心跳检测具体包括:设置心跳包的超时时间:其中,Xt为预测心跳包的到达间隔,{At}为心跳包的实际到达时间序列,Tθ为固定超时阈值;若对应节点的心跳包在设置的超时时间内到达,则记录本次心跳包的实际到达时间并更新对应节点的时间表,然后根据最新的时间表预测对应节点下一个心跳包的到达时间;若对应节点的心跳包在预测的时间内未到达,则向对应节点发送健康询问包。4.根据权利要求1所述的基于国产化平台的高可靠集群构建方法,其特征在于,所述域内心跳检测具体包括:域内节点集合为{N1,N2,...,Nm},m为环内节点个数,将所有节点组成一个心跳环,节点Nk和Nk+1为逻辑上的邻居节点,且Nk为Nk+1的前邻居节点,Nk+1为Nk的后邻居节点;节点Nk从前邻居节点Nk-1接收HBt随之转发给后邻居节点Nk+1,同时回复给前邻居节点Nk-1一个HBr以告知自己的状态,每个节点维护一个计时器,当节点Nk将HBt转发给后邻居节点Nk+1时开始计时,若该节点在阈值时间内没有收到后邻居节点Nk+1的回复HBr,则认为后邻居节点Nk+1失效,此时该节点重置计时器并创建一个新的HBt发给后邻居节点Nk+1的后邻居节点Nk+2,若节点Nk在阈值时间内收到节点的HBr,则不再采取动作,由节点Nk+2继...

【专利技术属性】
技术研发人员:张民强杨凌刘海天付建苏王会龙刘飞邱德明王符合王梓
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1