【技术实现步骤摘要】
一种基于paxos算法的去中心化HPC计算集群管理方法及系统
本专利技术涉及计算机数据处理
,具体而言,为一种基于paxos算法的去中心化HPC计算集群管理方法及系统。
技术介绍
随着国家对信息化改革的大力推行,中国的超级计算机建设也在世界上名列前茅,国家级超算中心也越来越多,超级计算机的规模也越来越庞大,算力也轻松突破E级,这对运行在超级计算机的作业调度系统和集群监控系统等软件的要求也是越来越高,在原来规模较小时使用的HPC软件产品架构也不能适应更大规模的调度和计算资源监控,导致硬件与软件系统不匹配,从而在软件层面影响整个计算集群的实际计算性能。现在的HPC集群产品软件基本都是主从集群架构,基本是一主一从方式来实现集群,典型的单主中心化集群架构,可通过三方软件实现单次故障高可用,如果发生两次以上的故障,整个集群处于不可用状态。单主集群的工作模式所有作业提交只能通过主管理节点提交和调度,当集群规模较小时,多作业以排队方式缓解作业调度压力,当超级计算机规模足够大时,计算力不再是瓶颈时,主管理节点的调度和可用性就会成为新的 ...
【技术保护点】
1.一种基于paxos算法的去中心化HPC计算集群管理方法,其特征在于,包括/n部署主管理节点和多个备管理节点,并设置集群管理选举机制;/n集群管理选举机制包括:主管理节点发出心跳连接的回复超出预设值,备管理节点根据paxos算法进行选举以产生新的主管理节点;/n原主管理节点下线,新的主管理节点对剩余备管理节点进行心跳监控。/n
【技术特征摘要】
1.一种基于paxos算法的去中心化HPC计算集群管理方法,其特征在于,包括
部署主管理节点和多个备管理节点,并设置集群管理选举机制;
集群管理选举机制包括:主管理节点发出心跳连接的回复超出预设值,备管理节点根据paxos算法进行选举以产生新的主管理节点;
原主管理节点下线,新的主管理节点对剩余备管理节点进行心跳监控。
2.根据权利要求1所述的基于paxos算法的去中心化HPC计算集群管理方法,其特征在于,集群管理选举机制具体包括:
S1.主管理节点发出心跳连接消息对集群中其他节点监控,并对心跳回复收集并统计,根据统计结果确定备管理节点是否发起选举请求;
S2.当其中一个备管理节点第一个发起选举请求,其他节点响应。
S3.如果半数节点以上响应为真,原主管理节点下线;
S4.如果半数节点以上响应为假,原主管理节点继续工作;
S5.如果原主管理节点下线,则进入选举流程;
S6.发起选举的节点发送选举通知后,所有节点进入选举模式;根据Paxos选举算法选出新的管理节点,并通知给所有节点。
3.根据权利要求1所述的基于paxos算法的去中心化HPC计算集群管理方法,其特征在于,还包括设置多节点作业提交与资源管理机制。
4.根据权利要求3所述的基于paxos算法的去中心化HPC计算集群管理方法,其特征在于,所述多节点作业提交与资源管理机制包括:
集群内所有节点均部署有作业接收、作业调度、作业监控、资源申请与监控服务;
集群内所有节点共用一个计算资源池;任一节点提交作业时同时要...
【专利技术属性】
技术研发人员:解文龙,张晋锋,张永生,刘瑞贤,李斌,历军,
申请(专利权)人:曙光信息产业北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。