【技术实现步骤摘要】
一种维护Slurm HA状态数据文件的方法、系统及终端
[0001]本申请涉及Linux集群管理
,特别是涉及一种维护Slurm HA状态数据文件的方法、系统及终端。
技术介绍
[0002]Slurm是一个开源、容错、高度可扩展的集群管理和作业调度系统,适用于大型和小型Linux集群。通常情况下,Slurm有一个集中式管理器slurmctld,用于监视资源和工作,以及一个备份管理器,用于在集中式管理器发生故障时承担监视资源和工作的任务。也就是Slurm调度系统可以部署HA方案,用于调度系统的冗灾,实现作业调度的高可用。当一台管理slurm管理节点故障时,备用的slurm管理节点可接管服务,继续保证调度系统的运行。因此,当集中式管理器slurmctld故障时,如何进行Slurm HA故障切换,维护slurm调度的状态数据,是个重要的技术问题。
[0003]目前,当集中式管理器slurmctld故障时,维护slurm调度的状态数据的方法,通常是:搭建一个共享存储或者设置一个共享目录,将slurm调度的状态数据存放在 ...
【技术保护点】
【技术特征摘要】
1.一种维护Slurm HA状态数据文件的方法,其特征在于,所述方法应用于Slurm主管理节点故障的场景,所述方法包括:在Slurm调度系统中部署Slurm HA服务;在Slurm主管理节点和备管理节点之间建立SSH免密通信;通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点。2.根据权利要求1所述的一种维护Slurm HA状态数据文件的方法,其特征在于,所述通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点,包括:在主管理节点部署lsyncd服务;在配置文件中将主管理节点的IP地址、状态数据目录作为源,将备管理节点的IP地址、状态数据目录作为备;根据配置文件运行lsyncd服务,并检查lsyncd服务是否正常运行;如果否,重新修改配置文件,直到lsyncd服务正常运行。3.根据权利要求1所述的一种维护Slurm HA状态数据文件的方法,其特征在于,通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点之后,所述方法还包括:通过模拟主管理节点故障,对所部署的Slurm HA服务进行校验。4.根据权利要求1
‑
3中任意一项所述的一种维护Slurm HA状态数据文件的方法,其特征在于,通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点之后,所述方法还包括:将lsyncd服务设置为开机自启模式。5.一种维护Slurm HA状态数据文件的系统,其特征在于,所述方法应用于Slurm主管理节点故障的场景,所...
【专利技术属性】
技术研发人员:王金喜,宋亭豫,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。