【技术实现步骤摘要】
本专利技术涉及计算机
,具体地说是一种自动恢复集群中意外宕机节点的方法。
技术介绍
目前在高性能计算集群中,在实际使用过程中,计算节点可能由于某种原因会意外宕机,由于集群一般由成百上千计算节点组成,意外宕机的节点不需要第一时间恢复,也不会影响整个集群的使用,我们可以利用ipmi工具,监控集群节点状态,当发现有节点宕机后,通过ipmi的电源重启功能,自动对宕机节点发送重启命令,以达到自动恢复宕机节点的目的。
技术实现思路
本专利技术的目的是克服现有技术中存在的不足,提供 一种自动恢复集群中意外宕机节点的方法。本专利技术的技术方案是按以下方式实现的,方法如下:在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。 本专利技术的优点是:本专利技术的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本专利技术还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。具体实施方式下面对本专利技术的一种自动恢复集群中意外宕机节点的方法作以下详细说明。本专利技术的一种自动恢复集群中意外宕机节点的方法,方法如下: ...
【技术保护点】
一种自动恢复集群中意外宕机节点的方法,其特征在于方法如下:在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。
【技术特征摘要】
1.一种自动恢复集群中意外宕机节点的方法,其特征在于方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态d...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。