一种自动恢复集群中意外宕机节点的方法技术

技术编号:11183021 阅读:64 留言:0更新日期:2015-03-25 12:10
本发明专利技术提供一种自动恢复集群中意外宕机节点的方法,方法如下:在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。本发明专利技术的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本发明专利技术还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体地说是一种自动恢复集群中意外宕机节点的方法
技术介绍
目前在高性能计算集群中,在实际使用过程中,计算节点可能由于某种原因会意外宕机,由于集群一般由成百上千计算节点组成,意外宕机的节点不需要第一时间恢复,也不会影响整个集群的使用,我们可以利用ipmi工具,监控集群节点状态,当发现有节点宕机后,通过ipmi的电源重启功能,自动对宕机节点发送重启命令,以达到自动恢复宕机节点的目的。
技术实现思路
本专利技术的目的是克服现有技术中存在的不足,提供  一种自动恢复集群中意外宕机节点的方法。本专利技术的技术方案是按以下方式实现的,方法如下:在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。 本专利技术的优点是:本专利技术的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本专利技术还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。具体实施方式下面对本专利技术的一种自动恢复集群中意外宕机节点的方法作以下详细说明。本专利技术的一种自动恢复集群中意外宕机节点的方法,方法如下:在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。节点资源监控:通过作业调度PBS来提取计算节点状态,监控到的节点状态down后,在通过ping命令,对宕掉节点进一步确认是否宕机。宕机节点重启:确认节点宕机后,通过IPMI协议命令对宕机节点发送reset命令,强制重启宕机节点。本专利技术的一种自动恢复集群中意外宕机节点的方法其加工制作非常简单方便,按照说明书所示即可加工。除说明书所述的技术特征外,均为本专业技术人员的已知技术。本文档来自技高网...

【技术保护点】
一种自动恢复集群中意外宕机节点的方法,其特征在于方法如下:在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。

【技术特征摘要】
1.一种自动恢复集群中意外宕机节点的方法,其特征在于方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态d...

【专利技术属性】
技术研发人员:孙玉超
申请(专利权)人:浪潮集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1