紧耦合高性能计算机系统BMC系统自动修复方法及修复系统技术方案

技术编号:24090218 阅读:97 留言:0更新日期:2020-05-09 07:44
本发明专利技术属于高性能计算机系统维护领域,尤其涉及紧耦合高性能计算机系统BMC系统自动修复方法及修复系统。其特征在于,包括:管理系统监测到BMC启动失败时,控制其重新启动,从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行。上述技术方案中,只需将BMC启动所需的BMC启动文件存储在远程文件系统中,如果BMC由于Flash坏块引起系统崩溃导致启动失败时,能够通过远程的网络文件系统获取启动所需的文件实现自动修复。仅需在远程文件系统中占用存储一份BMC启动文件的空间即可供计算机系统中的众多节点的BMC系统共享,节省资源方便维护并且众多节点的BMC可同时从网络文件系统获取BMC文件提高了维护效率。

Automatic repairing method and system of BMC system in close coupled high performance computer system

【技术实现步骤摘要】
紧耦合高性能计算机系统BMC系统自动修复方法及修复系统
本专利技术属于高性能计算机系统维护领域,尤其涉及一种面向高性能计算机系统的BMC系统自动修复方法。
技术介绍
随着高性能计算机运算性能的不断提升,主机系统包含的节点数量剧增,因此以维护节点为主要任务的分布式维护系统的规模也在随之增加。目前在紧耦合高性能计算系统中部署有数量极大的基板管理控制器(BMC),作为维护系统的重要部件,其自身的可靠性尤为重要。BMC的核心部件为嵌入式系统,通常BMC都将自身操作系统文件存储于大容量Flash中,由于Flash的自身特性,存在一定概率的坏块和失效,会导致BMC系统引导时出现失败。目前一种改进的做法是使用两级存储,将bootloader存储于可靠性更优但是单位价格更高的容量较小的NorFlash中,将内核和文件系统存储于可靠性稍差但是容量更大的eMMCnandFlash中,当eMMCnandFlash出现坏块导致内核或者文件系统故障时,常规做法是进行离线重烧。但此种方法在大规模系统中实施起来效率很低,导致平均故障修复时间较长,维护系统的可靠性和可本文档来自技高网...

【技术保护点】
1.紧耦合高性能计算机系统BMC系统自动修复方法,适用于包括BMC的计算机系统,其特征在于,包括:/nBMC在启动失败时从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行。/n

【技术特征摘要】
1.紧耦合高性能计算机系统BMC系统自动修复方法,适用于包括BMC的计算机系统,其特征在于,包括:
BMC在启动失败时从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行。


2.根据权利要求1所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于,BMC在启动失败时从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行之后,还包括:
BMC存储所述BMC启动文件。


3.根据权利要求1所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于:
所述BMC启动文件是指BMC内核和BMC根文件系统。


4.根据权利要求1所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于,所述BMC在启动失败时从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到BMC系统的内存中运行,具体指:
监测计算机系统中各BMC启动状态并且在监测到BMC启动失败时命令BMC进入自动修复模式;
BMC在自动修复模式下从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行。


5.根据权利要求4所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于,所述监测计算机系统中各BMC启动状态,具体指:
监测计算机系统中各BMC的串口输出信号以监测各BMC的启动状态。


6.根据权利要求4所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于...

【专利技术属性】
技术研发人员:吴智张春林韩小虎张祯建澜涛黄益明
申请(专利权)人:无锡江南计算技术研究所
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1