【技术实现步骤摘要】
紧耦合高性能计算机系统BMC系统自动修复方法及修复系统
本专利技术属于高性能计算机系统维护领域,尤其涉及一种面向高性能计算机系统的BMC系统自动修复方法。
技术介绍
随着高性能计算机运算性能的不断提升,主机系统包含的节点数量剧增,因此以维护节点为主要任务的分布式维护系统的规模也在随之增加。目前在紧耦合高性能计算系统中部署有数量极大的基板管理控制器(BMC),作为维护系统的重要部件,其自身的可靠性尤为重要。BMC的核心部件为嵌入式系统,通常BMC都将自身操作系统文件存储于大容量Flash中,由于Flash的自身特性,存在一定概率的坏块和失效,会导致BMC系统引导时出现失败。目前一种改进的做法是使用两级存储,将bootloader存储于可靠性更优但是单位价格更高的容量较小的NorFlash中,将内核和文件系统存储于可靠性稍差但是容量更大的eMMCnandFlash中,当eMMCnandFlash出现坏块导致内核或者文件系统故障时,常规做法是进行离线重烧。但此种方法在大规模系统中实施起来效率很低,导致平均故障修复时间较长, ...
【技术保护点】
1.紧耦合高性能计算机系统BMC系统自动修复方法,适用于包括BMC的计算机系统,其特征在于,包括:/nBMC在启动失败时从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行。/n
【技术特征摘要】
1.紧耦合高性能计算机系统BMC系统自动修复方法,适用于包括BMC的计算机系统,其特征在于,包括:
BMC在启动失败时从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行。
2.根据权利要求1所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于,BMC在启动失败时从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行之后,还包括:
BMC存储所述BMC启动文件。
3.根据权利要求1所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于:
所述BMC启动文件是指BMC内核和BMC根文件系统。
4.根据权利要求1所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于,所述BMC在启动失败时从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到BMC系统的内存中运行,具体指:
监测计算机系统中各BMC启动状态并且在监测到BMC启动失败时命令BMC进入自动修复模式;
BMC在自动修复模式下从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行。
5.根据权利要求4所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于,所述监测计算机系统中各BMC启动状态,具体指:
监测计算机系统中各BMC的串口输出信号以监测各BMC的启动状态。
6.根据权利要求4所述的紧耦合高性能计算机系统BMC系统自动修复方法,其特征在于...
【专利技术属性】
技术研发人员:吴智,张春林,韩小虎,张祯,建澜涛,黄益明,
申请(专利权)人:无锡江南计算技术研究所,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。