一种AI服务器操作系统故障检测和恢复的方法和装置制造方法及图纸

技术编号:44620214 阅读:14 留言:0更新日期:2025-03-17 18:19
本发明专利技术涉及操作系统领域,特别是涉及一种AI服务器操作系统故障检测和恢复的方法和装置。主要包括:将硬盘文件系统作为操作系统启动时的引导方式,监控管理模块与硬盘文件系统中的硬盘监测模块之间交互第一心跳包,根据第一心跳包获取操作系统的启动状态;监控管理模块与BIOS之间建立第二心跳包交互,监控管理模块通过第二心跳包将启动状态反馈至BIOS,当启动失败时,BIOS将引导方式切换至内存文件系统,通过内存文件系统中预存的系统根文件进行操作系统启动。本发明专利技术可以有效降低操作系统内核无法正常启动和根文件系统以及无法正常加载这两种致命服务器操作系统故障的影响,避免服务器启动故障导致的损失。

【技术实现步骤摘要】

本专利技术涉及操作系统领域,特别是涉及一种ai服务器操作系统故障检测和恢复的方法和装置。


技术介绍

1、目前的人工智能(artificial intelligence,简写为ai)服务器使用场景中,主要运行的操作系统为linux操作系统。linux操作系统在启动过程中,可能会出现宕机或者异常重启等启动故障的情况。当服务器硬件出现故障、操作系统的硬件设备驱动与硬件不兼容,或linux操作系统核心组件损坏时,都会导致服务器操作系统的内核启动过程中出现启动故障的情况。

2、linux操作系统的两大核心组件是linux内核和根文件系统,根文件系统一般存储在硬盘里,由于服务器突然掉电或者拔插硬盘等操作,可能会出现根文件系统损坏的情况;同时,由于硬盘存储介质原因,也存在由于坏块等因素导致的根文件系统损坏。当根文件系统损坏后,操作系统也会出现启动故障。

3、当前的服务器使用过程中,在操作系统正常启动后,可以使用服务器的监控管理模块(base-board management controller,简写为bmc)对服务器和操作系统的运行状态进行检测本文档来自技高网...

【技术保护点】

1.一种AI服务器操作系统故障检测和恢复的方法,其特征在于,包括:

2.根据权利要求1所述的AI服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块与硬盘文件系统中的硬盘监测模块之间交互第一心跳包,根据第一心跳包获取操作系统的启动状态,具体包括:

3.根据权利要求1所述的AI服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块通过第二心跳包将启动状态反馈至BIOS,具体包括:

4.根据权利要求3所述的AI服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块通过第二心跳包将启动状态反馈至BIOS,还包括:

...

【技术特征摘要】

1.一种ai服务器操作系统故障检测和恢复的方法,其特征在于,包括:

2.根据权利要求1所述的ai服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块与硬盘文件系统中的硬盘监测模块之间交互第一心跳包,根据第一心跳包获取操作系统的启动状态,具体包括:

3.根据权利要求1所述的ai服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块通过第二心跳包将启动状态反馈至bios,具体包括:

4.根据权利要求3所述的ai服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块通过第二心跳包将启动状态反馈至bios,还包括:

5.根据权利要求1所述的ai服务器操作系统故障检测和恢复的方法,其特征在于,所述bios将引导方式切换至内存文件系统,具体包括:

6.根据权利要求1所述的ai...

【专利技术属性】
技术研发人员:邓艳山袁振涛蔡财义华少澜
申请(专利权)人:武汉长江计算科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1