【技术实现步骤摘要】
本专利技术涉及操作系统领域,特别是涉及一种ai服务器操作系统故障检测和恢复的方法和装置。
技术介绍
1、目前的人工智能(artificial intelligence,简写为ai)服务器使用场景中,主要运行的操作系统为linux操作系统。linux操作系统在启动过程中,可能会出现宕机或者异常重启等启动故障的情况。当服务器硬件出现故障、操作系统的硬件设备驱动与硬件不兼容,或linux操作系统核心组件损坏时,都会导致服务器操作系统的内核启动过程中出现启动故障的情况。
2、linux操作系统的两大核心组件是linux内核和根文件系统,根文件系统一般存储在硬盘里,由于服务器突然掉电或者拔插硬盘等操作,可能会出现根文件系统损坏的情况;同时,由于硬盘存储介质原因,也存在由于坏块等因素导致的根文件系统损坏。当根文件系统损坏后,操作系统也会出现启动故障。
3、当前的服务器使用过程中,在操作系统正常启动后,可以使用服务器的监控管理模块(base-board management controller,简写为bmc)对服务器和操作系
...【技术保护点】
1.一种AI服务器操作系统故障检测和恢复的方法,其特征在于,包括:
2.根据权利要求1所述的AI服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块与硬盘文件系统中的硬盘监测模块之间交互第一心跳包,根据第一心跳包获取操作系统的启动状态,具体包括:
3.根据权利要求1所述的AI服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块通过第二心跳包将启动状态反馈至BIOS,具体包括:
4.根据权利要求3所述的AI服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块通过第二心跳包将启动状态反馈至BIOS,还
...
【技术特征摘要】
1.一种ai服务器操作系统故障检测和恢复的方法,其特征在于,包括:
2.根据权利要求1所述的ai服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块与硬盘文件系统中的硬盘监测模块之间交互第一心跳包,根据第一心跳包获取操作系统的启动状态,具体包括:
3.根据权利要求1所述的ai服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块通过第二心跳包将启动状态反馈至bios,具体包括:
4.根据权利要求3所述的ai服务器操作系统故障检测和恢复的方法,其特征在于,所述监控管理模块通过第二心跳包将启动状态反馈至bios,还包括:
5.根据权利要求1所述的ai服务器操作系统故障检测和恢复的方法,其特征在于,所述bios将引导方式切换至内存文件系统,具体包括:
6.根据权利要求1所述的ai...
【专利技术属性】
技术研发人员:邓艳山,袁振涛,蔡财义,华少澜,
申请(专利权)人:武汉长江计算科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。