【技术实现步骤摘要】
一种芯片异常处理方法、系统、设备以及存储介质
[0001]本专利技术涉及服务器领域,具体涉及一种芯片异常处理方法、系统、设备以及存储介质。
技术介绍
[0002]随着AI技术的发展,AI服务器被大批量使用。被用来提升信号完整性,增加高速信号的有效传输距离的retimer芯片也被广泛使用。此芯片的稳定性会直接影响整个系统的稳定性。因此对此芯片的稳定性保证则称为了AI服务器的重要一部分。除去硬件方面电路设计对稳定性的保证外,此芯片的异常一般是由于芯片固件问题导致。
[0003]当前环境下针对retimer卡的管理仅仅包括监测功能,通过OS监测带宽或者通过BMC读取retimer寄存器的方式拿到retimer卡速率和带宽,然后进行报警,并未尝试恢复固件,需要手动接线的方式升级固件。
技术实现思路
[0004]有鉴于此,为了克服上述问题的至少一个方面,本专利技术实施例提出一种芯片异常处理方法,包括以下步骤:
[0005]在BMC中部署容器;
[0006]将目标芯片的固件镜像加载到所述容器中;< ...
【技术保护点】
【技术特征摘要】
1.一种芯片异常处理方法,其特征在于,包括以下步骤:在BMC中部署容器;将目标芯片的固件镜像加载到所述容器中;利用所述BMC对所述目标芯片进行监测;响应于监测到所述目标芯片的固件异常,利用所述容器中的固件镜像对所述目标芯片的固件进行更新。2.如权利要求1所述的方法,其特征在于,利用所述BMC对所述目标芯片进行监测,进一步包括:响应于所述BMC监测到所述目标芯片异常次数达到阈值,获取所述目标芯片的固件并与flash中正常的固件进行对比。3.如权利要求2所述的方法,其特征在于,还包括:响应于所述目标芯片的固件与flash中正常的固件相同,报错并表示异常非固件导致。4.如权利要求2所述的方法,其特征在于,响应于监测到所述目标芯片的固件异常,利用所述容器中的固件镜像对所述目标芯片的固件进行更新,进一步包括:响应于所述目标芯片的固件与flash中正常的固件不相同,利用所述容器中的固件镜像对所述目标芯片的固件进行更新。5.一种芯片异常处理系统,其特征在于,包括:部署模块,配置为在BMC中部署容器;加载模块,配置为将目标芯片的固件镜像加载到所述容器中;监测模块,配置为利用所述BMC对所述目标芯片进...
【专利技术属性】
技术研发人员:刘宇,黄祉默,孙凯,王万强,王传飞,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。