一种芯片异常处理方法、系统、设备以及存储介质技术方案

技术编号:37114163 阅读:28 留言:0更新日期:2023-04-01 05:10
本发明专利技术公开了一种芯片异常处理方法,包括以下步骤:在BMC中部署容器;将目标芯片的固件镜像加载到所述容器中;利用所述BMC对所述目标芯片进行监测;响应于监测到所述目标芯片的固件异常,利用所述容器中的固件镜像对所述目标芯片的固件进行更新。本发明专利技术还公开了一种系统、计算机设备以及可读存储介质。本发明专利技术提出的方案在当识别到目标芯片异常时,对该芯片进行固件刷新以达到恢复目标芯片工作的目的。而且在自动升级固件的同时,通过引入Docker容器,从而无需在不同的处理器中进行多次适配,并且可维护性大大提升,直接调用对应的镜像文件即可。件即可。件即可。

【技术实现步骤摘要】
一种芯片异常处理方法、系统、设备以及存储介质


[0001]本专利技术涉及服务器领域,具体涉及一种芯片异常处理方法、系统、设备以及存储介质。

技术介绍

[0002]随着AI技术的发展,AI服务器被大批量使用。被用来提升信号完整性,增加高速信号的有效传输距离的retimer芯片也被广泛使用。此芯片的稳定性会直接影响整个系统的稳定性。因此对此芯片的稳定性保证则称为了AI服务器的重要一部分。除去硬件方面电路设计对稳定性的保证外,此芯片的异常一般是由于芯片固件问题导致。
[0003]当前环境下针对retimer卡的管理仅仅包括监测功能,通过OS监测带宽或者通过BMC读取retimer寄存器的方式拿到retimer卡速率和带宽,然后进行报警,并未尝试恢复固件,需要手动接线的方式升级固件。

技术实现思路

[0004]有鉴于此,为了克服上述问题的至少一个方面,本专利技术实施例提出一种芯片异常处理方法,包括以下步骤:
[0005]在BMC中部署容器;
[0006]将目标芯片的固件镜像加载到所述容器中;<br/>[0007]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种芯片异常处理方法,其特征在于,包括以下步骤:在BMC中部署容器;将目标芯片的固件镜像加载到所述容器中;利用所述BMC对所述目标芯片进行监测;响应于监测到所述目标芯片的固件异常,利用所述容器中的固件镜像对所述目标芯片的固件进行更新。2.如权利要求1所述的方法,其特征在于,利用所述BMC对所述目标芯片进行监测,进一步包括:响应于所述BMC监测到所述目标芯片异常次数达到阈值,获取所述目标芯片的固件并与flash中正常的固件进行对比。3.如权利要求2所述的方法,其特征在于,还包括:响应于所述目标芯片的固件与flash中正常的固件相同,报错并表示异常非固件导致。4.如权利要求2所述的方法,其特征在于,响应于监测到所述目标芯片的固件异常,利用所述容器中的固件镜像对所述目标芯片的固件进行更新,进一步包括:响应于所述目标芯片的固件与flash中正常的固件不相同,利用所述容器中的固件镜像对所述目标芯片的固件进行更新。5.一种芯片异常处理系统,其特征在于,包括:部署模块,配置为在BMC中部署容器;加载模块,配置为将目标芯片的固件镜像加载到所述容器中;监测模块,配置为利用所述BMC对所述目标芯片进...

【专利技术属性】
技术研发人员:刘宇黄祉默孙凯王万强王传飞
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1