【技术实现步骤摘要】
本专利技术涉及电路检测,特别是涉及一种服务器的检测链路的纠错方法、装置、设备及介质。
技术介绍
1、图形处理器(gpu,graphics processing unit)和gpu模组的更新换代带来了更高的浮点运行速度和显存带宽,gpu部件所带来的发热量也跟着水涨船高。gpu服务器通过检测链路实时获取gpu等高散热需求的元器件的温度,并根据温度执行对应的散热策略,以保证服务器能正常散热。当gpu服务器的检测链路异常时,就会失去对gpu实时温度状态的有效监测。
2、然而,现有的gpu管理方法,缺少对检测链路异常情况的纠错机制。若检测链路的异常没有被及时修复,则服务器无法根据实时温度状态执行对应的散热策略,可能会使gpu的温度长时间过热。在高温环境下,gpu的稳定性和使用寿命会大大降低,当gpu温度超过设计规格后,不仅会出现降频降速,甚至会出现超温掉卡、算力应用报错等故障,给gpu模组造成不必要的损耗,也降低了服务器的稳定性和计算效率。
技术实现思路
1、为了解决上述问题,本专利技术
...【技术保护点】
1.一种服务器的检测链路的纠错方法,其特征在于,所述服务器包括图形处理器模组,所述检测链路用于检测所述图形处理器模组中的图形处理器的温度值,所述检测链路包括基板管理控制器的管理接口、所述基板管理控制器与主管理控制器之间的第一链路和所述主管理控制器的管理接口,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述依次对所述基板管理控制器的管理接口、所述基板管理控制器与所述主管理控制器之间的第一链路和所述主管理控制器的管理接口进行纠错,包括:
3.根据权利要求2所述的方法,其特征在于,所述若所述基板管理控制器的管理接口的工作状态异常,则对所
...【技术特征摘要】
1.一种服务器的检测链路的纠错方法,其特征在于,所述服务器包括图形处理器模组,所述检测链路用于检测所述图形处理器模组中的图形处理器的温度值,所述检测链路包括基板管理控制器的管理接口、所述基板管理控制器与主管理控制器之间的第一链路和所述主管理控制器的管理接口,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述依次对所述基板管理控制器的管理接口、所述基板管理控制器与所述主管理控制器之间的第一链路和所述主管理控制器的管理接口进行纠错,包括:
3.根据权利要求2所述的方法,其特征在于,所述若所述基板管理控制器的管理接口的工作状态异常,则对所述基板管理控制器的管理接口进行纠错,包括:
4.根据权利要求2所述的方法,其特征在于,所述若所述第一链路的工作状态异常,则对所述第一链路进行纠错,包括:
5.根据权利要求2所述的方法,其特征在于,所述主管理控制器的管理接口包括第一主管理控制器接口,所述若所述主管理控制器的管理接口的工作状态异常,则对所述主管理控制器的管理接口进行纠错,包括...
【专利技术属性】
技术研发人员:苗永威,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。