System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种对服务器的故障测试的方法和服务器技术_技高网

一种对服务器的故障测试的方法和服务器技术

技术编号:40333761 阅读:11 留言:0更新日期:2024-02-09 14:24
本申请实施例公开了一种对服务器的故障测试的方法和服务器,用于对服务器进行故障测试和排查。其中,服务器包括BMC、CPLD、电源模块、多个控制模块和多个信号链路,每个信号链路包括至少一个器件,BMC连接CPLD,CPLD连接多个控制模块中各个控制模块,控制模块与器件对应连接,控制模块用于控制对应的器件接入或断开电源模块。在本申请中,BMC向CPLD发送第一上电指令,第一上电指令用于指示第一信号链路中的器件上电,第一信号链路为多个信号链路中的一个信号链路,多个信号链路与电源模块断开连接。然后,CPLD基于第一上电指令通过多个控制模块控制第一信号链路中的器件接入电源模块,以确定第一信号链路中的器件是否发生故障。

【技术实现步骤摘要】

本申请涉及服务器领域,尤其涉及一种对服务器的故障测试的方法和服务器


技术介绍

1、当服务器出现问题时,服务器中的基板控制器(baseboard managementcontroller,bmc)日志常常定位不准确。例如,当服务器的内存或处理器出现问题时,bmc日志仅能显示上电失败,以及内存或处理器出现故障,但是一个服务器通常具有多个处理器和多个内存,该bmc日志无法展示具体出现故障的处理器或内存。

2、那么,当服务器发生故障,根据服务器的产品用户指南,需要工程师到设备现场,通过人工拆除主板上除最基本的处理器和最基本的内存以外的部件,在定位最小化测试部件无故障后再进行逐个器件加装测试。

3、但是,服务器出现故障到工程师到达现场之前,以及工程师对服务器进行测试的整个过程可能会造成较长时间的停机、停业务。而且,由于频繁操作可能会引起硬件损伤,例如处理器的底座弯针、内存槽位故障、内存单体故障等问题,对于维护客户满意度以及精益备件尤其不利。


技术实现思路

1、本申请实施例提供了一种对服务器的故障测试的方法和服务器,用于对服务器进行故障测试。

2、本申请第一方面提供了一种对服务器的故障测试的方法,用于服务器,所述服务器包括bmc、可编程逻辑器件(complex programmable logic device,cpld)、电源模块、多个控制模块和多个信号链路,每个所述信号链路包括至少一个器件;所述bmc连接所述cpld,所述cpld连接所述多个控制模块中各个控制模块,所述控制模块与所述器件对应连接,所述控制模块用于控制对应的所述器件接入或断开所述电源模块;

3、在本申请实施例中,bmc日志指示服务器开启失败时,不需要工程师到现场,工程师仅需通过网页控制bmc 110,bmc可以通过向cpld发送第一上电指令,第一上电指令用于指示第一信号链路中的器件上电,第一信号链路为多个信号链路中的一个信号链路,多个信号链路与电源模块断开连接。那么,cpld可以基于第一上电指令通过控制模块控制第一信号链路中的器件接入电源模块,以确定第一信号链路中的器件是否发生故障,以实现对服务器进行远程的故障测试和排查。整个过程的时长较短,极大提高了故障处理的时效性,也不会导致长时间的停机或停业务,也不会由于频繁操作可能会引起硬件损伤,较好的维护了客户满意度以及精益备件。

4、在一些可能的实现方式中,当所述服务器开启时,若所述第一信号链路上电成功,则所述bmc确定所述第一信号链路中的所有器件未发生故障,若所述第一信号链路上电失败,则所述bmc确定所述第一信号链路中的至少一个器件发生故障,从而确定了发送故障的信号链路。

5、在一些可能的实现方式中,所述bmc向所述cpld发送第二上电指令,所述第二上电指令用于指示第二信号链路中的器件上电,所述第二信号链路为所述多个信号链路中不同于所述第一信号链路的一个信号链路。所述cpld基于所述第二上电指令通过所述多个控制模块控制所述第二信号链路中的器件接入所述电源模块,以确定所述第二信号链路中的器件是否发生故障。从而确定第二信号链路是否发生故障。

6、在一些可能的实现方式中,所述第一信号链路中的器件包括第一处理器和第一内存,所述第二信号链路中的器件包括所述第一处理器和第二内存,那么,若所述第一信号链路上电失败,且所述第二信号链路上电成功,则所述bmc确定所述第一信号链路中的所述第一内存发生故障;或,若所述第一信号链路上电成功,且所述第二信号链路上电失败,则所述bmc确定所述第二信号链路中的所述第二内存发生故障;或,若所述第一信号链路和所述第二信号链路均上电失败,则所述bmc确定所述第一处理器发生故障,或,所述第一内存与所述第二内存均发生故障。从而确定了具体哪个器件发送故障。

7、在一些可能的实现方式中,所述多个控制模块至少包括第一控制模块、第二控制模块和第三控制模块,所述第一控制模块与所述第一处理器连接,所述第二控制模块与所述第一内存连接,所述第三控制模块与所述第二内存连接。从而可以确定不同的链路是否发生故障。

8、在一些可能的实现方式中,在所述bmc的管理界面上显示多个所述器件的信息,所述器件的信息包括器件标识、使能状态或故障状态中的一种或多种。使得工程师可以在管理界面上控制各个器件是否上电。

9、在一些可能的实现方式中,所述控制模块为变压器、半导体开关或单片机,从而实现了控制各个器件是否接入电源模块。

10、在一些可能的实现方式中,所述器件包括:处理器、内存、磁盘阵列raid卡、高速串行计算机扩展总线标准pcie、背板backplane中的一种或多种,从而测试各个器件是否存在故障。

11、本申请第二方面提供了一种服务器,包括:bmc、cpld、电源模块、多个控制模块和多个信号链路,每个所述信号链路包括至少一个器件;所述bmc连接所述cpld,所述cpld连接所述多个控制模块中各个控制模块,所述控制模块与所述器件对应连接,所述控制模块用于控制对应的所述器件接入或断开所述电源模块。其中,

12、所述bmc,用于向所述cpld发送第一上电指令,所述第一上电指令用于指示第一信号链路中的器件上电,所述第一信号链路为所述多个信号链路中的一个信号链路,所述多个信号链路与所述电源模块断开连接;

13、所述cpld,用于基于所述第一上电指令通过所述多个控制模块控制所述第一信号链路中的器件接入所述电源模块,以确定所述第一信号链路中的器件是否发生故障。

14、在一些可能的实现方式中,所述方法还包括:

15、当所述服务器开启时,若所述第一信号链路上电成功,则所述bmc确定所述第一信号链路中的所有器件未发生故障,若所述第一信号链路上电失败,则所述bmc确定所述第一信号链路中的至少一个器件发生故障。

16、在一些可能的实现方式中,所述方法还包括:

17、所述bmc向所述cpld发送第二上电指令,所述第二上电指令用于指示第二信号链路中的器件上电,所述第二信号链路为所述多个信号链路中不同于所述第一信号链路的一个信号链路;

18、所述cpld基于所述第二上电指令通过所述多个控制模块控制所述第二信号链路中的器件接入所述电源模块,以确定所述第二信号链路中的器件是否发生故障。

19、在一些可能的实现方式中,所述第一信号链路中的器件包括第一处理器和第一内存,所述第二信号链路中的器件包括所述第一处理器和第二内存,所述方法还包括:

20、若所述第一信号链路上电失败,且所述第二信号链路上电成功,则所述bmc确定所述第一信号链路中的所述第一内存发生故障;

21、或,若所述第一信号链路上电成功,且所述第二信号链路上电失败,则所述bmc确定所述第二信号链路中的所述第二内存发生故障;

22、或,若所述第一信号链路和所述第二信号链路均上电失败,则所述bmc确定所述第一处理器发生故障,或,所述第一本文档来自技高网...

【技术保护点】

1.一种对服务器的故障测试的方法,其特征在于,用于服务器,所述服务器包括基板管理控制模块BMC、可编程逻辑器件CPLD、电源模块、多个控制模块和多个信号链路,每个所述信号链路包括至少一个器件;

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述第一信号链路中的器件包括第一处理器和第一内存,所述第二信号链路中的器件包括所述第一处理器和第二内存,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述多个控制模块至少包括第一控制模块、第二控制模块和第三控制模块,所述第一控制模块与所述第一处理器连接,所述第二控制模块与所述第一内存连接,所述第三控制模块与所述第二内存连接。

6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1-5中任一项所述的方法,其特征在于,所述控制模块为变压器、半导体开关或单片机。

8.根据权利要求1-5中任一项所述的方法,其特征在于,所述器件包括:处理器、内存、磁盘阵列Raid卡、高速串行计算机扩展总线标准PCIe、背板BackPlane中的一种或多种。

9.一种服务器,其特征在于,包括:BMC、CPLD、电源模块、多个控制模块和多个信号链路,每个所述信号链路包括至少一个器件;

10.一种服务器,其特征在于,用于执行权利要求1-8中任一项所述的方法。

...

【技术特征摘要】

1.一种对服务器的故障测试的方法,其特征在于,用于服务器,所述服务器包括基板管理控制模块bmc、可编程逻辑器件cpld、电源模块、多个控制模块和多个信号链路,每个所述信号链路包括至少一个器件;

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述第一信号链路中的器件包括第一处理器和第一内存,所述第二信号链路中的器件包括所述第一处理器和第二内存,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述多个控制模块至少包括第一控制模块、第二控制模块和第三控制模块,所述第一控制模块与所述第一处理器连接,所述...

【专利技术属性】
技术研发人员:吴丽华尚楠
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1