服务器板卡及其监测系统、服务器及其监测系统技术方案

技术编号:44486574 阅读:11 留言:0更新日期:2025-03-04 17:51
本技术实施方式公开了服务器板卡及其监测系统、服务器及其监测系统。服务器板卡包括:板卡元件;处理器,用于获取所述板卡元件的参数,当基于所述参数确定所述板卡元件的状态异常时,基于所述服务器板卡的标识和所述参数,生成异常记录数据;存储器,用于存储所述异常记录数据。无需复现板卡问题便可以方便地获取板卡元件的异常记录数据,避免了拆卸和焊接服务器板卡的风险,还保证了服务器的正常运行。在多板卡的服务器场景中,基于关联于板卡标识的异常记录数据,实现了多板卡的异常记录数据之间的准确区分。

【技术实现步骤摘要】

本技术涉及板卡,更具体的说,涉及服务器板卡及其监测系统、服务器及其监测系统


技术介绍

1、服务器板卡通常是一种印制电路板,可以插入服务器的插槽中,用来控制硬件或软件的运行。比如,服务器板卡可以包括图形加速卡、人工智能(artificialintelligence,ai)计算卡、服务器主板或边缘计算卡,等等。

2、在现有技术中,如果板卡在服务器中工作异常,工程师需要从服务器中拆除板卡,将板卡与示波器连接,或者通过焊接方式将板卡与联合测试工作组(joint test actiongroup,jtag)工具连接,然后复现板卡问题以由jtag工具获取芯片的寄存器值,或者利用示波器测试电源稳定性或信号稳定性。

3、然而,由于需要执行拆卸和焊接等附加处理,以及考虑到板卡所在的系统环境发生改变,复现板卡问题具有实施难度,导致目前难以获取板卡异常时的监测数据。


技术实现思路

1、本技术提出服务器板卡及其监测系统、服务器及其监测系统,有助于便利地获取板卡异常时的监测数据。

2、本技术实施方式的技术方案如下:

3、一种服务器板卡,包括:

4、板卡元件;

5、处理器,用于获取所述板卡元件的参数,当基于所述参数确定所述板卡元件的状态异常时,基于所述服务器板卡的标识和所述参数,生成异常记录数据;

6、存储器,用于存储所述异常记录数据。

7、在一个实施方式中,所述存储器,用于经由连接到数据读写设备的串行通讯接口,响应于所述数据读写设备发出的数据读取请求,提供所述异常记录数据;或

8、所述存储器,用于经由连接到基板管理控制器(baseboard managementcontroller,bmc)的系统管理总线(smbus)及所述基板管理控制器与数据读写设备之间的以太网连接,响应于所述数据读写设备发出的数据读取请求,提供所述异常记录数据,其中所述基板管理控制器包含在所述服务器板卡所在的服务器中。

9、在一个实施方式中,所述处理器,用于经由所述处理器的内部时钟或所述处理器的外部时钟,获取所述板卡元件的状态异常时的时间戳,将所述时间戳包含在所述异常记录数据中。

10、一种服务器板卡的监测系统,包括:

11、服务器板卡,包括:板卡元件;处理器,用于监测所述板卡元件的参数,当基于所述参数确定所述板卡元件的状态异常时,基于所述服务器板卡的标识和所述参数生成异常记录数据;存储器,用于存储所述异常记录数据;

12、数据读写设备,用于经由与所述存储器之间的数据连接,从所述存储器读取所述异常记录数据。

13、一种服务器,包括:

14、n个服务器板卡,所述n个服务器板卡具有各自的标识,所述n个服务器板卡中的第n个服务器板卡包括:

15、板卡元件;

16、处理器,用于监测所述板卡元件的参数,当基于所述参数确定所述板卡元件的状态异常时,基于第n个服务器板卡的标识和所述参数生成第n个服务器板卡的异常记录数据;

17、存储器,用于存储所述第n个服务器板卡的异常记录数据;

18、其中n为至少为2的正整数,n的取值范围为[1,n]。

19、在一个实施方式中,所述第n个服务器板卡中的所述存储器,用于经由连接到数据读写设备的串行通讯接口,响应于所述数据读写设备发出的数据读取请求,提供所述第n个服务器板卡的异常记录数据;或

20、所述第n个服务器板卡中的所述存储器,用于经由连接到基板管理控制器的系统管理总线及所述基板管理控制器与数据读写设备之间的以太网连接,响应于所述数据读写设备发出的数据读取请求,提供所述第n个服务器板卡的异常记录数据,其中所述基板管理控制器包含在所述服务器中。

21、在一个实施方式中,所述第n个服务器板卡中的所述处理器,用于经由所述处理器的内部时钟或所述处理器的外部时钟,获取所述第n个服务器板卡中的板卡元件的状态异常时的时间戳,将所述时间戳包含在所述第n个服务器板卡的异常记录数据中。

22、在一个实施方式中,所述板卡元件包括下列中的至少一个:

23、电源模块;电源接口模块;功能芯片;

24、所述板卡元件的参数包括下列中的至少一个:

25、电压值;电流值;温度值;寄存器的状态值。

26、一种服务器的监测系统,包括:

27、服务器,包括n个服务器板卡,所述n个服务器板卡具有各自的标识,所述n个服务器板卡中的第n个服务器板卡包括:

28、板卡元件;

29、处理器,用于监测所述板卡元件的参数,当基于所述参数确定所述板卡元件的状态异常时,基于第n个服务器板卡的标识和所述参数生成第n个服务器板卡的异常记录数据;

30、存储器,用于存储所述第n个服务器板卡的异常记录数据;

31、其中n为至少为2的正整数,n的取值范围为[1,n];

32、数据读写设备,与所述n个服务器板卡具有数据连接,用于经由所述数据连接,从所述n个服务器板卡的n个存储器读取所述n个服务器板卡的异常记录数据,基于第t个服务器板卡的标识,从n个服务器板卡的异常记录数据中提取第t个服务器板卡中的板卡元件的参数,其中t为设定值。

33、在一个实施方式中,所述第n个服务器板卡中的处理器,用于经由所述处理器的内部时钟或所述处理器的外部时钟,获取所述第n个服务器板卡中的板卡元件的状态异常时的时间戳,将所述时间戳包含在所述第n个服务器板卡的异常记录数据中。

34、从上述技术方案可以看出,本技术实施方式的服务器板卡包括:板卡元件;处理器,用于获取板卡元件的参数,当基于参数确定板卡元件的状态异常时,基于服务器板卡的标识和参数,生成异常记录数据;存储器,用于存储异常记录数据。可见,本技术实施方式实现了具有异常数据自记录能力的服务器板卡,无需复现板卡异常便可以方便地获取异常记录数据,避免了拆卸和焊接服务器板卡的风险,还保证了服务器的正常运行。

35、而且,在多板卡的服务器场景中,基于关联于板卡标识的异常记录数据,实现了多板卡的异常记录数据之间的准确区分,便于准确定位真正发生问题的板卡。

36、另外,本技术实施方式的板卡还可以通过本地连接或远程连接等方式提供异常记录数据。在本地连接方式中,执行本地调试的工程师无需拆卸服务器和复现异常,提高了操作便利性。在远程连接方式中,执行远程调试的工程师无需到达服务器现场,提高了操作便利性。

本文档来自技高网...

【技术保护点】

1.一种服务器板卡,其特征在于,包括:

2.根据权利要求1所述的服务器板卡,其特征在于,

3.一种服务器板卡的监测系统,其特征在于,包括:

4.一种服务器,其特征在于,包括:

5.根据权利要求4所述的服务器,其特征在于,

6.根据权利要求4-5中任一项所述的服务器,其特征在于,

7.一种服务器的监测系统,其特征在于,包括:

8.根据权利要求7所述的服务器的监测系统,其特征在于,

【技术特征摘要】

1.一种服务器板卡,其特征在于,包括:

2.根据权利要求1所述的服务器板卡,其特征在于,

3.一种服务器板卡的监测系统,其特征在于,包括:

4.一种服务器,其特征在于,包括:

5.根据...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:上海壁仞科技股份有限公司
类型:新型
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1