一种加速卡故障确定方法、装置、设备及介质制造方法及图纸

技术编号:43266948 阅读:27 留言:0更新日期:2024-11-08 20:44
本发明专利技术公开了一种加速卡故障确定方法、装置、设备及介质,涉及服务器技术领域。本方案通过加速卡的运行数据监测加速卡;若加速卡存在故障,基于操作系统带内获取加速卡的相关寄存器的原始数据,并由BMC对原始数据进行解析生成第一故障分析结果,实现了BMC带内间接获取加速卡的相关寄存器数据和初步故障解析;进一步根据原始数据和故障诊断规则表,生成加速卡的第二故障分析结果,将第一故障分析结果和第二故障分析结果进行比较,最终准确确定了加速卡的故障原因,解决了当前BMC无法带内收集和分析服务器设备加速卡的多种错误,无法确定故障原因的问题,降低了服务器宕机的发生概率,提高了服务器的工作效率。

【技术实现步骤摘要】

本专利技术涉及服务器,特别是涉及一种加速卡故障确定方法、装置、设备及介质


技术介绍

1、在传统服务器中,设备故障问题如网卡故障、中央处理器(central processingunit,cpu)故障、高速串行计算机扩展总线标准(peripheral component interconnectexpress,pcie)总线挂死、图形处理单元(graphics processing unit,gpu)故障和加速卡故障等是不可避免的。这些故障可能导致系统宕机或重启,给用户使用服务器带来困扰。

2、目前,基板管理控制器(baseboard management controller,bmc)支持使用管理组建传输协议(management component transport protocol,mctp)over集成电路总线(inter-integrated circuit,i2c)协议获取服务器内部设备的健康状态信息,并支持通过平台环境式控制接口(platform environment control interface,peci)带外获取cp本文档来自技高网...

【技术保护点】

1.一种加速卡故障确定方法,其特征在于,包括:

2.根据权利要求1所述的加速卡故障确定方法,其特征在于,所述监测所述加速卡的运行数据,根据所述加速卡的运行数据判断所述加速卡是否存在故障,包括:

3.根据权利要求1所述的加速卡故障确定方法,其特征在于,所述基于操作系统带内获取与所述加速卡相关的各寄存器的原始数据,包括:

4.根据权利要求1所述的加速卡故障确定方法,其特征在于,所述通过基板管理控制器对所述原始数据进行解析,以生成所述加速卡的第一故障分析结果,包括:

5.根据权利要求3所述的加速卡故障确定方法,其特征在于,所述获取故障诊断规则表,...

【技术特征摘要】

1.一种加速卡故障确定方法,其特征在于,包括:

2.根据权利要求1所述的加速卡故障确定方法,其特征在于,所述监测所述加速卡的运行数据,根据所述加速卡的运行数据判断所述加速卡是否存在故障,包括:

3.根据权利要求1所述的加速卡故障确定方法,其特征在于,所述基于操作系统带内获取与所述加速卡相关的各寄存器的原始数据,包括:

4.根据权利要求1所述的加速卡故障确定方法,其特征在于,所述通过基板管理控制器对所述原始数据进行解析,以生成所述加速卡的第一故障分析结果,包括:

5.根据权利要求3所述的加速卡故障确定方法,其特征在于,所述获取故障诊断规则表,并根据所述故障诊断规则表和所述原始数据生成所述加速卡的第二故障...

【专利技术属性】
技术研发人员:麻书卫
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1