芯片故障定位装置和服务器制造方法及图纸

技术编号:43978640 阅读:24 留言:0更新日期:2025-01-10 20:04
本技术提供一种芯片故障定位装置和服务器,涉及故障定位技术领域,所述装置包括:主机端、使能控制电路和I2C链路开关电路,其中:使能控制电路连接主机端;I2C链路开关电路连接至少两个图形处理器GPU模块中的微控制单元MCU、使能控制电路和主机端,I2C链路开关电路用于基于使能控制信号,使主机端与各GPU模块对应的MCU通信连接;MCU分别连接所属GPU模块中的至少两个人工智能AI芯片;主机端用于基于MCU连接的各AI芯片对应的心跳信号,生成故障定位信号。本技术可在无人值守的情况下实现故障AI芯片的快速定位,提高后期维护效率。

【技术实现步骤摘要】

本技术涉及故障定位,尤其涉及一种芯片故障定位装置和服务器


技术介绍

1、ai(artificial intelligence,人工智能)技术在当今社会比较火热,进一步衍生出很多ai服务器或者超融合设备。ai服务器或超融合设备内部中的gpu(graphicsprocessing unit,图形处理器)模块用于实现ai功能。如图1所示,一般一个ai服务器或者超融合设备中会包括多个gpu模块,可以实现高算力功能,从而使ai技术更加智能。而gpu模块内部包括多个ai芯片,则一个ai服务器或者超融合设备中所包含的ai芯片可能要多达几十个,几十个ai芯片在运行时出现故障的概率较大,因此,如何快速定位整机中故障gpu模块中的故障ai芯片是目前亟需解决的问题。

2、现有技术中,可通过如图2所示的ai加速卡通过pcie(peripheral componentinterconnect express,高速串行计算机扩展)总线协议实现故障诊断。然而,图2所示的ai加速卡进行故障诊断时需保证pcie结构树保持不变,一旦pcie结构树发生变更,则定位故障gpu模块的本文档来自技高网...

【技术保护点】

1.一种芯片故障定位装置,其特征在于,包括:主机端、使能控制电路和I2C链路开关电路,其中:

2.根据权利要求1所述的芯片故障定位装置,其特征在于,所述I2C链路开关电路包括至少两个开关控制电路,所述开关控制电路与所述MCU一一对应;

3.根据权利要求2所述的芯片故障定位装置,其特征在于,所述开关控制电路包括第一开关控制子电路和第二开关控制子电路,其中:

4.根据权利要求3所述的芯片故障定位装置,其特征在于,所述第一开关控制子电路包括MOS管Q1、MOS管Q2、MOS管Q3、电阻R1、电阻R2、电阻R3和电容C1,其中:

>5.根据权利要求3...

【技术特征摘要】

1.一种芯片故障定位装置,其特征在于,包括:主机端、使能控制电路和i2c链路开关电路,其中:

2.根据权利要求1所述的芯片故障定位装置,其特征在于,所述i2c链路开关电路包括至少两个开关控制电路,所述开关控制电路与所述mcu一一对应;

3.根据权利要求2所述的芯片故障定位装置,其特征在于,所述开关控制电路包括第一开关控制子电路和第二开关控制子电路,其中:

4.根据权利要求3所述的芯片故障定位装置,其特征在于,所述第一开关控制子电路包括mos管q1、mos管q2、mos管q3、电阻r1、电阻r2、电阻r3和电容c1,其中:

5.根据权利要求3所述的芯片故障定位装置,其特征在于,所述第二开关控制子电路包括mos管q4、mos管q5、mos管q6、电阻r4、电阻r5和电容c2,其中:

6.根据权利要求1-5任一项所述的芯片故障定位装...

【专利技术属性】
技术研发人员:侯强刘猛
申请(专利权)人:浙江宇视科技有限公司
类型:新型
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1