GPU芯片的计算单元故障处理方法及装置制造方法及图纸

技术编号:38553903 阅读:12 留言:0更新日期:2023-08-22 20:58
本发明专利技术提供一种GPU芯片的计算单元故障处理方法及装置,包括:响应于GPU芯片的计算单元发生硬件故障,复位GPU芯片;响应于已复位GPU芯片,检测出故障计算单元,并生成故障计算单元的故障信息;解析故障计算单元的故障信息,得到故障计算单元的故障类型;若故障计算单元的故障类型是不可修复故障,将故障计算单元的标识信息传递给GPU芯片的调度模块,以使GPU芯片的调度模块不会向故障计算单元派发计算任务。本发明专利技术能够检测出故障计算单元,并通知GPU芯片的调度模块屏蔽故障计算单元。芯片的调度模块屏蔽故障计算单元。芯片的调度模块屏蔽故障计算单元。

【技术实现步骤摘要】
GPU芯片的计算单元故障处理方法及装置


[0001]本专利技术涉及GPU芯片
,尤其涉及一种GPU芯片的计算单元故障处理方法及装置。

技术介绍

[0002]随着计算机通信技术的发展,GPU(Graphic Processing Unit,图形处理器)在通用计算领域的使用越来越广泛。GPU强大的计算能力是CPU无法比拟的,可以弥补CPU并行计算能力的不足。
[0003]GPU在结构上一般包括多个着色器(Shader Engine,SE),每个SE进一步包括多个计算单元(Computing unit,CU),每个计算单元可以理解为GPU中的一个内核,用来运算计算任务。在实际计算过程中,GPU芯片的调度模块会根据调度策略,将计算任务分配到每个计算单元上,从而全部计算单元进行并发计算。如果GPU上一个计算单元发生硬件损坏,那么计算任务运行到该计算单元时将会发生错误,导致GPU无法正常使用。
[0004]在现有技术中,如果GPU芯片有计算单元出现硬件损坏,一般直接更换新的GPU,这会造成极大浪费。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种GPU芯片的计算单元故障处理方法及装置,能够检测出故障计算单元,并通知GPU芯片的调度模块屏蔽故障计算单元。
[0006]第一方面,本专利技术提供一种GPU芯片的计算单元故障处理方法,包括:
[0007]响应于GPU芯片的计算单元发生硬件故障,复位所述GPU芯片;
[0008]响应于已复位所述GPU芯片,检测出故障计算单元,并生成所述故障计算单元的故障信息;
[0009]解析所述故障计算单元的故障信息,得到所述故障计算单元的故障类型;
[0010]若所述故障计算单元的故障类型是不可修复故障,将所述故障计算单元的标识信息传递给所述GPU芯片的调度模块,以使所述GPU芯片的调度模块不会向所述故障计算单元派发计算任务。
[0011]可选地,所述检测出故障计算单元,并生成所述故障计算单元的故障信息包括:
[0012]依次保持所述GPU芯片上的各计算单元单独处于使能状态,向单独处于使能状态的计算单元推送检测程序,并基于所述检测程序的检测结果判断处于使能状态的计算单元是否是故障计算单元;
[0013]响应于处于使能状态的计算单元是故障计算单元,根据所述检测程序的检测结果,生成所述故障计算单元的故障信息。
[0014]可选地,所述GPU芯片包括多个着色器,各所述着色器包含多个所述计算单元,所述检测出故障计算单元,并生成所述故障计算单元的故障信息包括:
[0015]依次保持所述GPU芯片上的各着色器单独处于使能状态;
[0016]向处于使能状态的着色器推送第一检测程序,并基于所述第一检测程序的检测结果判断处于使能状态的着色器是否发生硬件故障;
[0017]响应于处于使能状态的着色器发生硬件故障,依次保持发生硬件故障的着色器上的各计算单元单独处于使能状态;
[0018]向单独处于使能状态的计算单元推送第二检测程序,并基于所述第二检测程序的检测结果判断处于使能状态的计算单元是否是故障计算单元;
[0019]响应于处于使能状态的计算单元是故障计算单元,根据所述第二检测程序的检测结果,生成所述故障计算单元的故障信息。
[0020]可选地,所述故障信息包括:计算单元触发的故障中断信号的信息或者等待计算单元返回计算任务结束信号的时长超过设定时长的信息。
[0021]可选地,所述方法还包括:
[0022]将生成的所述故障计算单元的故障信息写入日志系统。
[0023]可选地,所述方法还包括:
[0024]若所述故障计算单元的故障类型是不可修复故障,将所述故障计算单元的标识信息写入非易失性存储器,便于重新加载驱动时从所述非易失性存储器读取已经检测到的故障计算单元的标识信息,将读取的所述故障计算单元的标识信息传递给所述GPU芯片的调度模块,以使所述GPU芯片的调度模块不会向所述故障计算单元派发计算任务。
[0025]可选地,所述故障计算单元的标识信息为所述故障计算单元的ID。
[0026]第二方面,本专利技术提供一种GPU芯片的计算单元故障处理装置,包括:
[0027]复位模块,用于响应于GPU芯片的计算单元发生硬件故障,复位所述GPU芯片;
[0028]检测模块,用于响应于已复位所述GPU芯片,检测出故障计算单元,并生成所述故障计算单元的故障信息;
[0029]解析模块,用于解析所述故障计算单元的故障信息,得到所述故障计算单元的故障类型;
[0030]屏蔽模块,用于若所述故障计算单元的故障类型是不可修复故障,将所述故障计算单元的标识信息传递给所述GPU芯片的调度模块,以使所述GPU芯片的调度模块不会向所述故障计算单元派发计算任务。
[0031]可选地,所述检测模块,用于:
[0032]依次保持所述GPU芯片上的各计算单元单独处于使能状态,向单独处于使能状态的计算单元推送检测程序,并基于所述检测程序的检测结果判断处于使能状态的计算单元是否是故障计算单元;
[0033]响应于处于使能状态的计算单元是故障计算单元,根据所述检测程序的检测结果,生成所述故障计算单元的故障信息。
[0034]可选地,所述GPU芯片包括多个着色器,各所述着色器包含多个所述计算单元,所述检测模块,用于:
[0035]依次保持所述GPU芯片上的各着色器单独处于使能状态;
[0036]向处于使能状态的着色器推送第一检测程序,并基于所述第一检测程序的检测结果判断处于使能状态的着色器是否发生硬件故障;
[0037]响应于处于使能状态的着色器发生硬件故障,依次保持发生硬件故障的着色器上
的各计算单元单独处于使能状态;
[0038]向单独处于使能状态的计算单元推送第二检测程序,并基于所述第二检测程序的检测结果判断处于使能状态的计算单元是否是故障计算单元;
[0039]响应于处于使能状态的计算单元是故障计算单元,根据所述第二检测程序的检测结果,生成所述故障计算单元的故障信息。
[0040]可选地,所述故障信息包括:计算单元触发的故障中断信号的信息或者等待计算单元返回计算任务结束信号的时长超过设定时长的信息。
[0041]可选地,所述装置还包括:
[0042]第一记录模块,用于将生成的所述故障计算单元的故障信息写入日志系统。
[0043]可选地,所述装置还包括:
[0044]第二记录模块,用于若所述故障计算单元的故障类型是不可修复故障,将所述故障计算单元的标识信息写入非易失性存储器;
[0045]所述屏蔽模块,还用于重新加载驱动时从所述非易失性存储器读取已经检测到的故障计算单元的标识信息,将读取的所述故障计算单元的标识信息传递给所述GPU芯片的调度模块,以使所述GPU芯片的调度模块不会向所述故障计算单元派发计算任务。
[0046]可选地,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种GPU芯片的计算单元故障处理方法,其特征在于,所述方法包括:响应于GPU芯片的计算单元发生硬件故障,复位所述GPU芯片;响应于已复位所述GPU芯片,检测出故障计算单元,并生成所述故障计算单元的故障信息;解析所述故障计算单元的故障信息,得到所述故障计算单元的故障类型;若所述故障计算单元的故障类型是不可修复故障,将所述故障计算单元的标识信息传递给所述GPU芯片的调度模块,以使所述GPU芯片的调度模块不会向所述故障计算单元派发计算任务。2.根据权利要求1所述的所述的方法,其特征在于,所述检测出故障计算单元,并生成所述故障计算单元的故障信息包括:依次保持所述GPU芯片上的各计算单元单独处于使能状态,向单独处于使能状态的计算单元推送检测程序,并基于所述检测程序的检测结果判断处于使能状态的计算单元是否是故障计算单元;响应于处于使能状态的计算单元是故障计算单元,根据所述检测程序的检测结果,生成所述故障计算单元的故障信息。3.根据权利要求1所述的方法,其特征在于,所述GPU芯片包括多个着色器,各所述着色器包含多个所述计算单元,所述检测出故障计算单元,并生成所述故障计算单元的故障信息包括:依次保持所述GPU芯片上的各着色器单独处于使能状态;向处于使能状态的着色器推送第一检测程序,并基于所述第一检测程序的检测结果判断处于使能状态的着色器是否发生硬件故障;响应于处于使能状态的着色器发生硬件故障,依次保持发生硬件故障的着色器上的各计算单元单独处于使能状态;向单独处于使能状态的计算单元推送第二检测程序,并基于所述第二检测程序的检测结果判断处于使能状态的计算单元是否是故障计算单元;响应于处于使能状态的计算单元是故障计算单元,根据所述第二检测程序的检测结果,生成所述故障计算单元的故障信息。4.根据权利要求2或3所述的方法,其特征在于,所述故障信息包括:计算单元触发的故障中断信号的信息或者等待计算单元返回计算任务结束信号的时长超过设定时长的信息。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将生成的所述故障计算单元的故障信息写入日志系统。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述故障计算单元的故障类型是不可修复故障,将所述故障计算单元的标识信息写入非易失性存储器,便于重新加载驱动时从所述非易失性存储器读取已经检测到的故障计算单元的标识信息,将读取的所述故障计算单元的标识信息传递给所述GPU芯片的调度模块,以使所述GPU芯片的调度模块不会向所述故障计算单元派发计算任务。7.根据权利要求1或6所述的方法,其特征在于,所述故障计算单元的标识信息为所述故障计算单元的ID。8.一种GPU芯片的计算单元故障处理装置,其特征在于,所述装置包括:
复位模块,用于响应于GPU芯片的计算单元发生硬件故障,复位所述GPU芯片;检测模块,用于响应于已复位所述GPU芯片,检测出故障计算单元,...

【专利技术属性】
技术研发人员:焦玉科
申请(专利权)人:成都海光集成电路设计有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1