当前位置: 首页 > 专利查询>辉达公司专利>正文

不需要硬件复位的执行软件在处理组件之间的灵活迁移制造技术

技术编号:38888272 阅读:13 留言:0更新日期:2023-09-22 14:14
本公开涉及不需要硬件复位的执行软件在处理组件之间的灵活迁移。处理器的处理硬件被虚拟化以在一致的编程接口与特定硬件实例之间提供外观。当不需要支持一致的编程接口和/或不需要跨硬件布置(诸如集成电路)平衡硬件处理时,可以永久地或暂时地禁用硬件处理器组件。执行软件可以从一个硬件布置迁移到另一硬件布置,而无需复位硬件。而无需复位硬件。而无需复位硬件。

【技术实现步骤摘要】
不需要硬件复位的执行软件在处理组件之间的灵活迁移
[0001]相关申请的交叉引用
[0002]本申请涉及以下共同转让的共同未决的美国专利申请,这些专利申请中的每一个的全部内容通过引用合并于此:
[0003]·
2022年3月10日提交的题目为“用于高效访问多维数据结构和/或其他大数据块的方法和装置(Method And Apparatus For Efficient Access To Multidimensional Data Structures And/Or Other Large Data Blocks)”的美国申请No.17/691,276;
[0004]·
2022年3月10日提交的题目为“协作组阵列(Cooperative Group Arrays)”的美国申请No.17/691,621;
[0005]·
2022年3月10日提交的题目为“分布式共享存储器(Distributed Shared Memory)”的美国申请No.17/691,690;
[0006]·
2022年3月10日提交的题目为“虚拟化处理器中的硬件处理资源(Virtualizing Hardware Processing Resources in a Processor)”的美国申请No.17/691,759;
[0007]·
2022年3月10日提交的题目为“跨多个计算引擎的程序控制的数据多播(Programmatically Controlled Data Multicasting Across Multiple Compute Engines)”的美国申请No.17/691,288;
[0008]·
2022年3月10日提交的题目为“具有异步事务支持的硬件加速的同步(Hardware Accelerated Synchronization with Asynchronous Transaction Support)”的美国申请No.17/691,296;
[0009]·
2022年3月10日提交的题目为“处理器和存储器中的快速数据同步(Fast Data Synchronization In Processors And Memory)”的美国申请No.17/691,303;
[0010]·
2022年3月10日提交的题目为“高效矩阵乘法和与一组线程束相加(Efficient Matrix Multiply and Add with a Group of Warps)”的美国申请No.17/691,406;
[0011]·
2022年3月10日提交的题目为“用于处理器中的线程组的可扩展负载平衡的技术(Techniques for Scalable Load Balancing of Thread Groups in a Processor)”的美国申请No.17/691,872;以及
[0012]·
2022年3月10日提交的题目为“用于高效访问多维数据结构和/或其他大数据块的方法和装置(Method And Apparatus For Efficient Access To Multidimensional Data Structures And/Or Other Large Data Blocks)”的美国申请No.17/691,422。


[0013]本文的技术涉及集成电路设计,并且更具体地,涉及解决与包括但不限于图形处理单元(GPU)的复杂芯片中的制造缺陷有关的问题。所述技术进一步涉及定义虚拟GPU处理集群,所述虚拟GPU处理集群是逻辑或物理电路的抽象,用于提供不同结构化的芯片之间的兼容性;GPU处理集群及其处理组件之间的灵活迁移;考虑跨集成电路基板的底层清除(floorswept)/禁用/非功能与全功能硬件的平衡;以及允许硬件在不需要时被选择性地关闭的动态处理资源禁用。

技术介绍

[0014]总体GPU集成电路或芯片设计目标是提供最大性能和最大芯片制造产量。较大芯片具有较多电路,从而实现较高性能。但是由于制造缺陷的较高可能性,所以较大的芯片往往具有较低的产量,因为芯片上制造缺陷的数量大致与芯片面积成比例。
[0015]由于在制造复杂芯片(诸如GPU芯片)中所需的高容差,特定制造芯片的一些电路或操作有缺陷并不罕见。有时,缺陷对于芯片的运行是如此的重要,使得芯片需要被报废。然而,由于现代GPU芯片被设计为大规模并行,因此在许多情况下,缺陷仅影响并行功能块中的一者或一些,使得其他并行功能块完全可操作。
[0016]一种用于增加半导体制造产量的技术被称为“底层清除(floorsweeping)”。为了克服较大芯片上降低的产量,可以关闭、禁用或制作不可访问的有缺陷的电路,制作全功能芯片,但与无缺陷的芯片相比,具有较少的总功能电路。因此,“底层清除”是一种工艺或技术,通过该工艺或技术,存在于集成电路中的制造缺陷或其他错误可以被禁用和/或绕过或以其他方式变得不可访问(例如,诸如通过熔断保险丝来打开内部布线),从而使得集成电路维持其所设计的功能中的一些或全部。每个芯片还可以包括片上可编程底层清除电路,该片上可编程底层清除电路能够响应于由芯片测试/编程设备外部施加的命令而在该芯片上实现底层清除。这种底层清除可以使得诸如GPU或CPU之类的集成电路能够维持一致的操作,尽管存在一个或更多个制造缺陷。参见例如US20150149713A1。偶尔地,为了跨多个芯片的一致性,还使用底层清除来永久地禁用超能力芯片的不需要的全功能部分,例如以降低功耗和发热。这在现有技术中有时完成,使得给定库存单位(“SKU”)产品标志符中的所有芯片具有相同数量的可访问/操作的TPC。
[0017]图1示出了在半导体晶圆或基板上制造的示例GPU芯片管芯。芯片管芯包括真正地数十亿的电路,这些电路一起工作以传递高性能计算和3D图形。从图1中可以得到芯片设计复杂程度如何的想法。例如,所示出的此特定芯片包括8个图形处理集群(GPC),每GPC具有8个TPC(TPC=纹理处理集群)、每个TPC具有2个SM(SM=流式多处理器)、每个GPC具有16个SM、每个全GPU具有128个SM、每个SM具有64个FP32 CUDA核心、每个全GPU具有8192个FP32 CUDA核心、每个SM具有4个张量核心、每个全GPU具有512个张量核心、6个HBM2堆栈、以及在628.4mm2的管芯大小上包括超过280亿个晶体管的十二个512位存储器控制器。在此特定芯片中,两个SM一起包括纹理处理器集群或TPC。这些TPC中的八个(并且因此这些SM中的十六个)包括被称为GPU处理集群(“GPC”)的较高级别块,并且这些GPC中的八个组成全GPU。还存在八个多实例GPU或MIG切片,其可独立地用作用于桌面基础设施的虚拟推理引擎和虚拟GPU。例如,参见:
[0018]https://docs.nvidia.com/pdf/Am本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在集成电路之间灵活地迁移软件的方法,包括:挂起多线程软件进程在第一集成电路上的执行;保存所述第一集成电路的上下文;在第二集成电路上恢复所述上下文,所述第二集成电路与所述第一集成电路具有不同的每处理器集群配置文件的处理器;以及重新开始所述多线程软件进程在所述第二集成电路上的执行。2.根据权利要求1所述的方法,其中重新开始执行包括:重新开始在所述第二集成电路的与之前在所述第一集成电路上一直执行所述软件进程的处理器相比不同数量的处理器上的执行。3.根据权利要求2所述的方法,其中基于每处理器实施挂起和重新开始。4.根据权利要求1所述的方法,其中挂起和重新开始包括将执行第一单例模式迁移到执行第二单例模式。5.根据权利要求4所述的方法,其中所述第一单例模式和所述第二单例模式具有不同的物理和/或逻辑标识符。6.根据权利要求1所述的方法,其中基于每处理器实施保存和恢复。7.根据权利要求6所述的方法,其中所述保存和恢复保留虚拟处理器标识符。8.根据权利要求7所述的方法,还包括:保存和恢复GPC状态信息。9.根据权利要求6所述的方法,还包括:当重新开始执行包括重新开始在所述第二集成电路上的比在所述第一集成电路上挂起的更多处理器上的执行时,合成每处理器状态信息。10.根据权利要求1所述的方法,其中在第一数量的GPC上实施挂起执行,并且在不同于所述第一数量的GPC的第二数量的GPC上实施重新开始执行。11.根据权利要求1所述的方法,还包括:通过维持对所述第二集成电路上的处理器的状态更新但不将任何工作发送到所述第二集成电路上的处理器,来动态地禁用所述第二集成电路上的处理器。12.一种...

【专利技术属性】
技术研发人员:J
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1