当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于图形处理的线程组调度制造技术

技术编号:29999263 阅读:16 留言:0更新日期:2021-09-11 04:42
实施例总体上涉及用于图形处理的线程组调度。装置的实施例包括:多个处理器,其包括用于处理数据的多个图形处理器;存储器;以及一个或多个高速缓存,用于存储用于多个图形处理器的数据,其中,一个或多个处理器用于调度用于由多个图形处理器处理的多个线程组,对多个线程组的调度包括多个处理器根据一个或多个高速缓存的高速缓存局部性来应用偏置以用于调度多个线程组。调度多个线程组。调度多个线程组。

【技术实现步骤摘要】
【国外来华专利技术】用于图形处理的线程组调度
相关申请
[0001]本申请要求2019年3月15日提交的美国申请第16/355,130号的权益,该美国申请的完整内容由此通过引用结合在本文中。


[0002]本文中描述的实施例总体上涉及电子设备领域,并且更具体地涉及用于图形处理的线程组调度。

技术介绍

[0003]当前的并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法,这些特定操作诸如例如,线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近已使图形处理器的多个部分变得可编程,从而使得此类处理器能够支持更宽泛种类的操作以处理顶点数据和片段数据。
[0004]为了进一步提升性能,图形处理器典型地实现诸如流水线化的处理技术,这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理的量最大化。在SIMT架构中,成组的并行线程尝试尽可能频繁地一起同步地执行程序指令以增加处理效率。可在Shane Cook的“CUDA编程”第3章第37

51页(2013年)中找到用于SIMT架构的软件和硬件的总体概述。
[0005]图形处理操作包括对用于并行处理的线程的调度。然而,线程组被调度的方式会对针对图形处理器中的线程的执行的高速缓存使用并对功率要求具有显著影响。对线程的常规调度会提供使硬件资源保持忙碌,但是由于因线程组的低空间局部性而导致的对高速缓存资源的较不有效的使用,此类调度实际上会导致图形处理中更高的功率使用和更低的性能。
附图说明
[0006]本文中描述的实施例作为示例而非限制在所附附图的各图中示出,在附图中,同样的附图标记指代类似的要素。
[0007]图1是图示配置成用于实现本文中描述的实施例的一个或多个方面的计算机系统的框图;
[0008]图2A

图2D图示根据实施例的并行处理器组件;
[0009]图3A

图3C是根据实施例的图形多处理器和基于多处理器的GPU的框图;
[0010]图4A

图4F图示在其中多个GPU通信地耦合至多个多核处理器的示例性架构;
[0011]图5图示根据实施例的图形处理流水线;
[0012]图6图示根据实施例的机器学习软件栈;
[0013]图7图示根据实施例的通用图形处理单元;
[0014]图8图示根据实施例的多GPU计算系统;
[0015]图9A

图9B图示示例性深度神经网络的层;
[0016]图10图示示例性循环神经网络;
[0017]图11图示深度神经网络的训练和部署;
[0018]图12是图示分布式学习的框图;
[0019]图13图示适于使用经训练的模型执行推断的示例性推断芯片上系统(SOC);
[0020]图14是对用于图形处理的线程组的常规调度的图示;
[0021]图15是根据一些实施例的利用高速缓存局部性对用于图形处理的线程组进行的调度的图示;
[0022]图16是根据一些实施例的利用子块的线程组调度的图示;
[0023]图17是根据实施例的处理系统的框图;
[0024]图18是根据实施例的处理器的框图;
[0025]图19是根据实施例的图形处理器的框图;
[0026]图20是根据一些实施例的图形处理器的图形处理引擎的框图;
[0027]图21是根据本文中描述的一些实施例的图形处理器核的硬件逻辑的框图;
[0028]图22A

图22B图示根据本文中描述的实施例的线程执行逻辑,该线程执行逻辑包括在图形处理器核中采用的处理元件的阵列;
[0029]图23是图示根据一些实施例的图形处理器指令格式的框图;
[0030]图24是根据另一实施例的图形处理器的框图;
[0031]图25A

图25B图示根据一些实施例的图形处理器命令格式和命令序列;
[0032]图26图示根据一些实施例的用于数据处理系统的示例性图形软件架构;
[0033]图27A是图示根据实施例的IP核开发系统的框图;
[0034]图27B图示根据本文中描述的一些实施例的集成电路封装组件的截面侧视图;
[0035]图28是图示根据实施例的示例性芯片上系统集成电路的框图;并且
[0036]图29A

图29B是图示根据本文中所描述的实施例的用于在SoC内使用的示例性图形处理器的框图。
具体实施方式
[0037]本文中描述的实施例总体上涉及用于图形处理的线程组调度。
[0038]在常规图形处理操作中,线程组根据需要被笼统地调度,而不考虑线程组的编组。通常“贪婪地”将线程组调度到第一可用硬件资源,即便该硬件资源远离正在执行邻近线程组的硬件资源。
[0039]对线程组的常规调度可在最大程度上使硬件资源保持忙碌,但是这对于功率和性能不一定是高效的。相反,常规线程调度会导致图形处理装置或系统中的更高的功率使用和更低的性能,因为作为线程组的低空间局部性的结果,此类调度导致对高速缓存资源的较不有效的使用。
[0040]在一些实施例中,装置、系统或过程在可能时提供对相关线程组一起的调度以改善图形处理器操作,其中,此类调度可改善高速缓存局部性并减少操作中的功耗。
[0041]在一些实施例中,图形处理单元(GPU)通信地耦合至主机/处理器核以加速图形操
作、机器学习操作、模式分析操作、以及各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如,诸如PCIe或NVLink之类的高速互连)通信地耦合至主机处理器/核。在其他实施例中,GPU可与核集成在同一封装或芯片上,并且通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合至核。无论GPU采取何种方式被连接,处理器核都可将工作以工作描述符中所包含的命令/指令序列的形式分配给GPU。GPU随后使用专用电路/逻辑来高效地处理这些命令/指令。
[0042]在以下描述中,陈述了众多特定细节以提供更透彻理解。然而,对于本领域的技术人员将显而易见的是,可以在没有这些特定细节中的一个或多个细节的情况下实践本文中描述的实施例。在其他实例中,未描述公知的特征以免混淆当前实施例的细节。系统概览
[0043]图1是图示出被配置成用于实现本文中所描述的示例性实施例的一个或多个方面的计算系统100的框图。计算系统100包括具有一个或多个处理器102和系统存储器104的处理子系统101。这一个或多个处理器102与系统存储器104经由可包括存储器中枢105的互连路径进行通信。存储器中枢105可以是芯片组组件内的单独组件或者可被集成在一个或多个处理器102内。存储器中枢105经由通信链路106而与I/本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,包括:一个或多个处理器,所述一个或多个处理器包括一个或多个图形处理单元(GPU);以及多个高速缓存,用于为所述一个或多个GPU提供存储,所述多个高速缓存至少包括L1高速缓存和L3高速缓存;并且其中,所述装置用于通过所述一个或多个GPU中的第一GPU的预取器提供对数据的智能预取,提供对数据的智能预取包括:测量所述L1高速缓存的命中率,在确定了所述L1高速缓存的命中率等于或大于阈值之际,限制向所述L3高速缓存中的存储的数据预取,以及在确定了所述L1高速缓存的命中率小于阈值之际,允许向所述L1高速缓存的数据预取。2.如权利要求1所述的装置,其中,所述装置进一步包括用于从所述一个或多个GPU的预取器接收预取指令的接口,并且其中,所述接口用于检测并消除不必要的预取。3.如权利要求2所述的装置,其中,在所述接口检测到具有重复地址的两个或更多个预取之际,所述装置用于消除具有所述重复地址的预取中的一个或多个预取。4.如权利要求2所述的装置,其中,在所述接口检测到与不可高速缓存的数据有关的预取之际,所述接口用于消除所述预取。5.如权利要求1所述的装置,进一步包括所述一个或多个GPU的执行单元,所述执行单元包括硬件预处理器,所述硬件预处理器具有对核函数正在使用的IP地址的表的访问权。6.如权利要求5所述的装置,其中,所述硬件预处理器用于在线程的执行之前开始从所述IP地址的表预取IP地址。7.如权利要求1所述的装置,其中,所述一个或多个GPU中的GPU的预取器用于直接将指令预取到指令高速缓存(I

高速缓存)中。8.如权利要求7所述的装置,其中,直接将所述指令预取到所述I

高速缓存中发生在应用驱动器知晓下一核函数之际,并且当开始当前核函数的执行时,所述预取针对所述下一核函数被发布。9.如权利要求1所述的装置,其中,在计算操作在所述L3高速缓存外部操作之际,所述装置用于利用存储器链路来执行存储器刷洗以维持存储器带宽的活性。10.一种或多种非暂态计算机可读存储介质,具有存储于其上的可执行计算机程序指令,所述可执行计算机程序指令在由一个或多个处理器执行时使所述一个或多个处理器执行包括以下各项的操作:测量用于计算系统的一个或多个图形处理单元(GPU)中的第一GPU的L1高速缓存的命中率,所述计算系统进一步包括L3高速缓存;接收针对所述第一GPU的数据预取;在确定了所述L1高速缓存的命中率等于或大于阈值之际,限制向所述L3高速缓存中的存储...

【专利技术属性】
技术研发人员:B
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1