线程块派发方法、计算装置以及片上系统制造方法及图纸

技术编号：38206627 阅读：19 留言：0更新日期：2023-07-21 16:54

本发明专利技术实施例提供了一种线程块派发方法、计算装置以及片上系统。所述线程块派发方法包括：确定与多个计算引擎分别对应的多个线程块组，每个线程块组包括执行线程彼此关联的多个线程块；确定所述多个计算引擎中的当前轮询计算引擎；从所述多个线程块组中，确定与所述当前轮询计算引擎对应的当前线程块组；将所述当前线程块组中的线程块派发到所述当前轮询计算引擎。本发明专利技术实施例的方案提高了在线程块处理过程中计算引擎的缓存局部性。理过程中计算引擎的缓存局部性。理过程中计算引擎的缓存局部性。

全部详细技术资料下载

【技术实现步骤摘要】
线程块派发方法、计算装置以及片上系统

[0001]本专利技术实施例涉及计算机
，尤其涉及一种线程块派发方法、计算装置以及片上系统。

技术介绍

[0002]在诸如通用图形处理器(General
‑
purpose computing on graphics processing units，GPGPU)的并行处理器中，在对执行线程进行处理时，将各个执行线程组织成作为基本派发单元的线程块，进而将各个线程块组织成基于多个索引维度的线程网格。此外，每个线程块中的各个执行线程可以并发地执行，驱动程序内核定义了由多个相关线程块组成的线程块，使得同一线程块中的各个执行线程可以通过共享存储器交换数据。
[0003]一般地，核函数将线程分为三个层次：线程网格、线程块以及线程。与此相关联，诸如GPGPU的并行处理器的硬件存在三个层次：核心、流式多处理器、器件。在并行处理器执行不同类型的数据处理任务时，取决于特定的编译框架，往往需要对核函数进行线程块的划分，并把线程块派发到各个计算引擎里去执行，不同的划分和派发的方案往往对线程块的派发吞吐率和计算引擎的高速缓存局部性会有很大的影响。
[0004]在目前的划分和派发的方案中，为了实现多个计算引擎的并行计算所带来的高吞吐率，相邻线程块会被派发到不同的计算引擎中，同一计算引擎的执行线程相关性较低，导致计算引擎的缓存局部性还有提升空间。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种线程块派发方法、计算装置以及片上系统，以至少部分...

【技术保护点】

【技术特征摘要】
1.一种线程块派发方法，包括：确定与多个计算引擎分别对应的多个线程块组，每个线程块组包括执行线程彼此关联的多个线程块；确定所述多个计算引擎中的当前轮询计算引擎；从所述多个线程块组中，确定与所述当前轮询计算引擎对应的当前线程块组；将所述当前线程块组中的线程块派发到所述当前轮询计算引擎。2.根据权利要求1所述的方法，其中，每个计算引擎包括多个计算单元，所述方法还包括：从所述当前线程块组中，确定分别与多个计算单元对应的多个子线程块组；所述将所述当前线程块组中的线程块派发到所述当前轮询计算引擎，包括：将所述当前线程块组的当前子线程块组中的线程块派发到所述当前轮询计算引擎中的对应计算单元。3.根据权利要求2所述的方法，其中，派发到同一计算引擎的同一计算单元的各个线程块之间的数据相关性高于派发到同一计算引擎的不同计算单元的各个线程块之间的数据相关性。4.根据权利要求3所述的方法，其中，每个计算引擎配置有第一缓存，每个计算单元配置有第二缓存，所述第一缓存的缓存级别高于所述第二缓存的缓存级别。5.根据权利要求2所述的方法，其中，所述将所述当前线程块组的当前子线程块组中的线程块派发到所述当前轮询计算引擎中的对应计算单元，包括：确定与当前轮询时段对应的共用计算单元标识，所述共用计算单元标识指示所述多个计算引擎之间的对应计算单元；向所述当前轮询计算引擎中与所述共用计算单元标识指示的当前计算单元，派发与所述当前计算单元对应的当前子线程块组中的线程块。6...

【专利技术属性】
技术研发人员：田云，
申请(专利权)人：平头哥上海半导体技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人