用于持久计算的低功率和低延迟GPU协处理器制造技术

技术编号：21579508 阅读：22 留言：0更新日期：2019-07-10 17:43

公开了用于实施图形处理单元(GPU)协处理器的系统、设备和方法。所述GPU协处理器包括SIMD单元，所述SIMD单元能够基于输入数据流事件自行调度子波程序。主处理器将针对所述GPU协处理器的消息发送至队列。响应于检测到所述队列中的第一消息，所述GPU协处理器调度第一子任务以供执行。所述GPU协处理器包括用于向量通用寄存器(VGPR)文件的通道间交叉开关和通道内偏置索引机构。所述VGPR文件被分成两个文件。第一VGPR文件是具有一个读端口和一个写端口的较大寄存器文件。第二VGPR文件是具有多个读端口和一个写端口的较小寄存器文件。所述第二VGPR引入了每个时钟周期共同发出多于一个指令的能力。

Low Power and Low Delay GPU Coprocessors for Persistent Computing

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于持久计算的低功率和低延迟GPU协处理器
技术介绍
相关技术的描述并行处理架构对于某些应用并不能很好地扩展。例如，超低功率应用仅需要相对有限的计算能力以及最小并行处理宽度，因此并不能有效地使用并行处理架构。在这些应用中，与部署的计算资源相比，任务分配和调度开销变得显著。这些应用中的一些应用包括网络包处理、图像识别、音频处理、加密加速等。这些应用通常要求较低延迟和持久计算、稳定的输入数据流，以及相对较少的处理内核和状态变化。一些图形处理单元(GPU)架构和编程模型涉及主机或中央处理单元(CPU)将一批内核分派给GPU以完成许多小任务。主机负责准备内核的输入数据并负责调度任务。然而，一些应用不会立即产生较大的输入数据集，或者应用的输入批次较小，这需要快速实时反应以及较低延迟计算。当前的GPU架构和编程模型不能很好地适用于这些应用。附图说明通过结合附图参考以下描述，可以更好地理解本文描述的方法和机构的优点，在附图中：图1是计算机系统的一个实施方案的框图。图2是GPU协处理器单元的一个实施方案的框图。图3是用于持久计算的着色器内核执行模型的一个实施方案的框图。图4是SIMD单元的一个实施方案的框图。图5是用于支持偏置索引寄存器操作的向量寄存器文件的一个实施方案的框图。图6示出用于向量通用寄存器(VGPR)偏置索引的伪代码的一个实施方案。图7是交叉开关的一个实施方案的框图。图8示出用于实施交叉开关的功能的伪代码的一个实施方案。图9是矩阵转置操作的一个实施方案的框图。图10是示出用于在GPU协处理器上执行持久计算内核的方法的一个实施方案的概括流程图。图11是示出用于处理持...

【技术保护点】
1.一种系统，包括：队列；图形处理单元(GPU)；GPU协处理器；以及主处理器，所述主处理器被配置成将针对所述GPU协处理器的消息发送至所述队列；其中所述GPU协处理器被配置成：监测所述队列；以及响应于检测到所述队列中的第一消息，调度第一子任务以供执行，其中所述第一子任务是持久线程。

【技术特征摘要】
【国外来华专利技术】2016.11.23 US 15/360,0571.一种系统，包括：队列；图形处理单元(GPU)；GPU协处理器；以及主处理器，所述主处理器被配置成将针对所述GPU协处理器的消息发送至所述队列；其中所述GPU协处理器被配置成：监测所述队列；以及响应于检测到所述队列中的第一消息，调度第一子任务以供执行，其中所述第一子任务是持久线程。2.如权利要求1所述的系统，其中所述GPU协处理器还被配置成：响应于检测到所述第一消息，执行所述第一消息的事件表的查找；使用所述事件表将所述第一消息映射至第一事件；以及响应于将所述第一消息映射至所述第一事件，调度所述第一子任务以供执行；以及当计算资源可用时，继续为后续消息提供服务。3.如权利要求2所述的系统，其中所述GPU协处理器还被配置成：检测所述队列中的第二消息；使用所述事件表将所述第二消息映射至第二事件；响应于将所述第二消息映射至所述第二事件，调度第二任务以在第一矩阵上执行矩阵转置操作；利用交叉开关来旋转所述第一矩阵中的数据项以创建第二矩阵；利用多个偏置索引操作来重新排列所述第二矩阵中的数据项以创建第三矩阵；以及利用所述交叉开关来旋转所述第三矩阵中的数据项以创建第四矩阵，其中所述第四矩阵是所述第一矩阵的转置版本。4.如权利要求1所述的系统，其中所述GPU协处理器包括：第一向量通用寄存器(VGPR)文件，所述第一VGPR文件具有一个读端口和一个写端口；第二VGPR文件，所述第二VGPR文件具有多个读端口和一个写端口；单指令多数据(SIMD)单元；偏置索引访问块；以及交叉开关；其中所述GPU协处理器被配置成在单个时钟周期中将多个操作数从所述第二VGPR文件传送至所述SIMD单元。5.如权利要求4所述的系统，其中所述第一VGPR文件是多存储体阵列，并且其中所述GPU协处理器被配置成使用所述偏置索引访问块在单个时钟周期中访问所述第一VGPR文件的不同存储体的不同字线。6.如权利要求1所述的系统，其中：所述系统还包括GPU；所述主处理器在所述GPU上调度视频流的图形处理任务；并且所述主处理器对所述GPU协处理器进行编程以执行所述视频流的音频处理任务。7.如权利要求1所述的系统，其中：所述GPU协处理器还包括标量单元和向量单元；所述标量单元被配置成：监测所述队列中的消息；调度子任务以在所述向量单元上执行。8.一种方法，包括：将针对图形处理单元(GPU)协处理器的消息从主处理器发送至队列；通过所述GPU协处理器监测所述队列；以及响应于检测到所述队列中的第一消息，通过所述GPU协处理器调度第一子任务以供执行，其中所述第一子任务是持久线程。9.如权利要求8所述的方法，还包括：响应于检测到所述第一消息，执行所述第一消息的事件表的查找；使用所述事件表将所述第一消息映射至第一事件；响应于将所述第一消息映射至所述第一事件，调度所述第一子任务以供执行；以及当计算资源可用时，继续为后续消息提供服务。10.如权利要求9所述的方法，还包括：检测所述队列中的第二消息；使用所述事件表将所述第二消息映射至第二事件；响应于将所述第二消息映射至所述第二事件，调度第二任务以在第一矩阵上执行矩阵转置操作；利用交叉开关来旋转所述第一矩阵中的...

【专利技术属性】
技术研发人员：陈佳升，蒂姆尔·帕尔塔舍夫，亚历山大·洛希夫斯基，卡尔·基特里奇·韦克兰德，迈克尔·J·曼托尔，
申请(专利权)人：超威半导体公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人