【技术实现步骤摘要】
用于高效使用ALU的对分歧的通道的压缩
[0001]交叉引用
[0002]本申请要求享有于2020年5月6日提交的印度临时专利申请第202041019062号的优先权,该申请由此通过引用合并于此。
技术介绍
[0003]在单指令多数据(SIMD)处理引擎中,SIMD通道间的分歧会导致使用ALU时效率低下。分歧的通道在执行期间被掩蔽,并且导致ALU利用率不佳。更宽的SIMD架构对于GPU来说越来越普遍,以减小芯片面积。利用更宽的SIMD架构,分歧以及由此ALU的不佳利用率的可能性变高。
附图说明
[0004]因此,可以通过参考实施例获得可以详细地理解本专利技术的上面引述的特征的方式、上面简要概述的对实施例更具体的描述,实施例中的一些在附图中示出。然而,应该注意到附图仅示出了典型的实施例,因此不应该被认为限制其范围。
[0005]图1是根据实施例的处理系统的框图;
[0006]图2A
‑
2D示出了由本文描述的实施例提供的计算系统和图形处理器;
[0007]图3A
‑ >3C示出了由本文描本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种加速器设备,包括:主机接口,其用于将所述加速器设备通信地耦合到主机计算设备的处理器,并且接收要由所述加速器设备执行的指令;与所述主机接口耦合的结构互连;以及与所述结构互连耦合的一个或多个硬件分片,其中,所述一个或多个硬件分片包括具有单指令多数据(SIMD)架构的处理资源以及被配置为压缩分歧的SIMD通道的硬件电路。2.根据权利要求1所述的加速器设备,所述一个或多个硬件分片另外地包括:用于将所述指令解码为经解码的指令的解码电路,所述经解码的指令与断言掩码相关联,其中,所述断言掩码指示分歧的SIMD通道的集合,所述分歧的SIMD通道包括活动通道的集合和非活动通道的集合,并且压缩所述分歧的SIMD通道包括将SIMD通道的第二部分中的活动通道映射到SIMD通道的第一部分中的非活动通道。3.根据权利要求2所述的加速器设备,其中,所述硬件电路包括算术逻辑单元(ALU),所述ALU包括第一数量的逻辑SIMD通道和第二数量的物理SIMD通道,所述第一数量是所述第二数量的倍数,并且当活动逻辑SIMD通道比物理SIMD通道多时,所述ALU被配置为在多个时钟周期内处理所述逻辑SIMD通道。4.根据权利要求3所述的加速器设备,其中,被配置为压缩分歧的SIMD通道的所述硬件电路包括:被配置为将数据输入到所述ALU中的第一硬件电路,所述第一硬件电路能够被配置为提供与逻辑SIMD通道的第二集合相关联的输入作为对逻辑SIMD通道的第一集合的输入;以及被配置为提供来自所述ALU的输出的第二硬件电路,所述第二硬件电路能够被配置为将来自所述逻辑SIMD通道的第一集合的输出提供给与所述逻辑SIMD通道的第二集合相关联的存储器,其中,所述ALU包括整数和浮点逻辑。5.根据权利要求4所述的加速器设备,其中,所述第一硬件电路和所述第二硬件电路是基于所述断言掩码来配置的。6.根据权利要求4所述的加速器设备,其中,所述第一硬件电路和所述第二硬件电路包括交叉开关切换电路。7.根据权利要求4所述的加速器设备,其中,所述一个或多个硬件分片被配置为:基于所述断言掩码将所述分歧的SIMD通道压缩到连续的逻辑SIMD通道中;以及在减少数量的时钟周期内处理所述连续的逻辑SIMD通道。8.一种方法,包括:接收具有断言的数据元素的指令;经由与所述指令相关联的断言掩码,确定用于所述指令的非活动数据元素的集合;将活动数据元素压缩到与非活动数据元素相关联的处理通道中,以创建活动处理通道的连续集合,其中,所述处理通道是多通道ALU的处理通道;在所述活动处理通道的连续集合上执行处理操作;以及将所述处理操作的输出解压缩到输出存储器中。9.根据权利要求8所述的方法,其中,将活动数据元素压缩到与非活动数据元素相关联的处理通道中包括将活动数据元素顺序地压缩到与非活动数据元素相关联的所述处理通
道中,将所述处理操作的输出解压缩到所述输出存储器中包括将所述处理操作的输出顺序地解压缩到所述输出存储器中。10.根据权利要求9所述的方法,其中,所述输出存储器是输出寄存器。11.根据权利要求9所述的方法,其中,将活动数据元素压缩到与非活动数据元素相关联的所述处理通道中包括配置交叉开关以将与处理通道的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。