【技术实现步骤摘要】
使用带有反馈输入的脉动阵列的可缩放稀疏矩阵乘法加速
[0001]交叉引用
[0002]本申请要求2020年5月5日提交的印度临时专利申请号202041019059的优先权,该专利申请据此通过引用纳入本文。
技术介绍
[0003]机器学习工作负荷中使用的脉动矩阵乘法具有很大比例的零(稀疏数据工作负荷)。这些零的乘法操作可被跳过,从而提高整体性能。当前的脉动架构可以为工作负荷中的稀疏性提供支持,但是这样的架构可能无法优美地(gracefully)缩放。
附图说明
[0004]因此,为了可详细地理解上文陈述的当前实施例的特征的方式,可参照实施例进行对上文简要概述的实施例的更特定的描述,在所附附图中图示实施例中的一些。然而,应注意的是,所附附图仅图示典型实施例,并且因此不应视为限制实施例的范围。
[0005]图1是根据实施例的处理系统的框图;
[0006]图2A
‑
图2D图示由本文中描述的实施例提供的计算系统和图形处理器;
[0007]图3A
‑
图3C图示由本文中描述 ...
【技术保护点】
【技术特征摘要】
1.一种并行处理器,包括:解码单元,用于将指令解码成经解码的指令,其中,所述经解码的指令是执行并行点积操作的指令;以及流水线化的脉动点积单元,用于经由脉动处理流水线的多个流水线级执行所述经解码的指令,其中,在执行所述经解码的指令期间,在第一流水线级处计算的点积被配置成经由输出硬件被可选择地写入从输出存储器和第二流水线级之一选择的位置,并且在第三流水线级处计算的点积被配置成经由输出硬件被可选择地写入从所述输出存储器和所述第一流水线级之一选择的位置。2.如权利要求1所述的并行处理器,其特征在于,所述经解码的指令与第一源操作数以及第二源操作数相关联,所述第一源操作数是对存储第一矩阵的多个数据元素的存储器的引用,并且所述第二操作数是对存储第二矩阵的多个数据元素的存储器的引用。3.如权利要求2所述的并行处理器,其特征在于,附加地包括硬件电路,用于:基于所述第一源操作数,将所述第一矩阵的所述多个数据元素读取到所述脉动点积单元的存储器中;以及基于所述第二源操作数,将所述第二矩阵的所述多个数据元素读取到所述脉动点积单元的存储器中。4.如权利要求3所述的并行处理器,其特征在于,附加地包括:硬件电路,所述硬件电路用于检测所述第二矩阵的所述多个数据元素内的非零值,并将所述第二矩阵的所述多个数据元素内的检测到的非零值分组到包括一个或多个数据的组中。5.如权利要求4所述的并行处理器,其特征在于,所述组包括与所述脉动处理流水线的流水线级的数量相对应的数据元素数量。6.如权利要求5所述的并行处理器,其特征在于,附加地包括硬件电路,用于:将所述组的第一数据元素提供给第一流水线级;以及将所述组的第二数据元素提供给第二流水线级。7.如权利要求6所述的并行处理器,其特征在于,第三流水线级是所述第二流水线级,并且所述脉动处理流水线包括两个流水线级。8.如权利要求6所述的并行处理器,其特征在于,附加地包括所述第二流水线级和第三流水线级之间的第四流水线级,并且其中,所述脉动处理流水线包括四个流水线级。9.如权利要求6所述的并行处理器,其特征在于,附加地包括硬件电路,用于:将所述第一矩阵的第一组多个数据元素提供给所述第一流水线级;以及将所述第二矩阵的第二组多个数据元素提供给所述第二流水线级。10.如权利要求1-9中任一项所述的并行处理器,其特征在于,所述脉动处理流水线是第一脉动处理流水线,并且所述流水线化的脉动点积单元包括第二脉动处理流水线。11.如权利要求10所述的并行处理器,其特征在于,所述第一脉动处理流水线和所述第二脉动处理流水线的每个流水线级包括一个或多个处理元件,每个处理元件包括多个并行的处理器通道,并且每个并行的处理器通道能配置成对具有多个数据元素的向量执行操作。12.一种加速器设备,包括:主机接口;
结构互连,与所述主机接口耦合;以及一个或多个硬件片,与所述结构互连耦合,所述一个或多个硬件片包括稀疏矩阵乘法加速硬件,所述稀疏矩阵乘法加速硬件包括带有反馈输入的模块化脉动处理阵列,所述模块化脉动处理阵列包括具有第一数量的流水线路径的一个或...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。