当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于稀疏-密集矩阵乘法的加速器制造技术

技术编号:26689946 阅读:48 留言:0更新日期:2020-12-12 02:39
所公开的实施例涉及用于稀疏‑密集矩阵指令的加速器。在一个示例中,一种用于执行稀疏‑密集矩阵乘法指令的处理器,包括:取出电路,用于取出稀疏‑密集矩阵乘法指令,稀疏‑密集矩阵乘法指令具有用于指定操作码、密集输出矩阵、密集源矩阵、和具有非零元素的稀疏度的稀疏源矩阵的字段,稀疏度小于一;解码电路,用于对所取出的稀疏‑密集矩阵乘法指令解码;执行电路,用于执行经解码的稀疏‑密集矩阵乘法指令以对于所指定的稀疏源矩阵的行M和列K处的每个非零元素进行以下操作:生成该非零元素与所指定的密集源矩阵的行K和列N处的每个对应密集元素的乘积;以及生成每个所生成的乘积与所指定的密集输出矩阵的行M和列N处的对应输出元素的先前值的累加和。

【技术实现步骤摘要】
用于稀疏-密集矩阵乘法的加速器本申请是申请号为201910227563.7,申请日为2019年3月25日、优先权日为2018年3月28日、题为“用于稀疏-密集矩阵乘法的加速器”的专利技术专利申请的分案申请。
本公开涉及处理逻辑、微处理器以及相关联的指令集架构的领域,并且更具体地涉及用于稀疏-密集矩阵指令的加速器。
技术介绍
深度学习是一类机器学习算法。诸如深度神经网络的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计等的领域。用于深度学习的两种工具推理和训练趋向于低精度算术。使深度学习算法和计算的吞吐量最大化可以帮助满足深度学习处理器的需求,深度学习处理器例如在数据中心中执行深度学习的那些处理器。稀疏-密集矩阵乘法(SDMM)操作在深度学习情境中是有用的。但是,传统的CPU和GPU指令集架构需要具有相同密度的对称输入,这限制了通过利用稀疏输入矩阵的稀疏度来获得性能优势的能力。附图说明在所附附图中以示例方式而非限制方式来图示本专利本文档来自技高网...

【技术保护点】
1.一种处理器,包括:/n高速缓存,用于存储数据;/n多个核,耦合至所述高速缓存,所述多个核中的核包括:/n执行电路,用于响应于指令来执行对第一源矩阵和第二源矩阵的乘法累加操作以生成结果矩阵,其中,所述第一源矩阵是具有位于某些位置处的非零数据元素的稀疏矩阵,/n其中,所述第一源矩阵按压缩格式被存储,所述压缩格式标识所述非零数据元素在所述第一源矩阵中的位置,所述执行电路进一步包括:/n多个乘法累加电路,用于执行多个融合乘加操作,以将所述第一源矩阵的所述非零数据元素与基于按所述压缩格式的所述位置而标识的所述第二源矩阵的对应数据元素相乘来生成多个乘积,并且将所述多个乘积加到累加值以生成所述结果矩阵的...

【技术特征摘要】
20180328 US 15/938,9241.一种处理器,包括:
高速缓存,用于存储数据;
多个核,耦合至所述高速缓存,所述多个核中的核包括:
执行电路,用于响应于指令来执行对第一源矩阵和第二源矩阵的乘法累加操作以生成结果矩阵,其中,所述第一源矩阵是具有位于某些位置处的非零数据元素的稀疏矩阵,
其中,所述第一源矩阵按压缩格式被存储,所述压缩格式标识所述非零数据元素在所述第一源矩阵中的位置,所述执行电路进一步包括:
多个乘法累加电路,用于执行多个融合乘加操作,以将所述第一源矩阵的所述非零数据元素与基于按所述压缩格式的所述位置而标识的所述第二源矩阵的对应数据元素相乘来生成多个乘积,并且将所述多个乘积加到累加值以生成所述结果矩阵的数据元素。


2.如权利要求1所述的处理器,其中,所述第一源矩阵中的非零数据元素的每个位置用于标识所述第二源矩阵中的行和/或列,其中,所述多个乘法累加电路用于分别将所述第一矩阵中的所述非零数据元素与行和/或列中的每个数据元素相乘。


3.如权利要求1所述的处理器,其中,所述第二源矩阵包括密集矩阵。


4.如权利要求1所述的处理器,其中,压缩稀疏矩阵格式包括压缩稀疏行CSR格式或压缩稀疏列CSC格式。


5.如权利要求3所述的处理器,进一步包括用于取出所述指令的指令取出电路和用于对所述指令解码的解码器。


6.如权利要求5所述的处理器,其中,所述指令包括多个字段,所述多个字段包括用于标识操作码的第一字段、用于标识所述结果矩阵的第二字段、用于标识所述第一源矩阵的第三字段、以及用于标识所述第二源矩阵的第四字段。


7.如权利要求1所述的处理器,其中,所述第一源矩阵和所述第二源矩阵包括机器学习激活矩阵和/或权重向量。


8.一种方法,包括:
将数据存储在高速缓存中;
由耦合至所述高速缓存的多个核中的核响应于指令来执行对第一源矩阵和第二源矩阵的乘法累加操作以生成结果矩阵,其中,所述第一源矩阵是具有位于某些位置处的非零数据元素的稀疏矩阵,
其中,所述第一源矩阵按压缩格式被存储,所述压缩格式标识所述非零数据元素在所述第一源矩阵中的位置,其中,执行乘法累加操作进一步包括:
执行多个融合乘加操作,以将所述第一源矩阵的所述非零数据元素与基于按所述压缩格式的所述位置而标识的所述第二源矩阵的对应数据元素相乘来生成多个乘积;以及
将所述多个乘积加到累加值以生成所述结果矩阵的数据元素。


9.如权利要求8所述的方法,其中,所述第一源矩阵中的非零数据元素的每个位置用于标识所述第二源矩阵中的行和/或列,其中,执行乘法累加操作用于分别将所...

【专利技术属性】
技术研发人员:S·纳拉亚纳穆尔蒂N·R·萨蒂什A·苏普鲁恩K·J·珍妮克
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1