用于矩阵乘操作的集成电路装置、计算设备、系统和方法制造方法及图纸

技术编号:33997035 阅读:20 留言:0更新日期:2022-07-02 11:08
本披露公开了一种集成电路装置、电子设备、板卡和使用前述集成电路装置来执行矩阵乘的方法。该集成电路装置可以包括在组合处理装置的计算处理装置中,该计算处理装置可以包括一个或多个集成电路装置。前述的组合处理装置还可以包括接口装置和其他处理装置。所述计算处理装置与其他处理装置进行交互,共同完成用户指定的计算操作。组合处理装置还可以包括存储装置,该存储装置分别与设备和其他处理装置连接,用于存储该设备和其他处理装置的数据。本披露的方案可以降低内部设备与外部存储装置之间的数据传输量,由此最大程度地减少了由于带宽限制而导致的I/O瓶颈问题,从而可以提高集成电路装置的整体性能。高集成电路装置的整体性能。高集成电路装置的整体性能。

【技术实现步骤摘要】
用于矩阵乘操作的集成电路装置、计算设备、系统和方法


[0001]本披露一般地涉及数据处理领域。更具体地,本披露涉及一种用于矩阵乘操作的集成电路装置、板卡、计算设备、计算系统和方法。

技术介绍

[0002]人工智能领域通常涉及大量的数据处理和运算,这其中包括各种类型数据的矩阵乘操作。以当前人工智能领域内的机器学习为例,其中的许多计算任务都涉及到大规模的矩阵乘运算,特别是大矩阵的相乘操作。进一步以机器学习中的深度学习为例,其中就包含着类型和数目众多的矩阵乘操作,包括例如全连接层中的权值矩阵和输入向量的矩阵乘操作以及卷积层中的输入向量和卷积核的矩阵乘操作。可以想到的是当涉及的矩阵乘运算数据量和数据尺度越大,则对计算平台(特别是对片上系统)的存储量的要求就越高。
[0003]在现有的矩阵乘运算中,通常会利用中央处理器(“CPU”)或者图像处理单元(“GPU”)等处理器进行运算。然而,由于处理器受制于内部寄存器资源的容量限制,庞大的数据运算量可能会导致处理器与外部存储设备之间产生大量的数据交互。由于处理器与外部存储器之间的输入/输出(“I/O”)本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于矩阵乘操作的集成电路装置,包括:接口单元,其配置成从外部存储器获取用于所述矩阵乘操作的矩阵数据,其中所述矩阵数据包括第一矩阵和第二矩阵,其中第一矩阵和第二矩阵被分别划分成N2个第一矩阵块和N2个第二矩阵块,并且所述第一矩阵和第二矩阵的矩阵乘操作包括基于N2个第一矩阵块和N2个第二矩阵块的N2个矩阵乘任务,其中N是大于或等于2的正整数;N2个主计算单元,该N2个主计算单元依次连接以形成数据传递的回路,其中每个主计算单元配置成执行N2个矩阵乘任务中的相应一个,并且包括:多个存储区,其配置成存储用于执行矩阵乘任务的矩阵块和中间结果;以及控制单元,其配置成与相邻的主计算单元进行矩阵块交换;其中在执行相应一个所述矩阵乘任务中,每个所述主计算单元配置成:通过所述接口单元获取与其矩阵乘任务关联的一个第一矩阵块和一个第二矩阵块,并且分别存储于第一存储区和第二存储区中;对所述一个第一矩阵块和一个第二矩阵块执行矩阵乘操作,以得到一个中间结果;通过所述控制单元并且利用所述第一存储区和第二存储区来与相邻的主计算单元执行N

1次矩阵块交换,并且对每次交换到的第一矩阵块和第二矩阵块执行矩阵乘操作,以分别得到N

1个中间结果;以及对N个中间结果执行求和操作,以完成与其关联的矩阵乘任务。2.根据权利要求1所述的集成电路装置,其中每个所述主计算单元包括M2个计算子单元,并且所述第一矩阵块和所述第二矩阵块被分别划分成M2个第一矩阵子块和M2个第二矩阵子块,并且一个所述矩阵乘任务包括基于M2个第一矩阵子块和M2个第二矩阵子块的M2个矩阵乘子任务,其中所述M2个计算子单元的每个配置成执行M2个矩阵乘子任务中的对应一个,并且在执行对应一个矩阵乘子任务中,所述计算子单元配置成:执行M次如下操作,以获得M个中间子结果:从所述第一存储区和所述第二存储区分别获取与其矩阵乘子任务关联的一个第一矩阵子块和一个第二矩阵子块;对所述一个第一矩阵子块和对应的一个第二矩阵子块执行矩阵乘操作,以得到一个中间子结果;对所述M个中间子结果执行求和操作,以完成与其关联的矩阵乘子任务。3.根据权利要求2所述的集成电路装置,其中所述第一存储区和第二存储区是由所述N2个计算子单元所共享的共享存储区。4.根据权利要求2所述的集成电路装置,其中每个所述主计算单元的多个存储区还包括M2个私有子存储区,并且每个私有子存储区与对应的一个计算子单元关联,并且配置成存储中间子结果。5.根据权利要求2所述的集成电路装置,其中所述N2个主计算单元配置成并行地执行与各自关联的矩阵乘任务,并且所述M2个计算子单元配置成并行地执行与各自关联的矩阵乘子任务。6.根据权利要求1

5的任意一项所述的集成电路装置,其中根据加农算法规则来划分所述第一矩阵和第二矩阵,以得到N2个第一矩阵块和N2个第二矩阵块。7.根据权利要求2

5的任意一项所述的集成电路装置,其中根据加农算法规则来划分
所述第一矩阵块和第二矩阵块,以得到M2个第一矩阵子块和M2个第二矩阵子块。8.一种板卡,包括一个或多个根据权利要求1

7的任意一项所述的集成...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:中科寒武纪科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1