用于优化片上系统的矩阵乘操作的方法和相关产品技术方案

技术编号：35279907 阅读：17 留言：0更新日期：2022-10-22 12:22

本披露公开了用于优化片上系统的矩阵乘操作的方法和相关产品。该片上系统可以包括在组合处理装置的计算处理装置中，该计算处理装置可以包括一个或多个集成电路装置。前述的组合处理装置还可以包括接口装置和其他处理装置。所述计算处理装置与其他处理装置进行交互，共同完成用户指定的计算操作。组合处理装置还可以包括存储装置，该存储装置分别与设备和其他处理装置连接，用于存储该设备和其他处理装置的数据。本披露的方案可以降低内部设备与外部存储装置之间的数据传输量，由此最大程度地减少了由于带宽限制而导致的I/O瓶颈问题，从而可以提高集成电路装置的整体性能。从而可以提高集成电路装置的整体性能。从而可以提高集成电路装置的整体性能。

全部详细技术资料下载

【技术实现步骤摘要】
用于优化片上系统的矩阵乘操作的方法和相关产品

[0001]本披露一般地涉及数据计算领域。更具体地，本披露涉及一种用于优化片上系统的矩阵乘操作的方法、设备和计算机可读存储介质。

技术介绍

[0002]矩阵乘操作是科学计算和数据处理领域中非常常见的一种数据运算操作。以当下高速发展的人工智能领域来说，其通常涉及大量的数据计算，其中就包括各种类型数据的矩阵乘操作。在人工智能领域的研究热点——深度学习中，例如深度神经网络(Deep Neural Networks，“DNN”)、循环神经网络(Recurrent Neural Network，“RNN”)，以及大规模应用于自然语言处理(Natural Language Processing，“NLP”)领域的变换(“transformer”)网络等，许多计算任务都涉及到大规模的矩阵乘运算，特别是两个大矩阵的相乘操作。众所周知，当涉及的矩阵乘运算数据量和数据尺度越大，则对计算平台(特别是对片上系统)的计算能力和访存性能要求就越高。
[0003]在现有的矩阵乘运算中，通常会利用中央处理器(“CPU”)或者图像处理单元(“GPU”)等处理器进行运算。然而，由于受处理器内部存储器资源的容量限制，大规模矩阵乘操作带来的庞大数据运算量会导致处理器的片上系统与外部存储设备之间产生频繁的、大量的数据交互。由于处理器与外部存储器之间的输入/输出(“I/O”)总线的带宽有限，这就会导致严重的I/O瓶颈问题，由此造成的数据传输延迟也会极大地降低并行运算时的运算效率。进一步，不仅I/O总线的带宽...

【技术保护点】

【技术特征摘要】
1.一种用于优化片上系统的矩阵乘操作的方法，所述方法由一个或多个处理器实现，并且包括：接收待拆分以便执行矩阵乘操作的第一矩阵和第二矩阵的矩阵信息，其中所述第一矩阵为M行
×
K列并且所述第二矩阵为K行
×
N列；以及通过最小化代价函数来确定用于拆分第一矩阵和第二矩阵的拆分系数，所述拆分系数包括用于拆分第一矩阵后获得的矩阵块的行数M
b
和列数K
b
以及拆分第二矩阵后获得的矩阵块的行数K
b
和列数N
b
，其中所述代价函数用于确定在所述片上系统和片外系统之间传递矩阵数据对在所述片上系统执行所述矩阵乘操作所产生的代价，其中所述代价函数至少基于所述第一矩阵的数据规模大小、所述第二矩阵的数据规模大小、所述第一矩阵的行数M、所述第二矩阵的列数N和所述拆分系数。2.根据权利要求1所述的方法，其中所述代价函数还基于带宽利用率系数，其中所述带宽利用率系数等于按预定数据长度从所述片外系统加载矩阵块时的等效带宽与片上系统和片外系统之间的总带宽之间的比值。3.根据权利要求1或2所述的方法，其中在通过最小化代价函数来确定所述拆分系数中，所述方法包括建立用于最小化所述代价函数的搜索空间，以便利用所述搜索空间确定所述拆分系数。4.根据权利要求3所述的方法，其中建立用于最小化所述代价函数的搜索空间包括：对所述片上系统的高速缓冲区进行划分；以及根据划分结果建立所述搜索空间，其中所述高速缓冲区被布置用于存储拆分后的矩阵块和对所述拆分后的矩阵块执行矩阵乘操作所获得的矩阵乘结果。5.根据权利要求4所述的方法，其中所述片上系统包括多级高速缓存区，并且所述方法包括：根据用于执行矩阵乘操作的预定矩阵乘算法，建立与每一级高速缓存区关联的搜索子空间。6.根据权利要求5所述的方法，其中所述多级高速缓存区包括一级高速缓存区和二级高速缓存区，并且所述搜索空间包括第一搜索子空间和第二搜索子空间，所述方法包括：根据所述一级高速缓存区中的多个第一高速缓冲区的设置来建立所述第一搜索子空间，其中所述多个第一高速缓冲区用于存储拆分所述矩阵块所获得的矩阵子块和对所述矩阵子块执行矩阵乘操作所获得的中间运算结果；以及根据所述二级高速缓存区的多个第二高速缓冲区的设置来建立所述第二搜索子空间，其中所述多个第二高速缓冲区用于存储拆分所述矩阵子块所获得的原子矩阵和对所述原子矩阵执行矩阵乘操作所获得的中间运算结果。7.根据权利要求6所述的方法，其中通...

【专利技术属性】
技术研发人员：ꢀ七四专利代理机构，
申请(专利权)人：中科寒武纪科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人