【技术实现步骤摘要】
本申请涉及稀疏矩阵计算,尤其涉及一种基于块的打包算法的稀疏矩阵加速器。
技术介绍
1、稀疏通用矩阵乘法(sparse general matrix multiply,spgemm)是深度神经网络(deep neural networks,dnn)模型中普遍存在的重要计算内核,当人工智能应用程序在gpu和加速器上运行时,spgemm会影响应用程序的性能,因此需要对稀疏矩阵进行处理。可通过离线预处理填充算法,将稀疏输入矩阵压缩成更密集的输入矩阵,然后将它们映射到收缩数组上执行spgemm,以提高执行效率。每一种离线预处理填充算法会设计专门的硬件进行计算,例如,碰撞感知算法和专用硬件结构;基于块的sorpack打包算法和专用硬件结构。
2、碰撞感知算法通过不改变非零元素行位置的情况下,选择稀疏列组合成更密集的列,但在深度神经网络应用中,对于大矩阵的列合并会非常耗时,且硬件中的数据流是为稀疏矩阵向量乘法(spmv)而设计的,并没有对spgemm进行优化。基于块的sorpack打包算法为了提高处理单元利用率,将矩阵分成流矩阵和平稳矩阵
...【技术保护点】
1.一种基于块的打包算法的稀疏矩阵加速器,其特征在于,包括:
2.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述分别对所述流矩阵和所述平稳矩阵按照预设数值执行分块处理,以得到多个分块流矩阵和多个分块平稳矩阵包括:
3.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述分别对所述第一非零元素和所述第二非零元素执行移位处理,以及对所述零元素执行合并处理,以得到稠密流矩阵和稠密平稳矩阵包括:
4.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述稠密流矩阵包括至少一个第一行向
...【技术特征摘要】
1.一种基于块的打包算法的稀疏矩阵加速器,其特征在于,包括:
2.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述分别对所述流矩阵和所述平稳矩阵按照预设数值执行分块处理,以得到多个分块流矩阵和多个分块平稳矩阵包括:
3.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述分别对所述第一非零元素和所述第二非零元素执行移位处理,以及对所述零元素执行合并处理,以得到稠密流矩阵和稠密平稳矩阵包括:
4.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述稠密流矩阵包括至少一个第一行向量,所述稠密平稳矩阵包括至少一个第一列向量;多个所述计算模组呈网状连接,按照行和列设置,同一行的所述计算模组被配置为:
5.根据权利要求4所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述流辅助矩阵包括至少一个第二行向量,所述平稳辅助矩阵包括至少一个第二列向量;所述流辅助矩阵中的元素包括第一元素,所述第一元素为移位处理前所述第一非零元素在所述分块流矩阵中的第一地址,所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。