当前位置: 首页 > 专利查询>南京大学专利>正文

基于块的打包算法的稀疏矩阵加速器制造技术

技术编号:44208717 阅读:29 留言:0更新日期:2025-02-06 18:41
本申请提供一种基于块的打包算法的稀疏矩阵加速器,包括算法预处理模块、计算模组和排序模块。算法预处理模块可获取包括流矩阵和平稳矩阵的稀疏矩阵,对流矩阵和平稳矩阵按照预设数值进行分块,之后分别对矩阵中的第一非零元素和第二非零元素以及零元素执行移位合并处理,以得到稠密流矩阵和稠密平稳矩阵;并保存第一非零元素移位前的地址和第二非零元素移位前和移位后的地址。计算模组可对稠密流矩阵和稠密平稳矩阵执行乘运算和加和计算,以得到部分和结果和部分和结果的第一地址结果。排序模块可根据第一地址结果对部分和结果进行排序,以得到结果矩阵。上述加速器可提高矩阵的密集程度,同时可以实现正确的同列相加,进而可提高计算效率。

【技术实现步骤摘要】

本申请涉及稀疏矩阵计算,尤其涉及一种基于块的打包算法的稀疏矩阵加速器


技术介绍

1、稀疏通用矩阵乘法(sparse general matrix multiply,spgemm)是深度神经网络(deep neural networks,dnn)模型中普遍存在的重要计算内核,当人工智能应用程序在gpu和加速器上运行时,spgemm会影响应用程序的性能,因此需要对稀疏矩阵进行处理。可通过离线预处理填充算法,将稀疏输入矩阵压缩成更密集的输入矩阵,然后将它们映射到收缩数组上执行spgemm,以提高执行效率。每一种离线预处理填充算法会设计专门的硬件进行计算,例如,碰撞感知算法和专用硬件结构;基于块的sorpack打包算法和专用硬件结构。

2、碰撞感知算法通过不改变非零元素行位置的情况下,选择稀疏列组合成更密集的列,但在深度神经网络应用中,对于大矩阵的列合并会非常耗时,且硬件中的数据流是为稀疏矩阵向量乘法(spmv)而设计的,并没有对spgemm进行优化。基于块的sorpack打包算法为了提高处理单元利用率,将矩阵分成流矩阵和平稳矩阵,然后对流矩阵和平稳本文档来自技高网...

【技术保护点】

1.一种基于块的打包算法的稀疏矩阵加速器,其特征在于,包括:

2.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述分别对所述流矩阵和所述平稳矩阵按照预设数值执行分块处理,以得到多个分块流矩阵和多个分块平稳矩阵包括:

3.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述分别对所述第一非零元素和所述第二非零元素执行移位处理,以及对所述零元素执行合并处理,以得到稠密流矩阵和稠密平稳矩阵包括:

4.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述稠密流矩阵包括至少一个第一行向量,所述稠密平稳矩阵...

【技术特征摘要】

1.一种基于块的打包算法的稀疏矩阵加速器,其特征在于,包括:

2.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述分别对所述流矩阵和所述平稳矩阵按照预设数值执行分块处理,以得到多个分块流矩阵和多个分块平稳矩阵包括:

3.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述分别对所述第一非零元素和所述第二非零元素执行移位处理,以及对所述零元素执行合并处理,以得到稠密流矩阵和稠密平稳矩阵包括:

4.根据权利要求1所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述稠密流矩阵包括至少一个第一行向量,所述稠密平稳矩阵包括至少一个第一列向量;多个所述计算模组呈网状连接,按照行和列设置,同一行的所述计算模组被配置为:

5.根据权利要求4所述的基于块的打包算法的稀疏矩阵加速器,其特征在于,所述流辅助矩阵包括至少一个第二行向量,所述平稳辅助矩阵包括至少一个第二列向量;所述流辅助矩阵中的元素包括第一元素,所述第一元素为移位处理前所述第一非零元素在所述分块流矩阵中的第一地址,所述...

【专利技术属性】
技术研发人员:杜源吴奇杜力
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1