一种带状稀疏矩阵的数据存储格式及其乘法加速方法技术

技术编号：35520073 阅读：20 留言：0更新日期：2022-11-09 14:38

本发明专利技术提供了一种带状稀疏矩阵的数据存储格式及其乘法加速方法，属于矩阵数据存储格式以及高性能乘法计算领域，该发明专利技术利用矩阵的稀疏带的特殊结构(即同一稀疏带内所有行的列下标相同)，提供了一种带状稀疏矩阵的数据存储格式，避免同一稀疏带内相同列下标的冗余存储，是一种高效的压缩的存储格式；同时，基于该数据储存格式，本发明专利技术提供了一种带状稀疏矩阵的数据存储格式的乘法加速方法，实现其中稠密矩阵的行的复用，减少了全局内存数据传输的消耗，提高了计算效率。提高了计算效率。提高了计算效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种带状稀疏矩阵的数据存储格式及其乘法加速方法

[0001]本专利技术涉及一种改善带状稀疏矩阵乘法的实现方法，属于矩阵数据存储格式以及高性能乘法计算领域，尤其适用于一种带状稀疏矩阵的数据存储格式及其乘法加速方法。

技术介绍

[0002]稀疏矩阵是指其元素大部分是零的矩阵，而非零元素所占比例非常小，往往小于总数的1％。稀疏矩阵乘法广泛应用在大型科学计算、深度学习、图形分析和经济建模等领域。而深度学习领域的稀疏矩阵乘法问题通常表示为稀疏
‑
密集矩阵乘法(SpMM，sparse
‑
dense matrix multiplication)，一般表示为给定大小为m*k的稀疏矩阵A和大小为k*n的稠密矩阵B，求大小为m*n的矩阵C的过程。在深度学习的特定背景下，高效的稀疏性乘法已成为提高训练和推理性能以及在保持准确性的同时减小模型大小的主要方法之一。尤其在图神经网络(GNN)中，输入图的结构表示为邻接矩阵或邻接表，通常具有稀疏性。SpMM作为GNN中的主要操作，即使在GPU等并行硬件上也是一个耗时的步骤，为了在GNN应用程序的训练和推理中实现高性能，加速SpMM算法具有重要意义。
[0003]为了节省存储空间，减少矩阵乘法次数，稀疏矩阵通常采用压缩方法进行存储，即只存储矩阵中的非零元素，通过这种高效的存储方式可以提高矩阵乘法整体性能，最常用的存储格式是CSR方法，参见文献[1]。假设稀疏矩阵A的大小为m*k，含有非零元的个数为nnz。CSR格式按行对非零元进行压缩，需要三个数组来表示矩...

【技术保护点】

【技术特征摘要】
1.一种带状稀疏矩阵的数据存储格式，其特征在于，由五个数组：b、rc、rv、c、v组成；对于含有p个稀疏带{D1，
…
，D
p
}的m*k维带状稀疏矩阵A，b为稀疏带的高度累加值，rc为稀疏带首行的非零元数累加值，rv为稀疏带所有非零元总数的累加值，c为每个稀疏带首行非零元的列下标，v为带状稀疏矩阵A中每个非零元的值；所述的稀疏带为矩阵中连续若干行的非零元数量及相对应的列下标都相同的这若干行。2.根据权利要求1所述的一种带状稀疏矩阵的数据存储格式，其特征在于，通过预先对稀疏矩阵A的稀疏带个数p和维度m进行比较选择存储格式，当p＜(2m
‑
1)/4时采用一种带状稀疏矩阵的数据存储格式进行处理，否则采用CSR格式进行处理。3.应用于权利要求1所述的一种带状稀疏矩阵的数据存储格式的一种带状稀疏矩阵A的数据存储格式的方法，其特征在于，包括以下步骤：S31：遍历带状稀疏矩阵A，依次识别出p个稀疏带{D1，
…
，D
p
}，在D1前插入一个空的稀疏带D0，与其构成数组稀疏带{D0，D1，
…
，D
p
}；S32：遍历数组稀疏带，将D0到D
i
的高度进行累加，分别得到b[i]的值；进而获得p+1维的数组b＝{b[i]|0≤i≤p}；S33：遍历数组稀疏带，将D0到D
i
的首行的非零元数进行累加，分别得到rc[i]的值；进而获得p+1维的数组rc＝{rc[i]|0≤i≤p}；S34：遍历前p个数组稀疏带，将稀疏带D0到D
i
的所有行的非零元总数进行累加，分别得到rv[i]的值，进而获得p维的数组rv＝{rv[i]|0≤i≤p
‑
1}；S35：遍历带状稀疏矩阵A的稀疏带{D1，
…
，D
p
}，依次提取每个稀疏带首行中所有非零元的列下标，并按顺序存储到数组c中；S36：遍历带状稀疏矩阵A，记录每个非零元的值v[i]，从而得到数组v＝{v[i]|1≤i≤nnz}，其中，nnz为带状稀疏矩阵非零元总个数；S37：将b、rc、rv、c、v五个数组进行打包，作为带状稀疏矩阵A的数据存储格式。4.应用于权利要求1所...

【专利技术属性】
技术研发人员：陈长波，刘丽，杨文强，
申请(专利权)人：中国科学院重庆绿色智能技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人