一种基于CSR格式的高性能稀疏矩阵向量乘法计算方法技术

技术编号：30016761 阅读：15 留言：0更新日期：2021-09-11 06:26

本发明专利技术公开了一种基于CSR格式的高性能稀疏矩阵向量乘法计算方法，该方法首先根据现有的方法进行空间局部性优化，循环效率优化与访存效率优化；根据现有硬件资源的配置与仿真情况，自适应的开辟合理数目的线程，优化加锁解锁方式使线程池更高效；针对cache missing问题与硬件条件完成适应性的亲和性设置。本发明专利技术基于传统的CSR格式的稀疏矩阵向量乘法，充分考虑硬件资源对计算性能的限制，以及算法对计算效率与访存效率的影响；在改进原有算法基础上，模型可以资源配置与任务数目，自适应的通过基于矩阵索引的线程池与亲和性设置完成仿真加速。真加速。真加速。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CSR格式的高性能稀疏矩阵向量乘法计算方法

[0001]本专利技术涉及稀疏矩阵向量乘法计算的
，特别是涉及一种基于CSR格式的高性能稀疏矩阵向量乘法计算方法。

技术介绍

[0002]目前工艺的不断进步，结点的尺寸在不断缩小，导致集成电路的密集程度不断增加。尤其针对大型的存储电路(动态随机存取存储器,静态随机存取存储器,快闪存储器等)，矩阵向量运算会在整个仿真中占据很大规模的时间，仿真所运算的矩阵与向量与电路规模成正比，矩阵的规模甚至会达到千万维以上。但是电路中不同的结点之间并不是全连接关系，用简单的二维数组去表示会有大量的0值，存储空间有着极大的消耗。而采用CSR格式的压缩矩阵去存储并计算这些稀疏矩阵向量乘法，虽然可以减少大量的零元素的乘法，但是依旧会存在以下问题。
[0003]要计算的矩阵中，每行非零值数目不确定，非零值位置未知，甚至要仿真的行都是要变化的，因此在不考虑并发的条件下，如何在CSR格式下调度数据并选取合理的计算方式，保证各非零值找到的同时并完成加速。
[0004]通过CSR格式压缩稀疏矩阵，顺序访问压缩矩阵元素即可完成对矩阵所有元素的访问，同时，通过对应的横坐标值，可以访问与该矩阵元素进行乘法运算的向量元素。
[0005]利用多线程是实现加速的一个重要途径，但是选取独立的计算单元保证线程之间不冲突，与如何处理多个矩阵之间运算顺序保证各个矩阵都完成仿真都是要考虑的问题，在保证这两个条件下，如何做到更快的仿真依旧是重点与难点。
[0006]矩阵数据以CSR格式...

【技术保护点】

【技术特征摘要】
1.一种基于CSR格式的高性能稀疏矩阵向量乘法计算方法，其特征在于，包括如下步骤：步骤S1、采用最简高效循环结构，进行空间局部性优化，循环效率优化与访存效率优化；步骤S2、引入局部变量减少冗余访存和冗余计算；步骤S3、在利用多线程加快仿真结果方面，借鉴线程池的基本思想并对线程池进行改进；步骤S4、采用适应性的亲和性设置。2.根据权利要求1所述的一种基于CSR格式的高性能稀疏矩阵向量乘法计算方法，其特征在于，所述采用最简高效循环结构具体包括：步骤S101、将所有计算整合到一个循环结构中，用以减少冗余计算；步骤S102、按压缩矩阵元素存储顺序访存；步骤S103、循环步长为1。3.根据权利要求2所述的一种基于CSR格式的高性能稀疏矩阵向量乘法计算方法，其特征在于，所述步骤S2具体包括：在循环内部使用局部变量保存中间结果，然后将中间结果保存在寄存器，计算结束后再写入内存；在循环外提前计算循环内的中间结果，在循环内使用临时变量直接使用这一中间结果。4.根据权利要求3所述的一种基于CSR格式的高性能稀疏矩阵向量乘法计算方法，其特征在于，所述步骤S3具体包括：步骤S301、创建代表矩阵索引的全局变量与互斥锁，并定义结构体；步骤S302、调用仿真任务模块时将全局变量赋初值；步骤S303、利用CPU查看指...

【专利技术属性】
技术研发人员：王超，张加浩，左岳，王寅初，周亦非，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人