一种深度处理器集群上的稀疏矩阵向量乘计算通讯方法技术

技术编号:42589849 阅读:32 留言:0更新日期:2024-09-03 18:05
本发明专利技术公开了一种深度处理器集群上的稀疏矩阵向量乘计算通讯方法,其步骤包括:1)选取或搭建一异构融合计算体系,每一设备端上部署一深度计算处理器作为加速卡;2)对于稀疏矩阵A和子空间向量x按照行均分的方式划分得到多个稀疏矩阵块、子空间向量块,将稀疏矩阵块A<supgt;i</supgt;及对应子空间向量块x<supgt;i</supgt;存放到第i个主机端;主机端将收到的稀疏矩阵块传递到与其绑定的设备端,各设备端执行步骤3)~4)完成SPMV计算;3)设备端I对稀疏矩阵块A<supgt;i</supgt;按列划分成多个稀疏矩阵子块;4)参与对角矩阵块A<supgt;ii</supgt;计算的x<supgt;i</supgt;存储在本地直接计算;参与非对角矩阵块A<supgt;ij</supgt;计算的x<supgt;j</supgt;存储在非本地处理器,处理器之间进行数据通讯得到所需向量x<supgt;j</supgt;进行计算。

【技术实现步骤摘要】

本专利技术属于分布式跨节点的通讯,涉及一种深度处理器集群上的稀疏矩阵向量乘计算通讯方法


技术介绍

1、求解得到大型稀疏矩阵特征值和特征向量问题是许多计算科学和数值模拟中的核心计算问题。例如,在电子结构、材料设计、仿真模拟和量子化学计算中存在大量稀疏特征值的数值求解问题。本文描述的稀疏矩阵标准特征问题可以被描述为以下形式:

2、ax=μx    (1)

3、这里的矩阵a是实数对称正定矩阵。μ是特征值,x是特征向量。

4、通常针对大规模稀疏矩阵会选取迭代方法对稀疏特征值问题进行求解。局部最优块预条件共轭梯度(locally optimal block preconditioned conjugate gradient,lobpcg)方法是一种专门用于对称正定矩阵特征值解的子空间迭代方法,对于大规模对称矩阵的求解具有优势。lobpcg的本质在于它能够通过一系列共轭梯度方向快速获得最小(或最大)的特征值。通过将块算法与各种预处理技术和预处理器相结合,可以在传统中央处理单元(central processing unit,cpu本文档来自技高网...

【技术保护点】

1.一种深度处理器集群上的稀疏矩阵向量乘计算通讯方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,第i个主机端将收到的稀疏矩阵块Ai转换为CSR-D存储结构后传递到与其绑定的设备端I;所述CSR-D存储结构包括多个三元组和6个用于存储数据通讯信息的数组,每一所述三元组包括稀疏矩阵块Ai中一元素的行索引、列号和元素值;所述数组包括:接收元素数组recvcolid,用于存储需要接收的数据在其他处理器的存储位置;接收索引数组recvindex,用于存储需要从每个其他处理器中获得的数据行索引;接收标签数组recvflag,用于存储是否需要从其他处理器接收数据;发送元素数组...

【技术特征摘要】

1.一种深度处理器集群上的稀疏矩阵向量乘计算通讯方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,第i个主机端将收到的稀疏矩阵块ai转换为csr-d存储结构后传递到与其绑定的设备端i;所述csr-d存储结构包括多个三元组和6个用于存储数据通讯信息的数组,每一所述三元组包括稀疏矩阵块ai中一元素的行索引、列号和元素值;所述数组包括:接收元素数组recvcolid,用于存储需要接收的数据在其他处理器的存储位置;接收索引数组recvindex,用于存储需要从每个其他处理器中获得的数据行索引;接收标签数组recvflag,用于存储是否需要从...

【专利技术属性】
技术研发人员:刘扬赵永华
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1