一种基于GPU并行加速的对称条带矩阵三对角化变换方法技术

技术编号:43310404 阅读:48 留言:0更新日期:2024-11-12 16:28
本发明专利技术提供了一种基于GPU并行加速的对称条带矩阵三对角化变换方法,属于高性能计算技术领域。该方法通过基于GPU创建多个线程块,线程块中的线程并行处理凸块追逐;同时通过在GPU上创建全局数据存储待变换矩阵条带化数据,既减少数据存储量增加数据局部性,又用于线程块之间进行数据同步;待所有线程块都完成自己的凸块追逐,再将全局数组中变换后的数据分别复制回矩阵A主对角线、上次对角线与下次对角线相应位置,得到三条带化矩阵,完成整个凸块追逐过程。该方法首次在GPU上实现凸块追逐,并实现了并行加速,与现有的对称条带矩阵三对角化方法相比,能够大幅提升GPU处理性能。

【技术实现步骤摘要】

本专利技术属于高性能计算,尤其涉及一种基于gpu并行加速的对称条带矩阵三对角化变换方法。


技术介绍

1、对称矩阵特征值分解是现在高性能数据计算的重要课题,涉及到人工智能、科学计算等多个领域。对称矩阵特征值分解目前常用的方法是三阶段分解算法,分为对称矩阵条带化阶段、对称条带化矩阵三对角化阶段和求特征值阶段,分别完成对称矩阵的条带化分解、将条带化对称矩阵分解为三对角化和使用qr迭代算法或者分治法求出最终的特征值三个任务。现有算法的性能瓶颈体现在前两个阶段,在常用算法包cuda cusolver中所花时间占95%以上。

2、对称条带化矩阵三对角化分解,其常用的方法为凸块追逐(bulge chasing)。但此方法在目前通常认为是内存瓶颈,大家认为其算法瓶颈主要存在于内存搬运上,是内存瓶颈问题不是计算瓶颈问题,所以到目前为止并没有在gpu上进行实现的版本。


技术实现思路

1、随着硬件加速技术的不断发展,英伟达gpu在人工智能、并行计算等领域取得了巨大成功。其simd(single instruction/本文档来自技高网...

【技术保护点】

1.一种基于GPU并行加速的对称条带矩阵三对角化变换方法,针对n*n的对称条带化矩阵A,其条带化宽度为b,进行三条带化变换,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于GPU并行加速的对称条带矩阵三对角化变换方法,其特征在于,所述步骤1具体如下:

3.根据权利要求1所述的一种基于GPU并行加速的对称条带矩阵三对角化变换方法,其特征在于,所述步骤3具体如下:

4.根据权利要求3所述的一种基于GPU并行加速的对称条带矩阵三对角化变换方法,其特征在于,所述步骤3.2具体如下:

5.根据权利要求3所述的一种基于GPU并行加速的对称条...

【技术特征摘要】

1.一种基于gpu并行加速的对称条带矩阵三对角化变换方法,针对n*n的对称条带化矩阵a,其条带化宽度为b,进行三条带化变换,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于gpu并行加速的对称条带矩阵三对角化变换方法,其特征在于,所述步骤1具体如下:

3.根据权利要求1所述的一种基于gpu并行加速的对称条带矩阵三对角化变换方法,其特征在于,所述步骤3具体如下:

4.根据权利要求3所述的一种基于gpu并行加速的对称条带矩阵三对角化变换方法,其特征在于,所述步骤3.2具体如下:

5.根据权利要求3所...

【专利技术属性】
技术研发人员:王瀚生张少帅段翰聪邹浩严华兵赵子天
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1