一种GPU批量矩阵乘法加速器及其处理方法技术

技术编号:34011502 阅读:75 留言:0更新日期:2022-07-02 14:42
本发明专利技术公开了一种GPU批量矩阵乘法加速器,包括由工作组管理器、指令译码处理器、高速存储单元、共享内存单元、计算单元、DMA组成主分支电路,用于对矩阵数据进行批次序优化,得到矩阵分片,将矩阵分片载入到计算单元中;由指令译码处理器、高速存储单元、共享内存单元、计算单元、DMA组成旁分支电路,当不进行批次序优化时,对矩阵数据直接进行内核函数计算,得到矩阵计算结果;本发明专利技术可以有效提高计算单元的利用效率并达到各个计算单元任务量的负载均衡,提高运行时的计算密度,达到更高的指令并行性、线程并行性和访存并行性,从而充分发挥硬件的计算能力,达到计算加速的目的。达到计算加速的目的。达到计算加速的目的。

【技术实现步骤摘要】
一种GPU批量矩阵乘法加速器及其处理方法


[0001]本专利技术涉及高性能计算的研究领域,特别涉及一种GPU批量矩阵乘法加速器及其处理方法。

技术介绍

[0002]Basic Linear Algebra Subprograms(基本线性代数子程序,BLAS)是一系列基本线性代数运算函数的接口标准,被广泛用于科学计算和工业界的各个领域。更高级的一些语言和计算库中也是通过调用BLAS接口实现的(R语言、Matlab、Numpy、Lapack等)。如今随着BLAS的发展,出现了各种基于不同平台和硬件架构的BLAS库实现,如CuBLAS、RocBLAS、MKL、MAGMA、OpenBLAS等,并对现代科学领域和工业发展起到了至关重要的作用。
[0003]经典BLAS应用场景针对大型输入(大型的矩阵、向量操作)往往有较好的性能表现;然而对于问题规模较小,而问题数量较大的场景下会由于单个问题较小导致资源利用不充分,极大的影响了性能和效率。然而,随着目前高性能计算领域、机器学习等领域的不断发展,这类型的问题常常出现并已经成为了一种新兴趋势,这迫使经本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种GPU批量矩阵乘法加速器,其特征在于,包括:指令译码处理器,将CPU端提交至指令队列的DMA传输包读取并译码,并将译码后的结果传输给DMA传输引擎进而将矩阵数据从CPU端载入;计算单元,用于将载入的矩阵分片进行并行执行计算,通过内核函数并行计算矩阵分片中的分片计算结果;共享内存单元,用于存储矩阵分片的中间计算过程的矩阵部分;高速存储单元,用于存储相关数据;工作组管理器,用于各单元之间的工作管理;由工作组管理器、指令译码处理器、高速存储单元、共享内存单元、计算单元、DMA组成主分支电路,用于对矩阵数据进行批次序优化,得到矩阵分片,将矩阵分片载入到计算单元中;由指令译码处理器、高速存储单元、共享内存单元、计算单元、DMA组成旁分支电路,当不进行批次序优化时,对矩阵数据直接进行内核函数计算,得到矩阵计算结果。2.根据权利要求1所述的一种GPU批量矩阵乘法加速器,其特征在于,所述工作组管理器根据配置信息对网格进行划分,拆分出多个工作组,并将多个工作组数据发送到计算单元中进行计算,并管理调度执行运算的工作组的顺序。3.根据权利要求1所述的一种GPU批量矩阵乘法加速器,其特征在于,所述存储相关数据,具体为:相关数据包括输入矩阵尺寸信息、批大小信息、矩阵元素与指针、批次序信息、策略桶、网格配置信息、输出矩阵。4.根据权利要求1所述的一种GPU批量矩阵乘法加速器,其特征在于,当批量矩阵乘法问题实例输入至加速器时,加速器通过批次矩阵信息判断是否进入主分支电路,在主分支中统计每个矩阵乘法问题实例的工作量并对其进行粗排序,结合内核函数的尺寸大小与计算单元配置对所述问题实例采取最佳划分分片大小,并对该问题实例规模进行细排序以优化最终批次序,将并将优化后的矩阵数据载入至计算单元中进行计算,得出的最终结果返回至指令译码处理器;若不进入优化分支,则进入旁分支电路,直接将矩阵数据载入至计算单元中来使用内核函数进行计算,并将结果返回。5.一种GPU批量矩阵乘法加速处理方法,其特征在于,包括以下步骤:将矩阵数据输入到加速器中,对矩阵数据进行判断,根据判断结果选择是否进行批次序优化;如需要进行批次序优化,对矩阵数据的矩阵尺寸进行统计分析,得到统计分析结果;根据内核函数的分片大小对矩阵数据进行匹配划分,得到划分结果;根据矩阵数据指针进行分类,得到分类结果;依据统计分析结果、划分结果、分类结果重排数据数据输入的批次序;根据重排后的顺序结合内核函数进行重新调用和计算,得到最终运算结果;如不需要进行批次序优化,则通过内核函数计算,得到最终运算结果。6.根据权利要求5所述的一种GPU批量矩阵乘法加速处理方法,其特征在于,所述批次序优化,具体为:对当前矩阵数据输入进行分析;遍历矩阵数据输入中各个实例的矩阵大小,统计记录各个实例...

【专利技术属性】
技术研发人员:陆璐王瑞民冼允廷
申请(专利权)人:中山市华南理工大学现代产业技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1