一种提高图形处理单元的矩阵乘计算性能的方法和装置制造方法及图纸

技术编号：17109782 阅读：21 留言：0更新日期：2018-01-24 22:28

本发明专利技术公开了提高图形处理单元的矩阵乘计算性能的方法和装置，该方法包括：采用图形处理单元的共享存储器拷贝在图形处理单元的全局存储器中的两个矩阵中的每个矩阵中的相应矩阵块，以进行矩阵乘计算，直到在图形处理单元的全局存储器中的两个矩阵中的所有矩阵块均已进行矩阵乘计算为止。当在图形处理单元的全局存储器中的两个矩阵中的所有矩阵块均已进行矩阵乘计算的时候，将矩阵块的相应元素位置的乘积写入图形处理单元的全局存储器。对于矩阵中频繁读写的元素，充分利用存储器中局部性原理，减少全局存储器访问的次数，并且充分利用图形处理单元的共享存储器的读取快速、性能开销小的优点，减少读取数据所带来的性能开销，提高矩阵乘计算性能。

A method and device for improving the performance of matrix multiplication in graphic processing unit

The present invention discloses improved matrix graphics processing unit by method and device performance calculation, the method includes: using graphics processing units shared memory copy of the corresponding matrix blocks each matrix two matrix in the global memory for graphics processing unit in the calculation for matrix multiplication, matrix blocks all until two matrix in the global memory for graphics processing unit in the matrix multiplication algorithm have been carried out so far. When all matrix blocks in the two matrixes of the graphics processing unit have been computed by matrix multiplication, the product of the corresponding element positions of the matrix block is written to the global memory of the graphics processing unit. For matrix frequent read and write elements, make full use of local memory principle, reduce the number of global memory accesses, and make full use of the advantages of graphic sharing memory read fast, small performance overhead processing unit, reduce the performance overhead caused by the read data, improve the performance of matrix multiplication calculation.

全部详细技术资料下载

【技术实现步骤摘要】
一种提高图形处理单元的矩阵乘计算性能的方法和装置
本专利技术涉及信息技术，尤指一种提高图形处理单元的矩阵乘计算性能的方法和装置。
技术介绍
随着互联网时代科学技术的发展，当前对大数据计算的需求越来越高，尤其是近两年随着深度学习的快速发展，需要对大量图像集进行计算及处理，以达到更好的图像识别效果。相比之前在游戏、视觉效果中的应用，近几年来，GPU(GraphicsProcessingUnit，图形处理单元)正在成为数据中心、超级计算中心的标准配置，并广泛应用于深度学习领域，其强大的计算能力在很大程度上推动了深度学习研究的发展，因此GPU开始越来越多的运用于通用计算，并且越来越多地应用到科学计算程序的加速研究当中。一般的深度学习模型在借助GPU进行计算时，依靠的往往是传统的GPU编程技术或现有的GPU加速库(例如，cuDNN)，但是这些技术手段对于图像处理中经常涉及到的一些复杂计算(例如，图像处理中普遍存在的矩阵乘计算)并没有实现最大限度的性能优化。而当前硬件的发展往往很难赶上软件计算量需求的增长速度，由于硬件本身或编程技术上的限制，完成一个模型的计算可能需要数周的时间，这对深度学习训练和识别效率的发展产生了很大的限制。
技术实现思路
为了解决上述技术问题，本专利技术提供了一种提高图形处理单元的矩阵乘计算性能的方法和装置，其能够提高图形处理单元进行矩阵乘计算的性能。为了达到本专利技术目的，本专利技术提供了一种提高图形处理单元的矩阵乘计算性能的方法，该方法包括：采用图形处理单元的共享存储器拷贝在图形处理单元的全局存储器中的两个矩阵中的每个矩阵中的相应矩阵块，以进行矩...
一种提高图形处理单元的矩阵乘计算性能的方法和装置

【技术保护点】
一种提高图形处理单元的矩阵乘计算性能的方法，其特征在于，包括：采用图形处理单元的共享存储器拷贝在图形处理单元的全局存储器中的两个矩阵中的每个矩阵中的相应矩阵块，以进行矩阵乘计算，直到在所述图形处理单元的全局存储器中的两个矩阵中的所有矩阵块均已进行矩阵乘计算为止；当在所述图形处理单元的全局存储器中的两个矩阵中的所有矩阵块均已进行矩阵乘计算的时候，将矩阵块的相应元素位置的乘积写入所述图形处理单元的全局存储器。

【技术特征摘要】
1.一种提高图形处理单元的矩阵乘计算性能的方法，其特征在于，包括：采用图形处理单元的共享存储器拷贝在图形处理单元的全局存储器中的两个矩阵中的每个矩阵中的相应矩阵块，以进行矩阵乘计算，直到在所述图形处理单元的全局存储器中的两个矩阵中的所有矩阵块均已进行矩阵乘计算为止；当在所述图形处理单元的全局存储器中的两个矩阵中的所有矩阵块均已进行矩阵乘计算的时候，将矩阵块的相应元素位置的乘积写入所述图形处理单元的全局存储器。2.根据权利要求1所述的方法，其中，所述采用图形处理单元的共享存储器获取拷贝在图形处理单元的全局存储器中的两个矩阵中的每个矩阵中的相应矩阵块，以进行矩阵乘计算，直到在所述图形处理单元的全局存储器中的两个矩阵中的所有矩阵块均已进行矩阵乘计算为止的步骤，包括：将进行矩阵乘计算的两个矩阵中的每个矩阵中的相应的矩阵块拷贝到共享存储器中，其中，每个矩阵块包括第一数量的元素；采用第一数量的线程分别按照矩阵块的元素位置对拷贝到共享存储器中的每个矩阵中的对应的元素进行矩阵乘计算，以得到矩阵块的相应元素位置的乘积；以及将所得到的矩阵块的相应元素位置的乘积写入寄存器；所述将矩阵块的相应元素位置的乘积写入所述图形处理单元的全局存储器的步骤，包括：当在所述图形处理单元的全局存储器中的两个矩阵中的所有矩阵块均已进行矩阵乘计算的时候，将在所述寄存器中写入的矩阵块的相应元素位置的乘积写入所述全局存储器。3.根据权利要求2所述的方法，其中，所述将进行矩阵乘计算的两个矩阵中的每个矩阵中的相应的矩阵块拷贝到共享存储器中的步骤，包括：根据所述共享存储器的存储空间，确定进行矩阵乘计算的两个矩阵中的每个矩阵中的相应的矩阵块中的元素的数量。4.根据权利要求2所述的方法，其中，所述将进行矩阵乘计算的两个矩阵中的每个矩阵中的相应的矩阵块拷贝到共享存储器中...

【专利技术属性】
技术研发人员：刘姝，黄雪，
申请(专利权)人：郑州云海信息技术有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人