基于GPU的矩阵加速计算的方法技术

技术编号：33955283 阅读：18 留言：0更新日期：2022-06-29 23:21

本发明专利技术属于计算机应用技术领域，尤其涉及一种基于GPU的矩阵加速计算的方法。本发明专利技术通过提供一种基于GPU的矩阵加速计算的方法，以CPU/GPU异构计算系统为计算平台，使CPU和GPU的负载量达到最佳，从而确保令两者的计算同时完成，使得整个CPU/GPU异构计算系统的协同处理的计算效率达到最优。理的计算效率达到最优。

全部详细技术资料下载

【技术实现步骤摘要】
基于GPU的矩阵加速计算的方法

[0001]本专利技术属于计算机应用
，尤其涉及一种基于GPU的矩阵加速计算的方法。

技术介绍

[0002]随着科学技术的不断进步，应用对计算性能的需求也在不断增加。然而，受限于功耗问题，过去十年计算机硬件计算的发展基本放弃了通过提高处理器频率来增加计算机性能的传统模式，转而采用集成多处理器核的方式以提高芯片的计算能力。由于CPU的通用性，即使使用多核cpu也无法满足大多数应用对计算的需求。因此，专用加速部件的研究获得了学术界和产业界的广泛关注。
[0003]近年来，以图形处理单元(GPU)为代表的通用计算硬件逐渐成为国际上解决大数据计算和实时处理问题的主流方案。GPU计算性能高、体积小、功耗低、软硬件通用，可在受限环境下提供高性能计算能力，已广泛应用于测绘、遥感、地学等领域的高性能数据处理和应用中。
[0004]异构计算系统框架(Heterogeneous SystemArchitecture，HSA)是一种允许CPU和GPU使用相同总线进行内存和任务共享的交叉开发平台。该平台的目标是降低CPU、GPU，以及其它计算机设备之间的通讯延时，使得开发者能够更加便利地操控多种设备，并且在各设备之间实现更加快捷地任务调度和数据交互。
[0005]经过实验发现，在向量内积计算中：CPU和GPU并没有绝对的效率高低，如果CPU被其他任务分配，那么计算时长可能会超过GPU，因此向量内积的处理器选择应该根据数据所在位置决定；在矩阵与向量乘法：可并行的计算量大，GPU始终...

【技术保护点】

【技术特征摘要】
1.一种基于GPU的矩阵加速计算的方法，其特征在于，包括以下步骤：a、首先将计算任务处理成双向队列；b、然后检测CPU/GPU异构计算系统是否第一次运行该计算任务，若是，则按照CPU单处理器核计算的理论峰值以及GPU的理论峰值的计算能力，从队首和队尾分别分配给CPU和GPU计算任务，确定CPU和GPU的实际计算时间；c、然后根据CPU或GPU中最短完成任务的时间分配负载量；d、若CPU和GPU同时完成任务，则计算此类任务的CPU分配任务的负载比例，确定该计算任务的最佳分配方案，若CPU或GPU提前完成任务，则将剩余的任务确定为动态调整任务，由CPU和GPU共同完成任务，直至队列首尾相遇，计算任务全部完成，然后，根据CPU和GPU的实际完成的计算量，确定该任务的最佳分配方案；其中，所述b步骤中，指定一个CPU的处理器核与GPU进行交互，剩下的N
‑
1个处理器核参与计算任务，所述d步骤中，若CPU和GPU同时完成任务，则根据公式：确定该计算任务的最佳分配方案，其中，σ为计算此类任务的CPU分配任务的负载比例，N为CPU的处理器核的数量，V
GPU
为GPU的实际计算能力，V
CPU
为CPU单处理器核的实际计算能力；若CPU或GPU提前完成任务，则将剩余的任务确定为动态调整任务，由CPU和GPU共同完成任务，直至队列首尾相遇，计算任务全部完成，然后，根据CPU和GPU的实际完...

【专利技术属性】
技术研发人员：周晓辉，袁博，李海鹏，
申请(专利权)人：算筹深圳信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人