针对GPU计算核进行性能统计分析的方法、装置及介质制造方法及图纸

技术编号:33210501 阅读:26 留言:0更新日期:2022-04-24 01:04
本发明专利技术实施例公开了一种针对GPU计算核进行性能统计分析的方法、装置及介质;该方法可以包括:根据执行计算任务的调度顺序对被调度的调度单元进行排序;针对排序后的每个被调度的调度单元,将对应的执行时间统计至待分析的GPU中所述调度单元被调度至目标处理核的执行总时间;将所有被调度的目标处理核的执行总时间中的最大值确定为所述待分析的GPU执行所述计算任务所需的总体时间。计算任务所需的总体时间。计算任务所需的总体时间。

【技术实现步骤摘要】
针对GPU计算核进行性能统计分析的方法、装置及介质


[0001]本专利技术实施例涉及图形处理器(GPU,Graphics Processing Unit)
,尤其涉及一种针对GPU计算核进行性能统计分析的方法、装置及介质。

技术介绍

[0002]GPU通常采用单指令多线程(SIMT,Single Instruction Multiple Threads)的方式执行大规模的并行计算,也就是说,每取一条指令(或称计算任务)然后调度多个线程并行执行,其中所有的线程均执行相同的指令列表,而不同的线程各自处理不同数据。
[0003]在对GPU进行性能统计过程中,通常需要对GPU性能进行建模。具体来说,通常采用两种方式对GPU的性能进行建模:其一是仿真建模,比如使用软件模拟构建GPU的仿真模型,并根据仿真模型进行真实的执行过程以获取GPU真实性能数据;其二是分析建模,比如通过构建一定的映射函数(也可称之为分析模型)分析处理GPU的输入,从而计算得出相应性能结果。
[0004]目前常规采用分析建模方式对GPU进行性能统计分析的方案,均只解决了每个线程执行时间的统计,而对于所有线程执行的总体时间均采用各线程执行时间的简单相加,也就是说,目前常规方案对于GPU执行计算任务的总体时间属于串行相加,无法适配GPU本身并行执行的特点,由此会造成最终统计所得到的GPU执行计算任务的总体时间与真实值之间的误差较大。

技术实现思路

[0005]有鉴于此,本专利技术实施例期望提供一种针对GPU计算核进行性能统计分析的方法、装置及介质;能够更加准确地统计出GPU中所有并行线程执行计算任务的总时间,提高针对GPU计算核进行性能统计分析的准确度。
[0006]本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供了一种针对GPU计算核进行性能统计分析的方法,所述方法包括:根据执行计算任务的调度顺序对被调度的调度单元进行排序;针对排序后的每个被调度的调度单元,将对应的执行时间统计至待分析的GPU中所述调度单元被调度至目标处理核的执行总时间;将所有被调度的目标处理核的执行总时间中的最大值确定为所述待分析的GPU执行所述计算任务所需的总体时间。
[0007]第二方面,本专利技术实施例提供了一种针对GPU计算核进行性能统计分析的装置,所述装置包括:排序部分、统计部分和确定部分;其中,所述排序部分,经配置为根据执行计算任务的调度顺序对被调度的调度单元进行排序;所述统计部分,经配置为针对排序后的每个被调度的调度单元,将对应的执行时
间统计至待分析的GPU中所述调度单元被调度至目标处理核的执行总时间;所述确定部分,经配置为将所有被调度的目标处理核的执行总时间中的最大值确定为所述待分析的GPU执行所述计算任务所需的总体时间。
[0008]第三方面,本专利技术实施例提供了一种计算设备,所述计算设备包括:存储器和处理器;其中,所述存储器,用于存储能够在所述处理器上运行的计算机程序;所述处理器,用于在运行所述计算机程序时,执行第一方面所述针对GPU计算核进行性能统计分析的方法步骤。
[0009]第四方面,本专利技术实施例提供了一种计算机存储介质,所述计算机存储介质存储有针对GPU计算核进行性能统计分析的程序,所述针对GPU计算核进行性能统计分析的程序被至少一个处理器执行时实现第一方面所述针对GPU计算核进行性能统计分析的方法步骤。
[0010]本专利技术实施例提供了一种针对GPU计算核进行性能统计分析的方法、装置及介质;在统计GPU执行计算任务的总体时间过程中,不仅考虑了各调度单元自身的执行时间,还结合了调度单元被调度至目标处理核的执行时间,从而能够更加充分地考虑到GPU执行并行计算任务时调度单元的并行度的影响,能够更加准确地统计得到GPU执行并行计算任务时并行运行的各调度单元最终所形成的总的执行时间。
附图说明
[0011]图1为本专利技术实施例提供的一种计算任务执行时间示意图。
[0012]图2为本专利技术实施例提供的针对GPU计算核进行性能统计分析的方法流程示意图。
[0013]图3为本专利技术实施例提供的一种FIFO队列结构示意图。
[0014]图4为本专利技术实施例提供的一种数组结构示意图。
[0015]图5为本专利技术实施例提供的针对GPU计算核进行性能统计分析的方法的详细实现流程示意图。
[0016]图6为本专利技术实施例提供的一种执行并行任务的时间示意图。
[0017]图7为本专利技术实施例提供的针对GPU计算核进行性能统计分析的装置组成示意图。
[0018]图8为本专利技术实施例提供的一种计算设备的具体硬件结构示意图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0020]参见图1所示出的示例性的计算任务执行时间示意,该计算任务可以通过划分为N个线程执行,各线程分别可被标识为T1、T2、T3、T4、T5、T6、T7、T8、
……
、TN,横轴表示时间,起始线start表示该计算任务实际在GPU中的执行起始时刻,结束线end表示该计算任务实际在GPU中的执行结束时刻,对于每个线程,其对应的深色条长度表示各线程对应的执行时长,深色条的起点和终点均表示各线程对应的执行起始时刻和执行结束时刻。从图1中可以看出,由于GPU在实际执行过程中是充分并行运行的,因此,各深色条在时间维度上存在重合的部分。对于当前利用分析模型对GPU进行性能统计的方案来说,每个线程的执行时长是
能够较为准确地计算得到的,但是对于GPU执行计算任务的总体时长(GPUTime)来说,其与线程总数N、GPU的处理核数量M以及线程调度算法等因素相关,而这些相关因素都会影响线程在GPU上运行的并行度,也就是说,GPUTime与线程的并行度密切相关,线程并行度越高,GPUTime越小;线程并行度越低(即串行度越高),GPUTime越大。基于此,GPUTime通常满足以下条件:其中, 表示执行时间最长的线程所对应的执行时长; 表示第i个线程所对应的执行时长。对于分析模型来说,上式阐明了 的取值通常在执行时间最长的线程对应的执行时长与所有线程的执行时长的总和之间。如果在对GPU进行分析过程中,将GPUTime取值为所有线程的执行时长的总和,即 ,最终造成根据分析模型所计算得到的GPUTime就会相较于实际值过大;如果在对GPU进行分析过程中,将GPUTime取值为执行时间最长的线程对应的执行时长,又会是一个完全理想并行的时长,同样相较于实际值有很大差距;如果将GPUTime取平均值,即 ,那么基于该值所得到的分析结果对于不同GPU架构调整的参考意义不大。因此,需要更加准确地统计GPU中所有并行线程的执行总时间。
[0021]基于以上之阐述,本专利技术实施例期望提供一种针对GPU计算核进行性能统计分析的方案,通过采用分析建模方式对GPU进行性能统计分析的过程中,充分考虑到GPU中各线程的并行处理方式,从而提升对GPU中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对GPU计算核进行性能统计分析的方法,其特征在于,所述方法包括:根据执行计算任务的调度顺序对被调度的调度单元进行排序;针对排序后的每个被调度的调度单元,将对应的执行时间统计至待分析的GPU中所述调度单元被调度至目标处理核的执行总时间;将所有被调度的目标处理核的执行总时间中的最大值确定为所述待分析的GPU执行所述计算任务所需的总体时间。2.根据权利要求1所述的方法,其特征在于,所述根据执行计算任务的调度顺序对被调度的调度单元进行排序,包括:根据执行计算任务的调度顺序为每个被调度的调度单元进行标识;将每个被调度的调度单元对应的标识以及执行时间按照所述调度顺序填写入一队列。3.根据权利要求2所述的方法,其特征在于,所述针对排序后的每个被调度的调度单元,将对应的执行时间统计至待分析的GPU中所述调度单元被调度至目标处理核的执行总时间,包括:将所述待分析的GPU中用于执行所述计算任务的每个处理核的执行总时间初始化为零;从所述队列中读取第i个被调度的调度单元对应的标识以及执行时间,其中,1≤i≤N

1,N为所有被调度的调度单元数量;从所有处理核中选择执行总时间最少的处理核;根据所述第i个被调度的调度单元对应的执行时间更新被选择的处理核的执行总时间;读取第i+1个被调度的调度单元对应的标识以及执行时间,以及从所有处理核中选择执行总时间最少的处理核,并根据所述第i+1个被调度的调度单元对应的执行时间更新被选择的处理核的执行总时间,直至所有被调度的调度单元从所述队列中读取完毕。4.根据权利要求3所述的方法,其特征在于,所述将所述待分析的GPU中用于执行所述计算任务的每个处理核的执行总时间初始化为零,包括:构建一长度为M的全零数组;其中,M表示所述待分析的GPU中用于执行所述计算任务的处理核数量;数组中的各元素对应的编号与处理核的标识对应且数组中的各元素表示对应处理核的执行总时间。5.根据权利要求2或3所述的方法,其特征在于,所述队列满足先入先出FIFO规则。6.根据权利要求1所述的方法,其特征在于,所述被调度的调度单元包括被调度的线程...

【专利技术属性】
技术研发人员:齐航空张竞丹李亮
申请(专利权)人:西安芯瞳半导体技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1