粗粒度可重构阵列数据流处理器的高效执行方法及系统技术方案

技术编号:38013575 阅读:13 留言:0更新日期:2023-06-30 10:36
本发明专利技术提出一种粗粒度可重构阵列数据流处理器的高效执行方法和系统,包括:待执行程序的有向数据流图中节点为代码段,连线为节点间依赖关系;粗粒度可重构阵列数据流处理器的PE从全局缓存中加载每个节点的配置信息、操作指令和操作数;调度前继依赖已满足的节点作为当前节点开始执行,并将当前节点的代码段分为多个执行阶段;调度当前节点的下个循环开始执行,执行时监测当前节点的下个阶段对应的粗粒度可重构阵列数据流处理器部件已经空闲,则当前节点进入下一个执行阶段,并用粗粒度可重构阵列数据流处理器部件执行其下一个执行阶段;运行完有向数据流图中所有节点的循环后,从粗粒度可重构阵列数据流处理器的全局缓存中输出当前运行结果。出当前运行结果。出当前运行结果。

【技术实现步骤摘要】
粗粒度可重构阵列数据流处理器的高效执行方法及系统


[0001]本专利技术涉及计算机体系结构
,并特别涉及一种高效的数据流处理器设计方法和系统。

技术介绍

[0002]冯诺依曼结构是当今大多数计算机芯片使用的架构。这种结构的特点在于将指令和数据都存储在内存当中,顺序读取,顺序执行。在冯诺依曼架构种,一个程序表现为一个指令序列,而冯诺依曼机器运行方式就是顺序地执行这串指令,这种执行模型被称为控制流模型(Control Flow Model)。
[0003]而在19世纪70年代,一种全新的数据流模型被提出。其核心思想为:一个程序可以表示为一个有向数据流图(Directed Dataflow Graph,DFG)。在这个图中,节点表示指令,其中的连线表示数据,连线的方向表示数据在指令之间的依赖关系。对于任何一个节点(也就是指令)来说,只要其依赖的操作数准备好了,其就可以开始执行。这种数据流模型相对于传统的控制流模型而言,有以下优点:
[0004]1.数据流模型让数据在指令节点之间流动,避免了频繁的存储和取用,在计算密集型应用场景下能够大大减少访存时间,提高程序运行的效率;
[0005]2.数据流模型让指令分散在多个处理单元当中,每条指令在其操作数准备好之后就可以发射执行。相对于冯诺依曼架构,大大增加了指令级并行;
[0006]3.数据流模型将程序建模成一个有向图数据流图,这意味相对于GPU的执行模型,数据流模型具有高效处理复杂依赖的程序的优势。
[0007]粗粒度可重构阵列(Coarse

Grained Reconfigurable Array,CGRA)是一种可以以数据流模型执行程序的一种空间计算(Spatial Computing)架构。CGRA一般由片上网络连接、PE(Processing Element)阵列、Host、缓存(buffer)等组成。CGRA拥有比FPGA(Field Programmable Gate Array,现场可编程门阵列)更好的可编程性,有比GPU更优秀的功耗表现和更通用的并行能力。CGRA在执行程序前,一般首先有一个指令映射的过程。即将代表整个程序的DFG映射到PE阵列上——这决定了每条指令会在哪个时间点,在哪个PE上执行。
[0008]传统的用CGRA执行数据流程序的方式都是严格按照细粒度的指令为单位:即在指令映射的时候以指令为单位进行映射;在执行过程中,每执行完一条指令就需要将生成的数据通过片上网络传输到需要此数据的PE上。这种细粒度执行模式的优点在于:一方面,指令映射的建模更加简单与直接,优化粒度也更细;另一方面,PE的控制逻辑也比较简单。其缺点在于:每执行一次指令就要一次传输开销,开销较大。
[0009]Codelet模型是高性能计算领域中的一种对程序的粗粒度的划分,其相对传统的以指令为单位的细粒度数据流模型而言,它是一个以代码段为单位的粗粒度数据流模型——其每个节点是一个代码段而非指令。这种模型带来的好处是节点数可以大大减少,指令映射的开销也大大减少。
[0010]但是,如果直接将Codelet模型运用到现有的CGRA架构上,仍然是一次只执行一条
指令。这种执行效率非常低下:在执行一条指令的过程中,PE中的所有部件都轮流处于空闲的状态,而其他指令也必须等待。

技术实现思路

[0011]本专利技术的目的是解决了现有CGRA架构的运行模式不能充分利用Codelet模型带来的优势,提出了一种能高效执行Codelet模型的PE解耦合的设计以及具体CGRA架构。
[0012]针对现有技术的不足,本专利技术提出一种粗粒度可重构阵列数据流处理器的高效执行方法,其中包括:
[0013]步骤1、获取以有向数据流图表示的待执行程序,且该有向数据流图中每个节点为一个代码段,节点间的连线方向表示数据在代码段之间的依赖关系;粗粒度可重构阵列数据流处理器的PE从其全局缓存中加载每个节点的配置信息、操作指令和操作数;
[0014]步骤2、调度前继依赖已满足的节点作为当前节点开始执行,并将当前节点的代码段分为多个执行阶段;
[0015]步骤3、调度该当前节点的下个循环开始执行,执行时监测当前节点的下个阶段对应的粗粒度可重构阵列数据流处理器部件已经空闲,则当前节点进入下一个执行阶段,并用粗粒度可重构阵列数据流处理器部件执行其下一个执行阶段;
[0016]步骤4、执行完当前循环,将当前循环的执行结果传输至该粗粒度可重构阵列数据流处理器中依赖当前节点的PE;
[0017]步骤5、判断是否运行完该有向数据流图中所有节点的循环,若是,则结束运行,从该粗粒度可重构阵列数据流处理器的全局缓存中输出当前运行结果,否则再次执行该步骤2。
[0018]所述的粗粒度可重构阵列数据流处理器的高效执行方法,其中该粗粒度可重构阵列数据流处理器的PE中具有分别对应读取阶段、计算阶段和存储阶段的读取部件、计算部件和存储部件。
[0019]所述的粗粒度可重构阵列数据流处理器的高效执行方法,其中该粗粒度可重构阵列数据流处理器的PE包括:
[0020]指令缓存,用于存储待执行的指令;
[0021]操作数寄存器,用于存储操作数;
[0022]路由,用于PE内数据的交换;
[0023]计算部件,包含算术和逻辑运算部件;
[0024]读取部件,从该粗粒度可重构阵列数据流处理器的该全局缓存中取数,存到PE内部的该操作数寄存器中;
[0025]存数部件,用于将该操作数寄存器中的数据存回到该全局缓存中;
[0026]传数部件,用于将数据传送到需要的PE;
[0027]控制器,用于控制整个PE的运行。
[0028]所述的粗粒度可重构阵列数据流处理器的高效执行方法,其中该控制器包括:
[0029]内核表,用于记录每个节点的配置信息,由编译器生成,包含了节点在各个执行阶段的基址信息、循环次数;
[0030]状态表,用于记录节点的状态信息,包括节点的依赖节点是否都已经执行完毕、节
点当前所处的执行阶段;
[0031]调度部件,用于调度节点的执行;
[0032]消息处理部件,用于接收其他PE发送来的消息并做相应处理。
[0033]本专利技术还提出了一种粗粒度可重构阵列数据流处理器的高效执行系统,其中包括:
[0034]初始模块,用于获取以有向数据流图表示的待执行程序,且该有向数据流图中每个节点为一个代码段,节点间的连线方向表示数据在代码段之间的依赖关系;粗粒度可重构阵列数据流处理器的PE从其全局缓存中加载每个节点的配置信息、操作指令和操作数;
[0035]执行模块,用于调度前继依赖已满足的节点作为当前节点开始执行,并将当前节点的代码段分为多个执行阶段;
[0036]监测模块,用于调度该当前节点的下个循环开始执行,执行时监测当前节点的下个阶段对应的粗粒度可重构阵列数据流处理器部件已经空闲,则当前节点进入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种粗粒度可重构阵列数据流处理器的高效执行方法,其特征在于,包括:步骤1、获取以有向数据流图表示的待执行程序,且该有向数据流图中每个节点为一个代码段,节点间的连线方向表示数据在代码段之间的依赖关系;粗粒度可重构阵列数据流处理器的PE从其全局缓存中加载每个节点的配置信息、操作指令和操作数;步骤2、调度前继依赖已满足的节点作为当前节点开始执行,并将当前节点的代码段分为多个执行阶段;步骤3、调度该当前节点的下个循环开始执行,执行时监测当前节点的下个阶段对应的粗粒度可重构阵列数据流处理器部件已经空闲,则当前节点进入下一个执行阶段,并用粗粒度可重构阵列数据流处理器部件执行其下一个执行阶段;步骤4、执行完当前循环,将当前循环的执行结果传输至该粗粒度可重构阵列数据流处理器中依赖当前节点的PE;步骤5、判断是否运行完该有向数据流图中所有节点的循环,若是,则结束运行,从该粗粒度可重构阵列数据流处理器的全局缓存中输出当前运行结果,否则再次执行该步骤2。2.如权利要求1所述的粗粒度可重构阵列数据流处理器的高效执行方法,其特征在于,该粗粒度可重构阵列数据流处理器的PE中具有分别对应读取阶段、计算阶段和存储阶段的读取部件、计算部件和存储部件。3.如权利要求1所述的粗粒度可重构阵列数据流处理器的高效执行方法,其特征在于,该粗粒度可重构阵列数据流处理器的PE包括:指令缓存,用于存储待执行的指令;操作数寄存器,用于存储操作数;路由,用于PE内数据的交换;计算部件,包含算术和逻辑运算部件;读取部件,从该粗粒度可重构阵列数据流处理器的该全局缓存中取数,存到PE内部的该操作数寄存器中;存数部件,用于将该操作数寄存器中的数据存回到该全局缓存中;传数部件,用于将数据传送到需要的PE;控制器,用于控制整个PE的运行。4.如权利要求1所述的粗粒度可重构阵列数据流处理器的高效执行方法,其特征在于,该控制器包括:内核表,用于记录每个节点的配置信息,由编译器生成,包含了节点在各个执行阶段的基址信息、循环次数;状态表,用于记录节点的状态信息,包括节点的依赖节点是否都已经执行完毕、节点当前所处的执行阶段;调度部件,用于调度节点的执行;消息处理部件,用于接收其他PE发送来的消息并做相应处理。5.一种粗粒度可重构阵列数据流处理器的高效执行系统,其特征在于,包括:初始模块,用于获取以有向数据流图表示的待执行程序,且该有向...

【专利技术属性】
技术研发人员:汤胜中范志华李文明安学军叶笑春范东睿
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1