【技术实现步骤摘要】
【国外来华专利技术】多瓦片处理布置中的同步
本公开涉及在多瓦片处理布置中同步多个不同瓦片的工作负载,每个瓦片包括其自己的处理单元和存储器。具体地,本公开涉及批量同步并行(BSP)通信方案,其中瓦片组中的每个瓦片必须在组中的任何瓦片可以继续到交换阶段之前完成计算阶段。
技术介绍
多线程处理器是能够彼此并行执行多个程序线程的处理器。处理可以包括对多个不同线程是共同的一些硬件(例如共同指令存储器、数据存储器和/或执行单元);但是为了支持多线程,处理器还包括一些特定于每个线程的专用硬件。专用硬件至少包括可以一次执行的多个线程中的每个的相应上下文寄存器文件。当谈到多线程处理器时,“上下文”指的是彼此并行执行的线程的相应一个的程序状态(例如程序计数器值、状态和当前操作数值)。上下文寄存器文件指的是用于表示相应线程的这种程序状态的相应寄存器集合。寄存器文件中的寄存器不同于通用存储器,因为寄存器地址固定为指令字中的位(bit),而存储器地址可以通过执行指令来计算。给定上下文的寄存器通常包括用于相应线程的相应程序计数器,以及相应操作数寄存器集,用于临时保持在由该线程执行的计算期间作用于相应线程并由相应线程输出的数据。每个上下文还可以具有相应的状态寄存器,用于存储相应线程的状态(例如它是暂停还是正在运行)。因此,每个当前运行的线程都具有自己独立的程序计数器,并可选地具有操作数寄存器和状态寄存器。多线程的一种可能形式是并行(parallelism)。即是说,除了多个上下文之外,还提供了多个执行流水线:即,用于要并行执行的每个指令流的独立执行流水线。但是,这需要在硬件方面进行大量重复。因此,另一种形 ...
【技术保护点】
1.一种处理系统,其包括瓦片的布置和用于在瓦片之间通信的互连,其中:每个瓦片包括用于执行机器代码指令的执行单元,每个机器代码指令是处理器的指令集中预定义指令类型集的实例,所述指令集中的每个指令类型由相应操作码和用于取得零个或多个操作数的零个或多个操作数字段定义;互连可操作为根据批量同步并行方案进行一些或所有瓦片的组之间的通信,由此所述组中的每个瓦片执行瓦片上计算阶段,接着是瓦片间交换阶段,不进行交换阶段,直至所述组中的所有瓦片已经完成计算阶段,其中组中的每个瓦片在完成计算阶段时具有本地退出状态;指令集包括同步指令,用于由组中的每个瓦片在完成其计算阶段时执行,其中同步指令的执行使执行单元向互连中的硬件的逻辑发送同步请求;和互连中的逻辑配置为将本地退出状态聚合到全局退出状态中,并且响应于组中的所有瓦片完成计算阶段,如通过从组中的所有瓦片接收到同步请求所指示,将全局退出状态存储在组中的每个瓦片上的全局退出状态寄存器中,从而使在组中的每个瓦片上运行的代码的一部分可访问全局退出状态。
【技术特征摘要】
【国外来华专利技术】2017.10.20 GB 1717291.71.一种处理系统,其包括瓦片的布置和用于在瓦片之间通信的互连,其中:每个瓦片包括用于执行机器代码指令的执行单元,每个机器代码指令是处理器的指令集中预定义指令类型集的实例,所述指令集中的每个指令类型由相应操作码和用于取得零个或多个操作数的零个或多个操作数字段定义;互连可操作为根据批量同步并行方案进行一些或所有瓦片的组之间的通信,由此所述组中的每个瓦片执行瓦片上计算阶段,接着是瓦片间交换阶段,不进行交换阶段,直至所述组中的所有瓦片已经完成计算阶段,其中组中的每个瓦片在完成计算阶段时具有本地退出状态;指令集包括同步指令,用于由组中的每个瓦片在完成其计算阶段时执行,其中同步指令的执行使执行单元向互连中的硬件的逻辑发送同步请求;和互连中的逻辑配置为将本地退出状态聚合到全局退出状态中,并且响应于组中的所有瓦片完成计算阶段,如通过从组中的所有瓦片接收到同步请求所指示,将全局退出状态存储在组中的每个瓦片上的全局退出状态寄存器中,从而使在组中的每个瓦片上运行的代码的一部分可访问全局退出状态。2.根据权利要求1所述的处理系统,其中每个瓦片上的执行单元配置为响应于执行同步指令而暂停指令发布;并且,其中互连中的逻辑配置为响应于从组中的所有瓦片接收到同步请求,向组中的每个瓦片发回同步确认信号,从而恢复指令发布。3.根据任何前述权利要求所述的处理系统,其中每个本地退出状态和全局退出状态是单一位。4.根据权利要求3所述的处理系统,其中聚合由本地退出状态的布林AND或本地退出状态的布林OR组成。5.根据权利要求1或2所述的处理系统,其中聚合退出状态包括表示三进制值的至少两个位,所述三进制值指示本地退出状态是全是真的、全是假的,还是混合的。6.根据任何前述权利要求所述的处理系统,其中所述组中的每个瓦片包括布置为表示瓦片的本地退出状态的本地退出状态寄存器。7.根据任何前述权利要求所述的处理系统,其中组中的每个瓦片包括:多个上下文寄存器集,每个上下文寄存器集各自布置为存储多个线程的相应一个的程序状态;和调度器,其布置为调度执行交错时隙的重复顺序中的多个时隙中的每个中的多个工作者线程中的相应一个,每个工作者线程的程序状态存储在所述上下文寄存器集的相应一个中;其中根据所述批量同步并行方案,不进行交换阶段,直至组中的所有瓦片上的所有工作者线程已经完成计算阶段;其中每个瓦片上的本地退出状态是瓦片上的每个工作者线程所输出的单独退出状态的聚合;和其中代码的所述一部分包括瓦片上的多个线程中的至少一个。8.根据权利要求7所述的处理系统,其中组中的每个瓦片包括硬件逻辑,所述硬件逻辑配置为执行所述将单独退出状态聚合到本地退出状态中。9.根据权利要求8所述的处理系统,其中指令集包括用于包括在每个工作者线程中的退出指令,执行单元配置为输出相应工作者线程的单独退出状态,并响应于退出指令的操作码而终止相应工作者线程。10.根据权利要求7、8或9所述的处理系统,其中每个单独退出状态和本地退出状态是单一位,并且单独退出状态的聚合由单独退出状态的布林AND或单独退出状态的布林OR组成。11.根据权利要求7、8或9所述的处理系统,其中本地退出状态包括表示三进制值的至少两个位,所述三进制值指示单独退出状态是全是真的、全是假的,还是混合的。12.根据权利要求7至11中任一项所述的处理系统,其中交换阶段布置为由独立于工作者线程的监督...
【专利技术属性】
技术研发人员:西蒙·克里斯蒂安·诺尔斯,艾伦·格雷汉姆·亚历山大,
申请(专利权)人:图核有限公司,
类型:发明
国别省市:英国,GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。