可配置的硬件的运行时间优化制造技术

技术编号:24179237 阅读:25 留言:0更新日期:2020-05-16 05:51
本发明专利技术公开一种用于一可配置的处理架构的运行时间优化的方法。所述方法包含:接收用于运行至少一函数的多个调用;辨识在所述多个接收到的调用之间的至少一模式;及基于所述至少一模式,操作所述可配置的处理架构的至少一部分来计算所述至少一函数。

Runtime optimization of configurable hardware

【技术实现步骤摘要】
【国外来华专利技术】可配置的硬件的运行时间优化相关申请的交叉引用本申请主张2017年8月3号提交的美国临时申请第62/540,849号及2017年9月13号提交的美国临时申请第62/558,090号的权益,其内容通过引用并入本文中。
本公开通常有关于硬件的运行时间优化,更具体地,是有关用于可配置的硬件的运行时间优化的多个技术。
技术介绍
随着科技的进步,对具有较高的处理功率的更强大的处理系统的需求迅速地增加。如今,多个处理器被期望用以传送高计算通量,并且具有高功率效率。然而,现存的多个处理系统执行多个连续的指令流,所述多个连续的指令流通过外显存储进行通信,而因此受到模型功率无效率的困扰。在多个现代的处理架构中,每个动态指令必须被提取及解码,即便多个程序大部分在所述代码的多个较小的静态部分上进行迭代。再者,由于外显状态的存储器为用于在多个指令之间传递数据的唯一通道,因此多个中间结果在多个功能单元与多个寄存器文件之间被重复地传输。多个现代的计算架构的多个限制包括高功率消耗、散热、网络及多个I/O瓶颈,以及存储器分区。例如,一现场可编程门阵列(FPGA)在配置有软件的硬件电路上运作。所述FPGA允许具有低延迟时间的很高的通量率。所述FPGA的可配置性可被使用作为在多核心架构中的协同处理器,或者可被放置于多个关键数据路径中,以卸载对于一系统的CPU所进行的处理。FPGA的多个主要的缺点的其中一个为缺乏灵活的可编程性。进一步地,一FPGA的所述计算功率相对地低。一可编程的处理架构的一示例为一多核心处理器。一多核心处理器的架构包括一单一的计算组件,所述单一的计算组件具有两个或多个独立且实际的处理单元(“多个核心”),其为读取及执行多个程序指令的多个单元。所述多个指令为多个普遍的CPU指令(例如,增加、移动数据及分支)。在此架构中,一单一的处理器可在个别的核心上并行地运行多个指令。多核心处理器的多个主要的缺点为高功率消耗及低通量。一处理架构的另一示例为一图形处理单元(GPU)。一GPU是基于一并行的架构,所述并行的架构是由设计用于同时处理多个任务的数千个较小且更有效率的核心所组成。多个GPU可被利用以加速深度学习、图形绘制及机器学习应用的多个计算任务。GPU的多个主要的缺点为高功率消耗及延迟时间。再者,GPU不具有存储器一致性,因此,共享的存储器包含一挑战。因此,提供一种克服上述的多个缺陷的处理架构将是有利的。
技术实现思路
以下为本公开的多个示例实施例的一概述。提供此概述是为了方便读者提供对这样的实施例的一基本理解,并且不完全限定本公开的广度。此概述并非所有预期的实施例的一详尽的概述,并且既不旨在辨识所有实施例的关键或重要的元件,也不旨在描绘任何或所有方面的范围。其唯一的目的在于以简化的形式呈现出一个或多个实施例的一些概念,以作为之后呈现出的更详细的描述的一序言。为了方便起见,术语“一些实施例”在本文中可用来指本公开的一单一的实施例或多个实施例。所述多个公开的实施例的各种方面包括一种用于一可配置的处理架构的运行时间优化的方法。所述方法包含:接收用于运行至少一函数的多个调用;辨识在所述多个接收到的调用之间的至少一模式;及基于所述至少一模式,操作所述可配置的处理架构的至少一部分来计算所述至少一函数。所述多个公开的实施例的各种方面进一步包括一种可配置的处理架构。所述系统包含一计算网格;一处理单元;一存储器,连接至所述处理电路,其中所述存储器含有多个指令,在通过所述处理单元执行所述多个指令时,所述多个指令将所述处理单元配置用以:接收用于运行至少一函数的多个调用;辨识在所述多个接收到的调用之间的至少一模式;及基于所述至少一模式,操作所述可配置的处理架构的至少一部分来计算所述至少一函数。附图说明在说明书的结论处的多个权利要求中特别指出且明确地要求保护本文所公开的主题。通过以下与多个附图结合的详细描述,本专利技术的前述及其他的目的、特征及优势将变得显而易见。图1A为根据一实施例的一可配置的处理架构的一示意图;图1B为根据一实施例的所述可配置的处理架构的一计算网格的一示意图;图2A至图2D为显示出根据一实施例的多个模式及其各自的函数的配置的示意性模拟图;及图3为根据一实施例的可配置的硬件的运行时间优化的一流程图。具体实施方式重要的是要注意,本文所公开的多个实施例仅仅是本文创新教学的许多有利的用途的多个示例。一般而言,在本申请的说明书所做出的多个陈述不一定限制各种要求保护的实施例中的任何一个。并且,一些陈述可适用于一些专利技术特征,但不适用于其他特征。通常,除非另有指示,否则单数元件可为复数形式,反之亦然,而不会失去一般性。图1说明根据一实施例的一可配置的处理架构100的一示例性示意图。所述处理架构100包括一计算网格110及一处理单元(电路)101,所述处理单元(电路)101耦接至一存储器,例如一程序存储器102。所述处理单元101被配置用以运行一过程,所述过程用于优化在所述计算网格110上的程序代码的一部分的执行。所述程序代码的一部分可包括一函数、一基本区块或两者兼具(统称为一函数)。一基本区块为带有多个连续指令的一段程序代码,如此不会跳离或跳至所述区块的中间。在一实施例中,所述可配置的处理架构100被配置用以加速多个计算装置的运作。例如,这种装置可包括一多核心中央处理单元(CPU)、一现场可编程门阵列(FPGA)、一图形处理单元(GPU)、一专用集成电路(ASIC)、一量子计算机、光学计算、一神经网络加速器或其组合。根据所述多个公开的实施例,例如,通过在所述计算网格110上而不是在一计算装置(未显示)上执行多个函数来达成所述加速。所述计算网格110包括多个逻辑元件及多个多路复用器(MUXs)的一阵列,如在下文中参考图1B所进一步讨论。通过使用一投影图来将所述函数投影至一计算群组,以进行通过所述计算网格110所进行的一函数的执行。一计算群组为藉由在所述网格110中的多个MUX来被连接的一组逻辑元件。通过正确地分配及挑选在所述网格110中的所述多个逻辑元件,可达成一优化过的多个函数的执行。具体地,通过所述处理单元101来配置所述计算网格110,以便部分地优化所述网格110的所述运作。为此目的,所述处理单元101进行了多个优化过程。在一实施例中,所述处理单元101被配置用以接收用于多个函数的多个调用,所述多个函数通过多个计算元件来在所述计算装置中运行。所述多个调用可针对多个不同的函数、针对相同的函数或两者均可;针对所述存储器的不同的部分、针对所述存储器的多个相同的部分或两者均可;等等。所述多个函数可进行多个计算的运作,其包括但不限于算术、逻辑运算或两者兼具。所述处理单元101被配置用以辨识在所述多个接收到的调用之间的至少一模式。根据另一实施例,所述辨识可通过一外部过程来进行,之后转送至所述处理单元101。在一实施例中,所述多个模式是在高于一特定的预定阈值的关联性(assoc本文档来自技高网
...

【技术保护点】
1.一种用于一可配置的处理架构的运行时间优化的方法,其特征在于:所述方法包含︰/n接收用于运行至少一函数的多个调用;/n辨识在所述多个调用之间的至少一模式;及/n基于所述至少一模式,操作所述可配置的处理架构的至少一部分来计算所述至少一函数。/n

【技术特征摘要】
【国外来华专利技术】20170803 US 62/540,849;20170913 US 62/558,0901.一种用于一可配置的处理架构的运行时间优化的方法,其特征在于:所述方法包含︰
接收用于运行至少一函数的多个调用;
辨识在所述多个调用之间的至少一模式;及
基于所述至少一模式,操作所述可配置的处理架构的至少一部分来计算所述至少一函数。


2.如权利要求1所述的方法,其特征在于:每个所述调用被引导至一计算装置,所述计算装置用于计算在所述计算装置上的所述至少一函数的每一个。


3.如权利要求2所述的方法,其特征在于:所述计算装置为以下任一种:一多核心中央处理单元(CPU)、一现场可编程门阵列(FPGA)、一图形处理单元(GPU)、一粗粒度可重构的架构(CGRA)、一智能处理单元(IPU)、一神经网络加速器、一专用集成电路(ASIC)及一量子计算机。


4.如权利要求2所述的方法,其特征在于:所述方法进一步包含:
通过一计算网格而不是所述计算装置来计算所述至少一函数。


5.如权利要求4所述的方法,其特征在于:所述计算网格包括:
一数据输入网状网络;
多个逻辑元件;及
多个多路复用器,其中所述多个逻辑元件及所述多个多路复用器形成至少一计算群组,其中所述多个逻辑元件的至少一个及所述多个多路复用器的至少一个形成所述至少一计算群组的每一个。


6.如权利要求5所述的方法,其特征在于:所述至少一函数的每一个被映射以通过所述至少一计算群组的至少一个来进行计算。


7.如权利要求5所述的方法,其特征在于:所述计算网格的所述操作进一步包含:
当所述模式指示出一函数的再次出现时,复制映射至所述函数的所述至少一个计算群组的其中一个。


8.如权利要求5所述的方法,其特征在于:所述至少一计算群组包括一第一计算群组及一第二计算群组,其中所述至少一函数包括一第一函数及一第二函数,其中所述计算网格的所述操作进一步包含:
基于所述模式来将分别映射至所述第一函数及所述第二函数的所述第一计算群组及第二计算群组重定位。


9.如权利要求5所述的方法,其特征在于:所述计算网格的所述操作进一步包含:
当没有对于一函数的调用被映射至一计算群组时,释放出所述计算群组。


10.如权利要求5所述的方法,其特征在于:所述数据输入的网状网络包括至少一馈线。


11.如权利要求1所述的方法,其特征在于:在运行时间进行所述操作。


12.一种可配置的处理架构,其特征在于:所述可配置的处理架构包含:
一计算元件,其中所述计算元件包括以下的至少一个:一计算网格及一处理单元;
一存储器,连接至所述处理单元,其中所述存储器含有多...

【专利技术属性】
技术研发人员:埃拉德·拉茲
申请(专利权)人:涅克斯硅利康有限公司
类型:发明
国别省市:以色列;IL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1