【技术实现步骤摘要】
加速的深度学习的设备、方法和系统
[0001]本申请是申请日为2018年2月23日、国际申请号为PCT/IB2018/051128、专利技术名称为“加速的深度学习”的PCT申请的中国国家阶段申请的分案申请,该中国国家阶段申请进入中国国家阶段的进入日为2019年8月22日、申请号为201880013504.3,其全部内容结合于此作为参考。
[0002]相关申请的交叉引用
[0003]在本申请类型允许的范围内,本申请实际上通过引用包含以下申请,这些申请在构成本专利技术时都与本申请共同拥有:
[0004]2018年2月9日提交的、第一专利技术人名为Sean LIE并且题为“FABRIC VECTORS FOR DEEP LEARNING ACCELERATION”的美国临时申请序列号62/628,784(待审案件号CS
‑
17
‑
05);
[0005]2018年2月9日提交的、第一专利技术人名为Sean LIE并且题为“DATA STRUCTURE DESCRIPTORS FOR DEEP LEA ...
【技术保护点】
【技术特征摘要】
1.一种加速的深度学习的设备,包括:多个处理元件;训练工作负载,包括从预定义的本机指令代码集中选择一组机器代码,用于执行包括多个有序连接层的神经网络的训练;其中,顺序为每个相应的层识别哪些其他层在所述相应的层之前,哪些其他层在所述相应的层之后;其中,每层包括一个或多个神经元,每个神经元包括权重并连接到前一层的至少一个先前神经元和后一层的至少一个后续神经元中的至少一个;并且其中,每个神经元由一个或多个所述处理元件实现,每个处理元件包括:至少一个与结构的耦合,所述处理元件能够经由多个虚拟信道经由所述结构进行通信,第一内存,能够存储至少对应于相应的神经元的计算的指令,第二内存,能够存储所述相应的神经元的权重,以及计算引擎,能够响应于接收到从所述预定义的本机指令代码集中选择的对应基本指令,执行预定义的基本操作集,所述执行是通过执行来自相应的第一内存的指令并且从相应的第二内存访问数据实现的。2.根据权利要求1所述的设备,其中,所述层中的每一层是所述神经网络的相应的内层,并且所述神经网络还包括输入层和输出层。3.根据权利要求1所述的设备,其中,所述训练工作负载包括相应组的机器代码,所述相应组的机器代码用于:基于第一激活和第一权重来确定第二激活;基于第一增量和所述第一权重来确定并保存第二权重;基于第三激活和所选择的权重来确定第四激活,其中,所选择的权重是从所述第一权重和所述第二权重中动态地选择的;并且基于第二增量和所选择的权重来确定并保存第三权重。4.根据权利要求3所述的设备,其中,所选择的权重根据所述第一权重和所述第二权重中的哪一个被最近存储来动态地选择。5.根据权利要求3所述的设备,其中,所述第二激活的确定包括:经由所述结构从所述至少一个先前神经元接收所述第一激活;通过至少执行存储在所述第一内存中的第一指令并访问所述第二内存中的所述第一权重,至少部分基于所述第一激活和所述第一权重来计算所述第二激活;并且经由所述结构选择性地将所述第二激活传输到所述至少一个后续神经元。6.根据权利要求5所述的设备,其中,所述第四激活的确定包括:经由所述结构从所述至少一个先前神经元接收所述第三激活;通过至少执行所述第一指令并访问所述第二内存中的所选择的权重,至少部分基于所述第三激活和所选择的权重来计算所述第四激活;并且经由所述结构选择性地将所述第四激活传输到所述至少一个后续神经元。7.根据权利要求6所述的设备,其中,所述第二权重的确定并保存包括:经由所述结构从所述至少一个后续神经元接收部分基于所述第二激活的所述第一增
量;通过至少执行存储在所述第一内存中的第二指令,至少部分基于所述第一增量和所述第二激活来计算第一梯度;通过至少执行存储在所述第一内存中的第三指令并访问所述第二内存中的所述第一权重,至少部分基于所述第一梯度、学习规则和所述第一权重来计算所述第二权重;并且将所述第二权重存储在所述第二内存中。8.根据权利要求7所述的设备,其中,所述第三权重的确定并保存包括:经由所述结构从所述至少一个后续神经元接收部分基于所述第四激活的所述第二增量;通过至少执行存储在所述第一内存中的所述第二指令,至少部分基于第三增量和所述第四激活来计算第二梯度;通过至少执行存储在所述第一内存中的所述第三指令并访问所述第二内存中的所选择的权重,至少部分基于所述第二梯度、所述学习规则和所选择的权重来计算所述第三权重;并且将所述第三权重存储在所述第二内存中。9.根据权利要求8所述的设备,其中,所述第二梯度的计算另外包括至少部分基于所选择的权重任选地重新计算所述第四激活。10.根据权利要求8所述的设备,其中,所述第一梯度的计算另外包括至少部分基于所述第一权重任选地重新计算所述第二激活。11.根据权利要求1所述的设备,其中,所述设备经由包括所述处理元件的整个晶片来实现。12.一种加速的深度学习的方法,包括:训练包括多个有序连接层的神经网络;其中,顺序为每个相应的层识别哪些其他层在所述相应的层之前,哪些其他层在所述相应的层之后;其中,每层包括一个或多个神经元,每个神经元包括权重并连接到前一层的至少一个先前神经元和后一层的至少一个后续神经元中的至少一个;并且其中,每个神经元由一个或多个处理元件实现,每个处理元件包括:至少一个与结构的耦合,所述处理元件能够经由多个虚拟信道经由所述结构进行通信,第一内存,能够存储至少对应于相应的神经元的计算的指令,第二内存,能够存储所述相应的神经元的权重,以及硬件执行资源,能够执行来自相应的第一内存的指令并且从相应的第二内存访问数据。13.根据权利要求12所述的方法,其中,所述层中的每一层是所述神经网络的相应的内层,并且所述神经网络还包括输入层和输出层。14.根据权利要求12所述的方法,其中,所述训练包括:基于第一激活和第一权重来确定第二激活;基于第一增量和所述第一权重来确定并保存第二权重;
基于第三激活和所选择的权重来确定第四激活,其中,所选择的权重是从所述第一权重和所述第二权重中动态地选择的;并且基于第二增量和所选择的权重来确定并保存第三权重。15.根据权利要求14所述的方法,其中,所选择的权重根据所述第一权重和所述第二权重中的哪一个被最近存储来动态地选择。16.根据权利要求14所述的方法,其中,所述第二激活的确定包括:经由所述结构从所述至少一个先前神经元接收所述第一激活;通过至少执行存储在所述第一内存中的第一指令并访问所述第二内存中的所述第一权重,至少部分基于所述第一激活和所述第一权重来计算所述第二激活;并且经由所述结构选择性地将所述第二激活传输到所述至少一个后续神经元。17.根据权利要求16所述的方法,其中,所述第四激活的确定包括...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。