具有单独存储器存取连接的深度学习加速器和随机存取存储器制造技术

技术编号:35891422 阅读:14 留言:0更新日期:2022-12-10 10:22
描述了与深度学习加速器和存储器相关的系统、装置和方法。集成电路可经配置以执行具有矩阵操作数的指令且经配置有:随机存取存储器,其经配置以存储可由所述深度学习加速器执行的指令且存储人工神经网络的矩阵;所述随机存取存储器与所述深度学习加速器之间的连接;到中央处理单元的存储器控制器的第一接口;以及到直接存储器存取控制器的第二接口。在所述深度学习加速器正使用所述随机存取存储器处理对所述人工神经网络的当前输入以从所述人工神经网络产生当前输出的同时,所述直接存储器存取控制器可同时将下一输入加载到所述随机存取存储器中;且同时,所述中央处理单元可同时从所述随机存取存储器检索先前输出。同时从所述随机存取存储器检索先前输出。同时从所述随机存取存储器检索先前输出。

【技术实现步骤摘要】
【国外来华专利技术】具有单独存储器存取连接的深度学习加速器和随机存取存储器
[0001]相关申请案
[0002]本申请案要求2020年4月9日提交且名称为“具有单独存储器存取连接的深度学习加速器和随机存取存储器(DEEP LEARNING ACCELERATOR AND RANDOM ACCESS MEMORY WITH SEPARATE MEMORY ACCESS CONNECTIONS)”的第16/844,993号美国专利申请案的优先权,所述美国专利申请案的全部公开内容特此以引用的方式并入本文中。


[0003]本文公开的至少一些实施例大体上涉及集成电路装置,且更具体地但不限于具有用于人工神经网络(ANN)的加速器的集成电路装置,所述ANN例如是通过机器学习和/或深度学习配置的ANN。

技术介绍

[0004]人工神经网络(ANN)使用神经元网络来处理到所述网络的输入,且产生从所述网络的输出。
[0005]举例来说,网络中的每一神经元接收一组输入。到神经元的输入中的一些可以是网络中的某些神经元的输出;且到神经元的输入中的一些可以是提供到神经网络的输入。网络中的神经元当中的输入/输出关系表示网络中的神经元连接性。
[0006]举例来说,每一神经元可分别针对其输入具有偏置、激活函数和一组突触权重。激活函数可以呈阶跃函数、线性函数、对数S型(log

sigmoid)函数等形式。网络中的不同神经元可以具有不同激活函数。
[0007]举例来说,每一神经元可产生其输入与其偏置的加权和,且接着产生作为加权和的函数的输出,所述输出是使用神经元的激活函数计算出的。
[0008]ANN的输入与输出之间的关系一般来说由ANN模型限定,所述ANN模型包含表示网络中的神经元的连接性的数据,以及每一神经元的偏置、激活函数和突触权重。基于给定ANN模型,计算装置可经配置以从到网络的给定输入集合计算网络的输出。
[0009]举例来说,可基于相机输入产生到ANN网络的输入;且来自ANN网络的输出可为例如事件或对象等项目的识别。
[0010]一般来说,可使用监督方法来训练ANN,其中调整ANN中的参数以最小化或减少与相应输入相关联或由相应输入产生的已知输出与通过将输入应用于ANN而产生的所计算输出之间的误差。监督学习/训练方法的实例包含强化学习和具有误差校正的学习。
[0011]替代地或组合地,可使用无监督方法来训练ANN,其中由给定一组输入产生的精确输出在训练完成之前是未知的。可训练ANN将项分类成多个类别,或将数据点分类成集群。
[0012]可以采用多种训练算法用于复杂的机器学习/训练范例。
[0013]深度学习使用机器学习的多个层以从输入数据逐渐地提取特征。举例来说,较低层可经配置以识别图像中的边缘;且较高层可经配置以基于使用较低层检测到的边缘识别
图像中所捕获的项目,例如人脸、物件、事件等。深度学习可经由人工神经网络(ANN)实施,例如深度神经网络、深度信念网络、递归神经网络和/或卷积神经网络。
[0014]深度学习已应用于许多应用领域,例如计算机视觉、语音/音频辨识、自然语言处理、机器翻译、生物信息学、药物设计、医疗图像处理、游戏等。
附图说明
[0015]实施例是借助于实例而非限制在附图的图中来说明的,在附图中相似参考指示类似元件。
[0016]图1示出根据一个实施例的具有经配置的深度学习加速器和随机存取存储器的集成电路装置。
[0017]图2示出根据一个实施例的经配置以执行矩阵

矩阵运算的处理单元。
[0018]图3示出根据一个实施例的经配置以执行矩阵

向量运算的处理单元。
[0019]图4示出根据一个实施例的经配置以执行向量

向量运算的处理单元。
[0020]图5示出根据一个实施例的经配置以向经训练的人工神经网络自主地应用输入的深度学习加速器和随机存取存储器。
[0021]图6示出根据一个实施例的使深度学习加速器和随机存取存储器配置有单独存储器存取连接的集成电路装置。
[0022]图7示出根据一个实施例的在集成电路装置中实施的方法。
具体实施方式
[0023]本文公开的至少一些实施例提供通用集成电路装置,其经配置以用减少的能量消耗和计算时间执行人工神经网络(ANN)的计算。集成电路装置包含深度学习加速器(DLA)和随机存取存储器。集成电路装置可经配置有单独连接以用于对随机存取存储器的同时存取。
[0024]深度学习加速器(DLA)包含一组通用可编程硬件计算逻辑,其经专门化和/或优化以执行并行向量和/或矩阵计算,包含但不限于向量和/或者矩阵的乘法和累加。
[0025]此外,深度学习加速器(DLA)可包含一或多个算术逻辑单元(ALU)以对整数二进制数执行算术和逐位运算。
[0026]深度学习加速器(DLA)可经由一组指令进行编程,以执行人工神经网络(ANN)的计算。
[0027]对向量和矩阵运算的深度学习加速器(DLA)的粒度对应于可在由深度学习加速器(DLA)执行一个指令期间在其上操作的向量/矩阵的最大单元。在对向量/矩阵操作数执行预定义操作的指令期间,深度学习加速器(DLA)可以并行操作向量/矩阵操作数的元素,以减少与存储器/数据存取相关联的执行时间和/或能量消耗。对深度学习加速器(DLA)的粒度的向量/矩阵操作数的操作可用作构建块以对较大大小的向量/矩阵实施计算。
[0028]典型/实际人工神经网络(ANN)的实施涉及具有大于深度学习加速器(DLA)的操作粒度的大小的向量/矩阵操作数。为了使用深度学习加速器(DLA)实施此类人工神经网络(ANN),涉及较大大小的向量/矩阵操作数的计算可分解为深度学习加速器(DLA)的粒度的向量/矩阵操作数的计算。深度学习加速器(DLA)可以通过指令进行编程,以执行涉及大型
向量/矩阵操作数的计算。举例来说,在响应于指令而操控深度学习加速器(DLA)的粒度的向量和矩阵时的深度学习加速器(DLA)的原子计算能力可经编程以在人工神经网络(ANN)中实施计算。
[0029]在一些实施方案中,深度学习加速器(DLA)不具有典型中央处理单元(CPU)的一些逻辑运算能力。然而,深度学习加速器(DLA)可经配置有充足逻辑单元以处理提供到人工神经网络(ANN)的输入数据且根据针对深度学习加速器(DLA)产生的一组指令产生人工神经网络(ANN)的输出。因此,深度学习加速器(DLA)可在中央处理单元(CPU)或另一处理器的极少帮助或无帮助的情况下执行人工神经网络(ANN)的计算。任选地,常规通用处理器还可经配置为深度学习加速器(DLA)的部分以执行无法使用深度学习加速器(DLA)的向量/矩阵处理单元有效地实施的操作,和/或无法由深度学习加速器(DLA)的向量/矩阵处理单元执行的操作。
[0030]典型人工神经网络(ANN)可以标准格式(例如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,其包括:至少一个处理单元,其经配置以执行具有矩阵操作数的指令;随机存取存储器,其经配置以存储能够由所述至少一个处理单元执行的指令且存储人工神经网络的矩阵;控制单元,其经配置以从所述随机存取存储器加载所述指令以供所述至少一个处理单元执行;以及至少两个接口,其经配置以由所述装置外部的至少两个装置同时存取所述随机存取存储器。2.根据权利要求1所述的装置,其中所述至少两个接口包含经配置以连接到中央处理单元的第一接口以及经配置以连接到不同于所述中央处理单元的控制器的存储器控制器的第二接口。3.根据权利要求2所述的装置,其中所述随机存取存储器包含经配置以存储来自所述人工神经网络的第一输出的第一部分以及经配置以存储对所述人工神经网络的第三输入的第二部分;且其中所述第一接口和所述第二接口分别连接到所述第一部分和第二部分。4.根据权利要求3所述的装置,其中所述第一部分和所述第二部分形成于单独集成电路裸片上;且其中所述第一接口和所述第二接口不共享到所述第一部分和所述第二部分的连接。5.根据权利要求3所述的装置,其中所述随机存取存储器进一步包含经配置以存储来自所述人工神经网络的第二输出的第三部分以及经配置以存储对所述人工神经网络的第二输入的第四部分;且在所述指令的执行期间,所述至少处理单元经配置以使用所述第二输入产生所述第二输出。6.根据权利要求5所述的装置,其中在所述指令的执行期间,所述第一接口和所述第二接口具有分别对所述第一部分和所述第二部分的并行存取,同时所述至少处理单元基于存储于所述第四部分中的所述第二输入产生所述第二输出且将所述第二输出存储到所述第三部分中。7.根据权利要求5所述的装置,其中响应于在所述随机存取存储器中提供的指示,所述控制单元经配置以发起所述指令的执行以对所述人工神经网络应用第二输入,从所述人工神经网络产生所述第二输出,且将所述第二输出存储于所述第三部分中。8.根据权利要求7所述的装置,其进一步包括:集成电路封装,其经配置以围封所述装置;以及第一组连接器,其经配置以将所述第一接口耦合到所述中央处理单元;以及第二组连接器,其经配置以将所述第二接口耦合到不同于所述中央处理单元的所述控制器的所述存储器控制器。9.根据权利要求8所述的装置,其中深度学习加速器配置于围封于所述装置内的现场可编程门阵列(FPGA)或专用集成电路(ASIC)的集成电路裸片上;且所述深度学习加速器包含所述控制单元、所述至少一个处理单元和本地存储器。10.根据权利要求9所述的装置,其中所述至少一个处理单元包含经配置以对指令的两个矩阵操作数进行操作的矩阵

矩阵单元;
其中所述矩阵

矩阵单元包含经配置以并行地操作的多个矩阵

向量单元;其中所述多个矩阵

向量单元中的每一个包含经配置以并行地操作的多个向量

向量单元;且其中所述多个向量

向量单元中的每一个包含经配置以并行地操作的多个乘累加单元。11.根据权利要求10所述的装置,其中所述随机存取存储器和所述深度学习加速器形成于单独集成电路裸片上且通过硅穿孔(TSV)连接。12.根据权利要求11所述的装置,其中所述随机存取存储器包含经配置以存储所述指令和所述人工神经网络的所述矩阵的非易失性存储器。13.根据权利要求11所述的装置,其中所述深度...

【专利技术属性】
技术研发人员:P
申请(专利权)人:美光科技公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1