用于支持集成电路装置中的深度学习加速器的存储器配置制造方法及图纸

技术编号：38616299 阅读：15 留言：0更新日期：2023-08-26 23:43

描述与深度学习加速器及存储器相关的系统、装置及方法。例如，一种集成电路(IC)装置包含连接到IC裸片的多个第二堆叠的IC裸片的第一堆叠。所述第一堆叠具有存储器控制器及所述深度学习加速器的处理单元的第一裸片及堆叠于所述第一堆叠上以提供第一类型的存储器的至少一个第二裸片。所述第二堆叠中的每一者具有含不同类型的存储器的基底裸片及至少一第三裸片及第四裸片。所述基底裸片具有经配置以响应于来自所述存储器控制器的命令而在同一堆叠内复制数据的逻辑电路，且具有可用作裸片交叉缓冲器的第二类型的存储器。交叉缓冲器的第二类型的存储器。交叉缓冲器的第二类型的存储器。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于支持集成电路装置中的深度学习加速器的存储器配置
[0001]相关申请案
[0002]本申请案主张2020年12月14日申请且标题为“用于支持集成电路装置中的深度学习加速器的存储器配置(Memory Configuration to Support Deep Learning Accelerator in an Integrated Circuit Device)”的序列号为17/120,786的美国专利申请案的优先权，所述美国专利申请案的全部公开内容特此以引用方式并入本文中。

[0003]本文中公开的至少一些实施例大体上涉及集成电路装置，且更特定来说(但不限于)，涉及具有用于人工神经网络(ANN)(例如通过机器学习及/或深度学习配置的ANN)的加速器的集成电路装置。

技术介绍

[0004]人工神经网络(ANN)使用神经元网络来处理网络的输入且从网络产生输出。
[0005]深度学习已应用于许多应用领域，例如计算机视觉、语音/音频辨识、自然语言处理、机器翻译、生物信息学、药物设计、医学图像处理、游戏等。
附图说明
[0006]附图中通过实例而非限制方式说明实施例，其中相同参考元件符号指示类似元件。
[0007]图1展示具有根据一个实施例配置的深度学习加速器及随机存取存储器的集成电路装置。
[0008]图2展示根据一个实施例的经配置以执行矩阵
‑
矩阵运算的处理单元。
[0009]图3展示根据一个实施例的经配置以执行矩阵
‑
>向量运算的处理单元。
[0010]图4展示根据一个实施例的经配置以执行向量
‑
向量运算的处理单元。
[0011]图5展示根据一个实施例的经配置以自主地将输入应用于经训练人工神经网络的深度学习加速器及随机存取存储器。
[0012]图6说明根据一个实施例的存储器及深度学习加速器的集成电路裸片的配置。
[0013]图7说明根据一个实施例的用于深度学习加速器的存储器配置的实例。
[0014]图8展示根据一个实施例的在集成电路装置中实施的方法。
具体实施方式
[0015]本文中公开的至少一些实施例提供一种集成电路装置，其经配置以用减少能耗及计算时间来执行人工神经网络(ANN)的计算。集成电路装置包含深度学习加速器(DLA)及随机存取存储器。深度学习加速器具有只读及读取
‑
写入的相异数据存取模式及多个同时大数据块传送。因此，集成电路装置可使用异质存储器系统架构来优化其存储器配置以支持深度学习加速器用于改进性能及能量使用。
[0016]深度学习加速器(DLA)包含一组可编程硬件计算逻辑，其经专门化及/或优化以执行并行向量及/或矩阵计算，包含(但不限于)向量及/或矩阵的乘法及累加。
[0017]此外，深度学习加速器(DLA)可包含一或多个算术逻辑单元(ALU)以对整数二进制数执行算术及逐位运算。
[0018]深度学习加速器(DLA)可经由一组指令编程以执行人工神经网络(ANN)的计算。
[0019]例如，ANN中的每一神经元接收一组输入。神经元的一些输入可为ANN中某些神经元的输出；且神经元的一些输入可为提供到ANN的输入。ANN中神经元之间的输入/输出关系表示ANN中的神经元连接性。
[0020]例如，每一神经元针对其输入可分别具有偏置、激活函数及一组突触权重。激活函数可呈阶跃函数、线性函数、对数
‑
S型函数等的形式。ANN中的不同神经元可具有不同激活函数。
[0021]例如，每一神经元可产生其输入及其偏置的加权和且接着产生使用神经元的激活函数计算的作为加权和的函数的输出。
[0022]ANN的输入与输出之间的关系通常由ANN模型定义，ANN模型包含表示ANN中神经元的连接性的数据以及每一神经元的偏置、激活函数及突触权重。基于给定ANN模型，计算装置可经配置以从ANN的一组给定输入计算ANN的输出。
[0023]例如，ANN的输入可基于摄影机输入产生；且来自ANN的输出可为例如事件或物体的项目的识别。
[0024]一般来说，可使用监督式方法来训练ANN，其中ANN中的参数经调整以最小化或减小与相应输入相关联或源自相应输入的已知输出与经由将输入应用于ANN来产生的计算输出之间的误差。监督式学习/训练方法的实例包含强化学习及具有误差校正的学习。
[0025]替代地或组合地，可使用无监督方法来训练ANN，其中在训练完成之前不知道源自一组给定输入的准确输出。ANN可经训练以将项目分类为多个类别或将数据点分类为集群。
[0026]可将多种训练算法用于复杂的机器学习/训练范例。
[0027]深度学习使用多个机器学习层逐步从输入数据提取特征。例如，较低层可经配置以识别图像中的边缘；且较高层可经配置以基于使用较低层检测到的边缘来识别图像中捕获的项目，例如人脸、物体、事件等。深度学习可经由人工神经网络(ANN)实施，例如深度神经网络、深度信念网络、递归神经网络及/或卷积神经网络。
[0028]对向量及矩阵进行操作的深度学习加速器(DLA)的粒度对应于可在由深度学习加速器(DLA)执行一个指令期间操作的向量/矩阵的最大单元。在对向量/矩阵操作数执行预定义操作的指令期间，向量/矩阵操作数的元素可由深度学习加速器(DLA)并行操作以减少与存储器/数据存取相关联的执行时间及/或能耗。对深度学习加速器(DLA)的粒度的向量/矩阵操作数的操作可用作对更大向量/阵列实施计算的构建块。
[0029]典型/实用人工神经网络(ANN)的实施涉及具有大于深度学习加速器(DLA)的操作粒度的大小的向量/矩阵操作数。为了使用深度学习加速器(DLA)实施此人工神经网络(ANN)，涉及大向量/矩阵操作数的计算可分解为深度学习加速器(DLA)的粒度的向量/矩阵操作数的计算。深度学习加速器(DLA)可经由指令编程以实施涉及大向量/矩阵操作数的计算。例如，深度学习加速器(DLA)响应于指令而操纵深度学习加速器(DLA)的粒度的向量及矩阵的原子计算能力可经编程以实施人工神经网络(ANN)中的计算。
[0030]在一些实施方案中，深度学习加速器(DLA)缺乏典型中央处理单元(CPU)的一些逻辑运算能力。然而，深度学习加速器(DLA)可配置有足够逻辑单元以根据针对深度学习加速器(DLA)产生的一组指令来处理提供到人工神经网络(ANN)的输入数据且产生人工神经网络(ANN)的输出。因此，深度学习加速器(DLA)可执行人工神经网络(ANN)的计算且很少或不需要中央处理单元(CPU)或另一处理器帮助。任选地，常规通用处理器也可经配置为深度学习加速器(DLA)的部分以执行无法使用深度学习加速器(DLA)的向量/矩阵处理单元高效实施及/或无法由深度学习加速器(DLA)的向量/矩阵处理单元执行的操作。
[0031]典型人工神经网络(ANN)可以标准格式描述/指定(例如开放式神经网络本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置，其包括：集成电路裸片的第一堆叠，其包含：第一集成电路裸片，其含有存储器控制器及经配置以对矩阵操作数执行至少计算的处理单元；及至少一个第二集成电路裸片，其堆叠于所述第一集成电路裸片上且含有第一类型的存储器单元；集成电路裸片的多个第二堆叠，所述多个第二堆叠中的每一相应堆叠包含：基底集成电路裸片，其含有逻辑电路及第二类型的存储器单元；及至少一个第三集成电路裸片，其堆叠于所述基底集成电路裸片上且含有与所述第一类型不同且与所述第二类型不同的存储器单元；及多个通信连接，所述通信连接中的每一者配置于所述第一堆叠中的所述存储器控制器与所述相应堆叠的所述逻辑电路之间。2.根据权利要求1所述的装置，其进一步包括：中介层，其中所述第一堆叠及所述多个第二堆叠配置于所述中介层上。3.根据权利要求2所述的装置，其进一步包括：集成电路封装，其经配置以围封所述装置。4.根据权利要求3所述的装置，其中所述至少一个第二集成电路裸片包含使用穿硅通路(TSV)连接到所述存储器控制器且具有所述第一类型的所述存储器单元的至少两个集成电路裸片。5.根据权利要求4所述的装置，其中所述至少一个第三集成电路裸片包含通过穿硅通路(TSV)连接到所述存储器控制器且具有第三类型的存储器单元及第四类型的存储器单元的至少两个集成电路裸片；且其中所述第三类型的所述存储器单元是易失性的且所述第四类型的所述存储器单元是非易失性的。6.根据权利要求5所述的装置，其中所述第一类型具有比所述第二类型、所述第三类型及所述第四类型更好的带宽及延时性能；所述第二类型具有比所述第三类型及所述第四类型更好的延时性能且具有比所述第一类型更高的存储器单元密度；所述第三类型具有比所述第二类型更高的存储器单元密度且具有比所述第四类型更好的带宽性能；且所述第四类型具有比所述第三类型更高的存储器单元密度及存储容量。7.根据权利要求5所述的装置，其中所述基底集成电路裸片中的所述逻辑电路经配置以从所述第一集成电路裸片中的所述存储器控制器接收命令且执行所述命令以在所述基底集成电路裸片与堆叠于所述基底集成电路裸片上的所述至少一个第三集成电路裸片之间复制数据。8.根据权利要求7所述的装置，其中当所述存储器单元未用于所述逻辑电路时，所述至少一个第三集成电路裸片中的所述存储器单元可由所述存储器控制器直接寻址用于读取或写入。9.根据权利要求8所述的装置，其中所述多个第二堆叠中的存储器单元可经由所述多个通信连接并行地存取到所述存储器控制器。10.根据权利要求9所述的装置，其中在写入命令的执行期间，所述存储器控制器经配置以将数据块写入到所述基底集成电路裸片中的所述第二类
型的所述存储器单元中，且所述逻辑电路经配置以将所述数据块从所述基底集成电路裸片复制到堆叠于所述基底集成电路裸片上的所述至少一个第三集成电路裸片中。11.根据权利要求9所述的装置，其中在从堆叠于所述基底集成电路裸片上的所述至少一个第三集成电路裸片读取数据的第一模式中，所述存储器控制器经配置以将数据块从堆叠于所述基底集成电路裸片上的所述至少一个第三集成电路裸片复制到堆叠于所述第一集成电路裸片上的所述至少一个第二集成电路裸片中。12.根据权利要求11所述的装置，其中在从堆叠于所述基底集成电路裸片上的所述至少一个第三集成电路裸片读取数据的第二模式中，所述存储器控制器经配置以：指示所述基底集成电路裸片中的所述逻辑电路将所述数据块从所述至少一个第三集成电路裸片复制到所述基底集成电路裸片中；及在预定数目个时钟循环期满之后，将所述数据块从所述基底集成电路裸片复制到堆叠于所述第一集成电路裸片上的所述至少一个第二集成电路裸片中。13.一种方法，其包括：经由通信连接在装置的集成电路裸片的第一堆叠与所...

【专利技术属性】
技术研发人员：D，
申请(专利权)人：美光科技公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人