【技术实现步骤摘要】
【国外来华专利技术】用于存储器内计算的可缩放阵列架构
[0001]政府支持
[0002]本专利技术是在政府支持下在美国国防部授予的合约号NRO000
‑
19
‑
C
‑
0014下作出的。政府拥有本专利技术的某些权利。
[0003]相关申请的交叉参考
[0004]本申请要求2020年2月5日提交的第62/970,309号美国临时专利申请的权益,该申请以全文引用的方式并入本文中。
[0005]本公开大体上涉及存储器内计算和矩阵
‑
向量相乘的领域。
技术介绍
[0006]本章节旨在向读者介绍可与下文描述和/或要求保护的本专利技术的各个方面相关的技术的各个方面。此论述被认为有助于向读者提供背景信息以便于更好地理解本专利技术的各个方面。因此,应理解,这些陈述应鉴于此来阅读,而不是作为对现有技术的认可。
[0007]基于神经网络(NN)的深度学习推断部署在各种各样的应用中。此由认知任务的突破性表现促动。然而,其导致NN的复杂性(层、通道的数目)和变异性(网络架构、内部变量/表示)增加,从而迫使需要经由可灵活编程的架构进行硬件加速来实现能量效率和处理量。
[0008]NN中的主导操作为矩阵
‑
向量相乘(MVM),通常涉及高维度矩阵。这使架构中的数据存储和移动成为主要挑战。然而,MVM还产生结构化数据流,从而促使其中相应地显式地布置硬件的加速器架构成为二维阵列。此些架构称为空间架构,常常采用脉动阵列,其中处理引擎(PE ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种可配置以支持映射到其上的应用的可缩放执行和数据流的集成式存储器内计算(IMC)架构,其包括:多个可配置存储器内计算单元(CIMU),其形成CIMU的阵列;以及可配置芯片上网络,其用于将输入数据传送到所述CIMU的阵列,在CIMU之间传送计算数据,以及从所述CIMU的阵列传送输出数据。2.根据权利要求1所述的集成式IMC架构,其中:每一CIMU包括输入缓冲器,用于从所述芯片上网络接收计算数据,以及将所接收计算数据构成为输入向量以供由所述CIMU进行矩阵向量相乘(MVM)处理以借此生成包括输出向量的计算数据。3.根据权利要求2所述的集成式IMC架构,其中每一CIMU与快捷缓冲器相关联,用于从所述芯片上网络接收计算数据,将时间延迟施加到所接收计算数据,以及根据数据流映射朝向下一CIMU或输出转发经延迟计算数据,使得维持跨多个CIMU的数据流对准。4.根据权利要求2所述的集成式IMC架构,其中每一CIMU包含被配置成用于处理从相应输入缓冲器和快捷缓冲器中的至少一个接收的输入数据的并行计算硬件。5.根据权利要求3所述的集成式IMC架构,其中所述CIMU的阵列中的所述多个CIMU中的每一个的所述输入缓冲器和快捷缓冲器中的至少一个根据支持像素层级管线化的数据流映射配置以提供管线时延匹配。6.根据权利要求3所述的集成式IMC架构,其中由CIMU的快捷缓冲器施加的所述时间延迟包括绝对时间延迟、预定时间延迟、相对于输入计算数据的大小确定的时间延迟、相对于所述CIMU的预期计算时间确定的时间延迟、从数据流控制器接收的控制信号、从另一CIMU接收的控制信号,以及由所述CIMU响应于所述CIMU内发生某一事件而生成的控制信号中的至少一个。7.根据权利要求3所述的集成式IMC架构,其中至少一些所述输入缓冲器可被配置成将时间延迟施加到从所述芯片上网络或从快捷缓冲器接收的计算数据。8.根据权利要求7所述的集成式IMC架构,其中由CIMU的输入缓冲器施加的所述时间延迟包括绝对时间延迟、预定时间延迟、相对于输入计算数据的大小确定的时间延迟、相对于所述CIMU的预期计算时间确定的时间延迟、从数据流控制器接收的控制信号、从另一CIMU接收的控制信号,以及由所述CIMU响应于所述CIMU内发生某一事件而生成的控制信号中的至少一个。9.根据权利要求8所述的集成式IMC架构,其中所述CIMU的至少一子集与芯片上网络部分相关联,所述芯片上网络部分包含根据映射到所述IMC上的应用的数据流配置的操作数加载网络部分。10.根据权利要求9所述的集成式IMC架构,其中映射到所述IMC上的所述应用包括映射到所述IMC上的神经网络(NN),使得给定层处执行的经配置CIMU的并行输出计算数据提供到下一层处执行的经配置CIMU,所述并行输出计算数据形成相应NN特征映射像素。11.根据权利要求10所述的集成式IMC架构,其中所述输入缓冲器被配置成用于根据选定跨度将输入NN特征映射数据传递到所述CIMU内的并行计算硬件。12.根据权利要求11所述的集成式IMC架构,其中所述NN包括卷积神经网络(CNN),且所述输入线缓冲器用于缓冲对应于所述CNN内核的大小的输入特征映射的若干行。
13.根据权利要求2所述的集成式IMC架构,其中每一CIMU包括存储器内计算(IMC)存储体,所述存储器内计算(IMC)存储体被配置成根据位并行位串行(BPBS)计算过程执行矩阵向量相乘(MVM),其中使用具有列加权过程继之以结果累加过程的迭代桶形移位执行单个位计算。14.根据权利要求2所述的集成式IMC架构,其中每一CIMU包括存储器内计算(IMC)存储体,所述存储器内计算(IMC)存储体被配置成根据位并行位串行(BPBS)计算过程执行矩阵向量相乘(MVM),其中使用具有列加权过程继之以结果累加过程的迭代列合并执行单个位计算。...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。