使用存内处理进行矩阵乘法的装置和方法制造方法及图纸

技术编号:34683267 阅读:14 留言:0更新日期:2022-08-27 16:14
本发明专利技术公开了用于使用存内处理(PIM)的矩阵乘法的装置和方法的实施例。在示例中,用于矩阵乘法的设备包括块阵列,所述块每个都包括一个或多个PIM块。PIM块可以包括被配置为数字模式或模拟模式的混合模式PIM块。配置为数字模式的PIM块可以执行与深度(DW)卷积相关联的操作。另一方面,配置为模拟模式的PIM块可以执行与逐点(PW)卷积相关联的操作。根据计算,控制器可用于将PIM模块配置为要么数字模式、要么模拟模式。么模拟模式。么模拟模式。

【技术实现步骤摘要】
【国外来华专利技术】使用存内处理进行矩阵乘法的装置和方法

技术介绍

[0001]本专利技术的实施例涉及存内处理(processing

in

memory,PIM)。
[0002]超低功率机器学习处理器对于执行嵌入式系统的认知任务而言是至关重要的,因为功率预算例如在电池或能量收集源的情况下是有限的。然而,由深度卷积神经网络(DCNN)生成的数据在常规的冯
·
诺依曼架构中会导致存储器与计算单元之间的繁重通信量,并且不利地影响这些系统的能效。作为加速DCNN执行的有前途的解决方案,基于非易失性PIM(NVPIM)的电阻性随机存取存储器(ReRAM)应运而生。ReRAM的高单元密度允许在芯片上实现大的片上ReRAM阵列以存储DCNN的参数,而合适的功能、例如矢量矩阵乘法(VMM)可以直接在ReRAM阵列及其外围电路中执行。

技术实现思路

[0003]以下提供了一个或多个方面的简化摘要,以提供对这些方面的基本理解。该概述不是对所有预期方面的广泛概述,并且既不旨在识别所有方面的关键或关键要素,也不旨在描绘任何或所有方面的范围。其唯一目的是以简化形式呈现一个或多个方面的一些概念,作为稍后呈现的更详细描述的前奏。
[0004]在此公开了用于使用PIM进行矩阵乘法的装置和方法的实施例。
[0005]在一个示例中,该装置可以包括可以被配置为数字模式或模拟模式的混合模式PIM设备。混合模式PIM设备可以包括:输入组件,被配置为存储第一矢量和输入数据的;存储器阵列,被配置为在模拟模式和数字模式下操作的外围逻辑;以及控制电路,被配置为使外围逻辑能够在数字模式下执行乘法运算或累加运算,以及在模拟模式下执行移位加法运算并生成部分和。
[0006]在另一个示例中,PIM块可以被配置为至少部分地基于与模数转换器(ADC)相关联的分辨率来识别一组存储器单元(MU)。在某些方面,该组MU可以位于存储器阵列的通道中,该通道包括存储器阵列的一组列。在某些其他方面,该组MU中的每个存储器单元(MU)由位于该组列中的列中的一组相邻存储器单元组成。PIM设备可以至少部分地基于与第一矩阵相关联的权重的精度将一组矩阵中的每个矩阵中的每个元素映射到该组MU中的至少一个MU。PIM设备可以将与该组矩阵中的每个矩阵相关联的权重作为矢量映射到该组MU。PIM设备可以将该组矩阵中的每个矩阵映射到通道中的不同列。
附图说明
[0007]并入本专利技术并形成说明书一部分的说明书附图图解说明了本专利技术的实施例,并且与说明书一起进一步用于解释本专利技术的原理并使得本领域技术人员能够使用本专利技术。
[0008]图1图示了根据本专利技术的某些方面的片上系统(SoC)设备的框图。
[0009]图2图示了根据本专利技术的一些实施例的能够由PIM块执行的两个示例性计算流程。
[0010]图3图示了根据本专利技术的一些实施例的用于深度卷积的示例性块级计算流程。
[0011]图4A图示了根据本专利技术的某些方面的示例性核映射流程。
[0012]图4B图示了根据本专利技术的某些实施例的能够使用图4A的示例性核映射流程来执行的示例性卷积流程。
[0013]图5A图示了根据本专利技术的某些方面以模拟模式配置的混合模式PIM块的数据流。
[0014]图5B图示了根据本专利技术的某些方面以数字模式配置的混合模式PIM块的数据流。
[0015]图6是根据本专利技术的某些实施例的由以混合模式配置的PIM块实现的用于核映射的示例性方法的流程图。
[0016]本专利技术的实施例将参考附图予以描述。
具体实施方式
[0017]尽管讨论了本专利技术的配置和布置,但是应当理解,此讨论仅仅是为了图解说明目的。本领域技术人员能够理解,可使用其它配置和布置而不偏离本专利技术的主旨和范围。对本领域技术人员显而易见的是,本专利技术也可用于其它多种应用。
[0018]应当注意,本专利技术说明书所提到的“一个实施例”、“一实施例”、“一个示例实施例”、“一些实施例”等等是指,所描述的实施例可能包括特定特征、结构或特性,但不是每个实施例都一定包括该特定特征、结构或特性。此外,这样的表述并不一定指同一个实施例。此外,当特定特征、结构或特性结合某实施案例被描述时,属于本领域技术人员知识范围的是,结合其它实施例来实施这样的特定特征、结构或特性,而不管是否在此明确说明。
[0019]一般来说,术语可以至少部分地根据上下文中的使用来理解。例如,在此使用的术语“一个或多个”,至少部分地根据上下文,可用于以单数形式来描述任何特征、结构或特性,或以复数形式来描述特征、结构或特性的组合。类似地,诸如“一个”、“一个”、“这个”之类的术语又可以至少部分地根据上下文被理解为表达单数用法或表达复数用法。
[0020]深度卷积神经网络(DCNN)已成功应用于各个领域,例如图像分类。然而,DCNN的成功是以高计算强度、不期望的计算时间和使用大型数据集为代价的。因此,在资源约束系统(例如,移动设备、边缘计算节点、智能嵌入式设备等)中使用目前可用的DCNN技术可能具有挑战性甚至不切实际。为了克服计算和时间限制,已经开发了专用于DCNN的硬件加速器。一种这样的硬件加速器已被开发出,包括非易失性存内处理(NVPIM)架构,其可减少用于执行DNCC计算的时间和计算资源。例如,NVPIM可以通过存储器阵列(例如,存储器交叉开关)本身中的模拟计算来执行矢量矩阵乘法(VMM)操作,这可以减少计算时间。此外,NVPIM可以减少数据移动的开销,因为计算原位地发生在存储器阵列内部。还开发了轻量级DNCC模型以减少计算强度和模型参数的数量。深度(depth

wise)DCNN就是这样一种轻量级模型。在深度DCNN中,传统的卷积层被深度(DW)卷积层和逐点(point

wise)(PC)卷积层的组合所取代,其与其他DNCC模型相比,使用更少的乘法和累加运算。
[0021]尽管使用NVPIM架构和DW卷积可以提高DNCC操作的推理效率,但将DWDCNN映射到现有NVPIM架构时,整体效率会下降。现有的NVPIM架构主要是为标准卷积设计的,其中DWDCNN中的PW卷积层可以被有效地处理。在这里,PW卷积层可以看作是一个具有1
×
1核的标准卷积。然而,由于在将DW卷积层映射到NVPIM架构作为VMM数据布局时,存储器阵列(例如,存储器交叉开关)的利用率低,因此用于资源受限的系统时DW卷积可能无法有效执行。一个问题是特征图仅用于在其自己的通道中进行计算,这可能会导致存储器阵列中有大量未使用的存储器单元。
[0022]为了实现对DW和PW卷积层二者的有效推理,根据本专利技术的各种实施例提供了混合数字/模拟模式NVPIM架构。例如,本专利技术提供一种数字模式NVPIM架构,其可以比传统技术更有效地处理DW卷积层,同时将模拟模式用于PW卷积层的计算。混合数字/模拟模式NVPIM架构的附加细节在下文中阐述,例如,结合图1

6。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种存内处理(PIM)设备,包括:输入组件,被配置为存储至少部分输入数据;存储阵列,包括多个存储单元(MU);外围逻辑,被配置为在模拟模式或数字模式下运行;以及控制电路,其被配置为:在数字模式下,使外围逻辑能够进行乘法运算或累加运算;以及在模拟模式下,使外设逻辑能够执行移位加法运算并生成部分和。2.根据权利要求1所述的PIM装置,还包括字线驱动器,其中,当处于数字模式时,所述控制电路还被配置为:使字线驱动器能够生成多电平电压矢量以激活存储器阵列中的至少一个MU;其中位线电流在激活以后在至少一个MU处累加;以及其中位线电流与逻辑值相关联。3.根据权利要求2所述的PIM装置,其中所述至少一个MU包括在所述存储器阵列的列中的一组相邻单元。4.根据权利要求2所述的PIM设备,还包括模数转换器(ADC),其中,当处于数字模式时,所述控制电路还被配置为:使ADC能够将与逻辑值相关的一组权重输出到外设逻辑。5.根据权利要求4所述的PIM设备,其中,当处于数字模式时,所述控制电路还被配置为使所述外围逻辑能够:从输入组件获取输入数据;至少部分地基于该组权重和输入数据执行乘法运算;以及至少部分地基于乘法运算的一个或多个结果执行累加运算以生成特征图。6.如权利要求1所述的PIM设备,其中所述数字模式支持与深度卷积相关联的操作。7.如权利要求1所述的PIM设备,其中所述模拟模式支持与逐点卷积相关联的操作。8.如权利要求1所述的PIM设备,其中所述外围逻辑包括被配置为执行乘法运算的位串行乘法器。9.根据权利要求8所述的PIM设备,其中所述位串行乘法器包括AND逻辑和MUX电路。10.如权利要求8所述的PIM设备,其中所述外围逻辑还包括被配置为执行累加操作的移位加法器。11.如权利要求1所述的PIM设备,其中,当处于模拟模式时,所述存储器阵列被配置为执行矢量点积操作。12.一种由至少一个被配置为数字模式的存内处理(PIM)块实现的矩阵乘法方法,该方法包括:由控制器至少部分地基于与模数转换器(ADC)相关联的分辨率来识别一组存储器单元(MU),该组MU位于存储器阵列的通道中,所述通道包括存储器阵列的一组列,并且该组MU中的每个存储器单元(MU)包括位于该组列的列中的一组相邻存储器单元;由控制器至少部分地基于与该组矩阵中的至少一个矩阵相关联的权重的精度将该组矩阵中的每个矩阵的每个元素映射到MU中的至少一个MU。由控制器将与该组矩阵中的每个矩阵相关联的权重作为矢量映射到一组MU;以及<...

【专利技术属性】
技术研发人员:郑琪霖
申请(专利权)人:北京苹芯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1