当前位置: 首页 > 专利查询>脸谱公司专利>正文

用分布流水线可分离卷积运算将卷积映射到相连处理元件制造技术

技术编号:30427023 阅读:16 留言:0更新日期:2021-10-24 17:13
公开了使用分布式流水线式可分离卷积运算将卷积映射到相连的处理元件。一种处理器系统包括多个点积处理器单元和逐元素乘法单元。点积处理器单元为每个数据矩阵通道执行数据矩阵与单独的逐深度卷积权重矩阵的逐深度卷积。每个点积处理器单元为一个或更多个数据矩阵通道执行至少一部分逐深度卷积。逐元素乘法单元执行逐点卷积的乘法运算。每个逐元素乘法单元向从点积处理器单元中的一个或更多个接收的每个逐深度卷积部分结果元素应用来自多个逐点卷积权重滤波器的每一个的相应数据元素,以确定逐元素乘法单元结果。处理器系统将来自逐元素乘法单元结果的数据元素的不同组相加在一起,以至少部分地计算逐点卷积结果的不同数据元素。不同数据元素。不同数据元素。

【技术实现步骤摘要】
用分布流水线可分离卷积运算将卷积映射到相连处理元件
[0001]专利技术背景
[0002]使用神经网络可以解决一整类复杂的人工智能问题。由于这些问题通 常是计算和数据密集型的,所以硬件解决方案通常有利于提高神经网络的 性能。人工智能问题的解决方案通常可以使用基于硬件的解决方案来更快 地解决,这些解决方案优化了传统卷积运算的性能。卷积运算的传统优化 方法需要专门的硬件和复杂的存储器组织或转换方案。创建与解决传统卷 积运算兼容的硬件平台,同时也显著提高性能和效率,是一项技术挑战。 因此,存在对硬件和数据路径解决方案(data path solution)的需求,该硬 件和数据路径解决方案提高了有效计算解决复杂人工智能问题所需的卷 积运算的能力,而不会引入显著的复杂性和限制。
[0003]附图简述
[0004]在以下详细描述和附图中公开了本专利技术的各种实施例。
[0005]图1是示出使用神经网络解决人工智能问题的系统的实施例的框图。
[0006]图2是示出使用神经网络解决人工智能问题的处理元件的实施例的框 图。
[0007]图3是示出用于解决卷积问题的过程的实施例的流程图。
[0008]图4是示出通过在处理元件之间分配运算来解决卷积问题的过程的实 施例的流程图。
[0009]图5是示出通过在处理元件之间分配运算来解决卷积问题的过程的实 施例的流程图。
[0010]图6是示出使用处理器系统执行卷积运算的流水线式过程的实施例的 流程图。
[0011]图7是示出使用处理器系统执行卷积运算的流水线式过程的实施例的 流程图。
[0012]图8是示出使用神经网络解决人工智能问题的点积引擎的实施例的框 图。
[0013]图9是示出使用点积引擎执行二维卷积运算的过程的实施例的流程图。
[0014]图10是示出使用点积引擎执行二维卷积运算的过程的实施例的流程 图。
[0015]图11是示出使用点积引擎和向量单元运算来执行二维逐深度 (depthwise)卷积运算的过程的实施例的流程图。
[0016]图12是示出使用点积引擎和向量单元运算来执行二维逐深度卷积运 算的过程的实施例的流程图。
[0017]图13A和图13B是示出用于执行逐深度卷积的示例矩阵操作数的图示。
[0018]图14A和图14B是示出用于执行逐深度卷积的展开的数据矩阵的示例 的图示。
[0019]图15A和图15B是示出用于执行逐深度卷积的展开的权重矩阵的示例 的图示。
[0020]图16A和图16B是示出用于执行逐深度卷积的向量计算的示例的图示。
[0021]详细描述
[0022]本专利技术可以以多种方式实现,包括作为过程;装置;系统;物质的组 成;体现在计算机可读存储介质上的计算机程序产品;和/或处理器,例如 被配置为执行存储在耦合到处理器的存储器上和/或由该存储器提供的指 令的处理器。在本说明书中,这些实现或者本专利技术可以采取的任何其他形 式可以被称为技术。通常,在本专利技术的范围内,可以改变所
公开的过程的 步骤顺序。除非另有说明,否则被描述为被配置成执行任务的诸如处理器 或存储器的组件可以被实现为在给定时间被临时配置为执行任务的通用 组件或者被制造为执行任务的特定组件。如本文所使用的,术语“处理器
”ꢀ
指的是被配置成处理数据(例如计算机程序指令)的一个或更多个设备、 电路和/或处理核心。
[0023]下面提供了本专利技术的一个或更多个实施例的详细描述以及说明本发 明原理的附图。结合这些实施例描述了本专利技术,但是本专利技术不限于任何实 施例。本专利技术的范围仅由权利要求限定,并且本专利技术包括许多替代、修改 和等同物。为了提供对本专利技术的全面理解,在以下描述中阐述了许多具体 细节。这些细节是出于示例的目的而提供的,并且本专利技术可以根据权利要 求来实施,而不需要这些具体细节中的一些或全部。为了清楚起见,没有 详细描述与本专利技术相关的
中已知的技术材料,以免不必要地模糊 本专利技术。
[0024]公开了一种用于执行有效卷积运算的处理器系统。使用所公开的技术, 传统卷积运算的工作负荷被分解成流水线式可分离卷积,并分布在多个连 接的处理元件上。流水线式可分离卷积非常接近传统卷积运算,但需要较 少的整体运算和资源,同时产生相似的预期结果。例如,使用逐深度和逐 点(pointwise)卷积的组合来解决卷积运算。数据矩阵及其相应的逐深度 卷积权重矩阵的每个通道被分配给一个处理元件。在每个处理元件,逐深 度卷积运算使用点积引擎来执行。当确定部分逐深度卷积结果时,逐深度 卷积部分结果元素被传递到逐点卷积单元,例如逐元素乘法单元。每个处 理元件的逐元素乘法单元准备接收逐深度卷积部分结果元素和来自逐点 卷积权重滤波器的相应的数据元素,以确定作为部分逐点结果的逐元素乘 法单元结果。例如,每个逐深度卷积部分结果元素与来自逐点卷积权重滤 波器的相应数据元素相乘。然后,逐元素乘法单元的结果被传递到处理元 件的缩减单元(reduction unit),以将来自不同逐元素乘法单元的数据元素 的不同组相加在一起。在一些实施例中,缩减单元是由处理元件和它们的 缩减单元之间的点对点连接组成的缩减网络的一部分。在缩减网络的每个 节点处,当前处理元件的逐元素乘法单元结果被添加到从上游节点接收的 逐元素乘法单元结果。在每个处理元件中,逐深度卷积、逐元素乘法运算 和缩减运算都是流水线式的。通过使用流水线式逐深度和逐点卷积运算在 不同处理器元件之间分配工作负荷,并在缩减网络上对结果求和,硬件处 理元件的效率和利用率显著提高。与传统的通用处理器和/或标准矩阵处理 器硬件相比,卷积可以以显著的性能优势来执行。与使用通用处理器和传 统硬件配置相比,本文公开的处理单元的专用硬件配置导致显著的性能改 进和资源效率。
[0025]在一些实施例中,处理器系统包括多个(a plurality of)点积处理器单 元。例如,处理器系统包括多个通信连接的处理元件,其中每个处理元件 包括具有点积处理器单元的点积引擎。多个点积处理器单元被配置为执行 具有多个通道的数据矩阵与多个逐深度卷积权重矩阵的逐深度卷积。例如, 卷积运算可以使用可分离卷积的组合来求解,该可分离卷积包括近似原始 卷积运算的逐深度卷积和逐点卷积。使用多个点积处理器单元求解逐深度 卷积部分,使用多个逐元素乘法单元和缩减网络求解逐点卷积部分。诸如 具有宽度、高度和通道(深度)维度的3D卷积数据矩阵的数据矩阵是使 用处理元件的点积引擎解决逐深度卷积问题的一个参数。在一些实施例中, 数据矩阵是用于解决机器学习问题的3D机器学习数据矩阵。对应集合的 逐深度卷积权重矩阵是逐深度卷积问题的第二个参数。在一些实施例中, 多个逐深度卷积权重矩阵包括用于多个通道的每个通道的单独的逐深
度 卷积权重矩阵。例如,对于3D卷积数据矩阵的每个通道,存在2D逐深度 卷积权重矩阵。在一些实施例中,逐深度卷积权重矩阵每个都是2D机器 学习权重矩阵。
[0026]在一些实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理器系统,包括:多个点积处理器单元,其被配置为执行具有多个通道的数据矩阵与多个逐深度卷积权重矩阵的逐深度卷积,所述多个逐深度卷积权重矩阵包括用于所述多个通道中的每个通道的单独的逐深度卷积权重矩阵,其中所述点积处理器单元中的每一个被配置为执行用于所述多个通道中包括的一个或更多个通道的逐深度卷积的至少一部分;和多个逐元素乘法单元,其被配置为至少部分地执行逐点卷积的乘法运算,其中所述逐元素乘法单元中的每一个被配置为向从所述点积处理器单元中的一个或更多个接收的每个逐深度卷积部分结果元素应用来自多个逐点卷积权重滤波器的每个逐点卷积权重滤波器的对应数据元素,以确定逐元素乘法单元结果;其中所述处理器系统被配置成将来自所述多个逐元素乘法单元的逐元素乘法单元结果的数据元素的不同组相加在一起,以至少部分地计算所述逐点卷积的结果的不同数据元素。2.根据权利要求1所述的系统,其中所述多个逐元素乘法单元被配置为在所述逐深度卷积完成之前至少部分地执行所述逐点卷积的乘法运算。3.根据权利要求1所述的系统,其中所述处理器系统被配置为至少部分并行地将来自所述逐元素乘法单元结果的数据元素的不同组相加在一起。4.根据权利要求1所述的系统,其中所述点积处理器单元中的每一个包括多个计算单元。5.根据权利要求4所述的系统,其中所述多个计算单元中的每个计算单元包括向量乘法单元和向量加法器单元。6.根据权利要求5所述的系统,其中所述向量加法器单元包括加法器树。7.根据权利要求1所述的系统,其中所述数据矩阵是三维机器学习数据矩阵。8.根据权利要求1所述的系统,其中所述单独的逐深度卷积权重矩阵和所述多个逐点卷积权重滤波器中的每一个逐点卷积权重滤波器是机器学习权重矩阵。9.根据权利要求1所述的系统,其中所述单独的逐深度卷积权重矩阵是3x3矩阵。10.根据权利要求1所述的系统,其中所述单独的逐深度卷积权重矩阵是3x3、5x5、7x7、9x9或11x11矩阵。11.根据权利要求1所述的系统,其中所述多个逐点卷积权重滤波器中的每一个具有对应于所述数据矩阵的多个通道的计数的通道深度。12.根据权利要求1所述的系统,还包括:多个缩减单元;多个点对点连接,其中所述多个点对点连接的每个点对点连接被配置为向所述多个缩减单元中的第二缩减单元提供所述多个缩减单元中的第一缩减单元的结果;和通信总线,其将所述多个点积处理器单元连接在一起。13.根据权利要求12所述的系统,其中所述第一缩减单元包括...

【专利技术属性】
技术研发人员:阿卜杜勒卡迪尔
申请(专利权)人:脸谱公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1