一种同时支持细粒度形变和多数据流切换的脉动阵列制造技术

技术编号：38640448 阅读：18 留言：0更新日期：2023-08-31 18:34

本发明专利技术公开了一种能够支持细粒度形变和数据流切换的脉动阵列。该脉动阵列包括一个二维计算单元阵列，一组细粒度可重分配的片上数据缓存和一个控制器。该脉动阵列能够划分为四个子阵列并且首尾相接，以实现不同的逻辑形状，并且能够在3种数据流之间任意切换。该脉动阵列中，每一计算单元都能够在上下左右四个方向上与相邻计算单元进行全双工数据传递，并且能够同时进行运算操作和跨越相邻子阵列的数据传递操作。该脉动阵列中，片上数据缓存可以细粒度地划分为若干独立读写的缓存块，并根据不同阵列形状动态配置。本发明专利技术大幅提高了脉动阵列在执行不同形状、大小的矩阵乘法时的运算效率，进而提高了神经网络模型的加速效果。进而提高了神经网络模型的加速效果。进而提高了神经网络模型的加速效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种同时支持细粒度形变和多数据流切换的脉动阵列

[0001]本专利技术涉及人工智能加速器设计
，具体涉及一种能够高效适用于不同形状矩阵乘法的同时支持细粒度形变和多数据流切换的脉动阵列。

技术介绍

[0002]随着人工智能技术的兴起，深度神经网络在各种领域中的应用也越来越多。各种深度神经网络虽然结构、规模以及组成网络的算子有明显差异，但都以矩阵乘法作为最常见的基础运算，矩阵乘法占整个网络计算需求的比例极高，因此矩阵乘法的计算效率在极大程度上决定了整个神经网络模型的执行效率。脉动阵列是最常用的矩阵乘法计算架构，以二维计算单元阵列为核心，能够实现高数据重用率、高计算并行度的矩阵乘法计算。
[0003]目前的脉动阵列在矩阵乘法的计算上仍然存在计算单元利用率过低的问题，特别是面对一些形状特殊的矩阵乘法运算(例如当其中一个矩阵呈现瘦长形状，甚至直接退化为向量时)，脉动阵列的计算单元利用率严重降低，无法获得显著的并行加速效果。然而类似的矩阵乘法又不可避免地大量出现在各种神经网络算子中，使得脉动阵列在这些神经网络模型上的计算效率受到极大限制。
[0004]造成计算单元利用率过低的重要原因在于，目前的脉动阵列要么无法支持动态地改变自身逻辑结构，因而无法适应矩阵形状的变化；要么无法支持多种数据流的切换，导致灵活度大大受限。因此，通过设计一种能够同时支持细粒度形变和多数据流切换的脉动阵列，能够极大地提高其面对各种神经网络模型的计算单元利用率，从而大大提升加速效果。

技术实现思路

[0005]本专利技术...

【技术保护点】

【技术特征摘要】
1.一种同时支持细粒度形变和多数据流切换的脉动阵列，其特征在于，该脉动阵列能够动态地、细粒度地改变自身的逻辑形状和数据流，提高脉动阵列在计算各种形状和大小的矩阵乘法时的计算单元利用率和加速效果，从而高效适应各种深度神经网络模型，一个R
p
行C
p
列的脉动阵列能够在至多min{R
p
,C
p
}+1种形状和3种数据流之间任意切换和组合；该脉动阵列实现深度神经网络模型加速的基本过程是：在编译阶段，一个神经网络模型被转化为一个矩阵乘法运算序列，对序列中的每个矩阵乘法，通过贪心算法计算出最优的阵列逻辑形状和数据流；在执行阶段，脉动阵列按序列顺序依次计算每个矩阵乘法，每个矩阵乘法运算都包含一个配置阶段和一个计算阶段；在配置阶段，首先将逻辑形状和数据流的配置信息送入阵列，与此同时，可选地将上一轮的驻留数据移出阵列，并且将这一轮的驻留数据载入阵列；在执行阶段，将非驻留的运算数据按照一定格式送入阵列进行计算，同时可选地将非驻留的运算结果写回到缓存中；该脉动阵列架构由三部分组成：一组由一种支持四向全双工数据传递和多数据流切换的计算单元组成的二维计算单元阵列；一组细粒度、多模式的片上数据缓存，用于满足脉动阵列在不同形状和数据流下产生的不同存储需求；一个控制器，用于控制脉动阵列和片上数据缓存在不同形状和数据流下实现矩阵乘法的计算。2.根据权利要求1所述的同时支持细粒度形变和多数据流切换的脉动阵列，其特征在于，二维计算单元阵列由一种特殊计算单元组成，每个计算单元都只与其上下左右四个相邻的计算单元相连，且在四个方向上都能支持全双工的数据传递，当不发生形变时，脉动阵列以物理形状(R
p
，C
p
)计算矩阵乘法；当发生细粒度形变时，脉动阵列以逻辑形状(R

【专利技术属性】
技术研发人员：肖利民，蔡天昊，韩萌，王良，张晨浩，徐向荣，谢喜龙，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人