利用分块N:M结构化权重稀疏性的DNN加速制造技术

技术编号：41399390 阅读：19 留言：0更新日期：2024-05-20 19:23

加速器核心包括第一缓冲器和第二缓冲器以及至少一组k个处理元件(PE)。第一缓冲器接收至少一组分块稀疏化的第一元素。每一组分块稀疏化的第一元素的块大小(k,c)包括k行和c列，其中k大于或等于2，k乘以p等于K，并且c乘以q等于C，其中K是第一元素张量的输出通道维度，C是第一元素张量的输入通道数量，p是整数，并且q是整数。第二缓冲器接收第二元素。每个相应组的PE从与该组PE相对应的第一元素块接收k行第一元素，并且接收与从第一缓冲器接收的第一元素相对应的第二元素。

全部详细技术资料下载

【技术实现步骤摘要】

本文公开的主题涉及深度神经网络(deep neural network，dnn)。更具体地，本文公开的主题涉及软件和硬件协同设计技术，其引入并利用dnn层中的稀疏性来高效地加速dnn的计算。

技术介绍

1、神经处理单元(neural processing unit，npu)用于加速诸如卷积神经网络(convolution neural network，cnn)的深度学习算法的计算。卷积层计算基于在输入张量(也称为输入特征图)上滑动卷积核。使用不同的核对多个输入进行卷积，以产生多个输出张量(也称为输出特征图)。在每个核位置处，计算基本上是输入像素和所有输入维度中的核权重的点积。剪枝方法目的是在可以被跳过的权重(即，零值)中引入稀疏性，这帮助降低计算复杂度以及降低存储器大小要求。权重值中的稀疏性可以是细粒度的，或者可以是粗粒度的。细粒度稀疏性可以实现高稀疏性比率，但是可能不是硬件友好的。

技术实现思路

1、示例实施例提供了一种加速器核心，该加速器核心可以包括第一缓冲器、第二缓冲器和至少两组k个...

【技术保护点】

1.一种加速器核心，包括：

2.根据权利要求1所述的加速器核心，其中，所述块大小(k,c)包括(1,4)、(2,1)、(2,2)、(4,1)、(2,4)、(4,4)和(8,1)之一。

3.根据权利要求1所述的加速器核心，其中，所述至少一组分块稀疏化的第一元素以N:M的分块结构化稀疏性布置，其中，N是整数。

4.根据权利要求3所述的加速器核心，其中，所述N:M的分块结构化稀疏性包括2:4的分块结构化稀疏性。

5.根据权利要求1所述的加速器核心，还包括至少一个第二缓冲器，每个相应的第二缓冲器与对应的一组PE相关联。

<...

【技术特征摘要】

1.一种加速器核心，包括：

2.根据权利要求1所述的加速器核心，其中，所述块大小(k,c)包括(1,4)、(2,1)、(2,2)、(4,1)、(2,4)、(4,4)和(8,1)之一。

3.根据权利要求1所述的加速器核心，其中，所述至少一组分块稀疏化的第一元素以n:m的分块结构化稀疏性布置，其中，n是整数。

4.根据权利要求3所述的加速器核心，其中，所述n:m的分块结构化稀疏性包括2:4的分块结构化稀疏性。

5.根据权利要求1所述的加速器核心，还包括至少一个第二缓冲器，每个相应的第二缓冲器与对应的一组pe相关联。

6.根据权利要求5所述的加速器核心，其中，每个相应的第二缓冲器向与所述第二缓冲器相对应的一组pe中的所述k个pe广播第二元素。

7.根据权利要求1所述的加速器核心，其中，每个pe生成由所述pe接收的所述第一元素和所述第二元素的点积。

8.根据权利要求7所述的加速器核心，其中，所述第一元素包括权重元素，并且所述第二元素包括激活元素。

9.一种加速器核心，包括：

10.根据权利要求9所述的加速器核心，其中，所述块大小(k,c)包括(1,4)、(2,1)、(2,2)、(4,1)、(2,4)、(4,4)和(8,1)之一。

11.根据权利要求9所述的加速...

【专利技术属性】
技术研发人员：H·阿卜杜勒阿齐兹，J·哈苏恩，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人