利用分块N:M结构化权重稀疏性的DNN加速制造技术

技术编号:41399390 阅读:19 留言:0更新日期:2024-05-20 19:23
加速器核心包括第一缓冲器和第二缓冲器以及至少一组k个处理元件(PE)。第一缓冲器接收至少一组分块稀疏化的第一元素。每一组分块稀疏化的第一元素的块大小(k,c)包括k行和c列,其中k大于或等于2,k乘以p等于K,并且c乘以q等于C,其中K是第一元素张量的输出通道维度,C是第一元素张量的输入通道数量,p是整数,并且q是整数。第二缓冲器接收第二元素。每个相应组的PE从与该组PE相对应的第一元素块接收k行第一元素,并且接收与从第一缓冲器接收的第一元素相对应的第二元素。

【技术实现步骤摘要】

本文公开的主题涉及深度神经网络(deep neural network,dnn)。更具体地,本文公开的主题涉及软件和硬件协同设计技术,其引入并利用dnn层中的稀疏性来高效地加速dnn的计算。


技术介绍

1、神经处理单元(neural processing unit,npu)用于加速诸如卷积神经网络(convolution neural network,cnn)的深度学习算法的计算。卷积层计算基于在输入张量(也称为输入特征图)上滑动卷积核。使用不同的核对多个输入进行卷积,以产生多个输出张量(也称为输出特征图)。在每个核位置处,计算基本上是输入像素和所有输入维度中的核权重的点积。剪枝方法目的是在可以被跳过的权重(即,零值)中引入稀疏性,这帮助降低计算复杂度以及降低存储器大小要求。权重值中的稀疏性可以是细粒度的,或者可以是粗粒度的。细粒度稀疏性可以实现高稀疏性比率,但是可能不是硬件友好的。


技术实现思路

1、示例实施例提供了一种加速器核心,该加速器核心可以包括第一缓冲器、第二缓冲器和至少两组k个处理元件。第一缓冲器本文档来自技高网...

【技术保护点】

1.一种加速器核心,包括:

2.根据权利要求1所述的加速器核心,其中,所述块大小(k,c)包括(1,4)、(2,1)、(2,2)、(4,1)、(2,4)、(4,4)和(8,1)之一。

3.根据权利要求1所述的加速器核心,其中,所述至少一组分块稀疏化的第一元素以N:M的分块结构化稀疏性布置,其中,N是整数。

4.根据权利要求3所述的加速器核心,其中,所述N:M的分块结构化稀疏性包括2:4的分块结构化稀疏性。

5.根据权利要求1所述的加速器核心,还包括至少一个第二缓冲器,每个相应的第二缓冲器与对应的一组PE相关联。

<p>6.根据权利要求...

【技术特征摘要】

1.一种加速器核心,包括:

2.根据权利要求1所述的加速器核心,其中,所述块大小(k,c)包括(1,4)、(2,1)、(2,2)、(4,1)、(2,4)、(4,4)和(8,1)之一。

3.根据权利要求1所述的加速器核心,其中,所述至少一组分块稀疏化的第一元素以n:m的分块结构化稀疏性布置,其中,n是整数。

4.根据权利要求3所述的加速器核心,其中,所述n:m的分块结构化稀疏性包括2:4的分块结构化稀疏性。

5.根据权利要求1所述的加速器核心,还包括至少一个第二缓冲器,每个相应的第二缓冲器与对应的一组pe相关联。

6.根据权利要求5所述的加速器核心,其中,每个相应的第二缓冲器向与所述第二缓冲器相对应的一组pe中的所述k个pe广播第二元素。

7.根据权利要求1所述的加速器核心,其中,每个pe生成由所述pe接收的所述第一元素和所述第二元素的点积。

8.根据权利要求7所述的加速器核心,其中,所述第一元素包括权重元素,并且所述第二元素包括激活元素。

9.一种加速器核心,包括:

10.根据权利要求9所述的加速器核心,其中,所述块大小(k,c)包括(1,4)、(2,1)、(2,2)、(4,1)、(2,4)、(4,4)和(8,1)之一。

11.根据权利要求9所述的加速...

【专利技术属性】
技术研发人员:H·阿卜杜勒阿齐兹J·哈苏恩
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1