【技术实现步骤摘要】
本文公开的主题涉及深度神经网络(deep neural network,dnn)。更具体地,本文公开的主题涉及软件和硬件协同设计技术,其引入并利用dnn层中的稀疏性来高效地加速dnn的计算。
技术介绍
1、神经处理单元(neural processing unit,npu)用于加速诸如卷积神经网络(convolution neural network,cnn)的深度学习算法的计算。卷积层计算基于在输入张量(也称为输入特征图)上滑动卷积核。使用不同的核对多个输入进行卷积,以产生多个输出张量(也称为输出特征图)。在每个核位置处,计算基本上是输入像素和所有输入维度中的核权重的点积。剪枝方法目的是在可以被跳过的权重(即,零值)中引入稀疏性,这帮助降低计算复杂度以及降低存储器大小要求。权重值中的稀疏性可以是细粒度的,或者可以是粗粒度的。细粒度稀疏性可以实现高稀疏性比率,但是可能不是硬件友好的。
技术实现思路
1、示例实施例提供了一种加速器核心,该加速器核心可以包括第一缓冲器、第二缓冲器和至少两组k个
...【技术保护点】
1.一种加速器核心,包括:
2.根据权利要求1所述的加速器核心,其中,所述块大小(k,c)包括(1,4)、(2,1)、(2,2)、(4,1)、(2,4)、(4,4)和(8,1)之一。
3.根据权利要求1所述的加速器核心,其中,所述至少一组分块稀疏化的第一元素以N:M的分块结构化稀疏性布置,其中,N是整数。
4.根据权利要求3所述的加速器核心,其中,所述N:M的分块结构化稀疏性包括2:4的分块结构化稀疏性。
5.根据权利要求1所述的加速器核心,还包括至少一个第二缓冲器,每个相应的第二缓冲器与对应的一组PE相关联。
< ...【技术特征摘要】
1.一种加速器核心,包括:
2.根据权利要求1所述的加速器核心,其中,所述块大小(k,c)包括(1,4)、(2,1)、(2,2)、(4,1)、(2,4)、(4,4)和(8,1)之一。
3.根据权利要求1所述的加速器核心,其中,所述至少一组分块稀疏化的第一元素以n:m的分块结构化稀疏性布置,其中,n是整数。
4.根据权利要求3所述的加速器核心,其中,所述n:m的分块结构化稀疏性包括2:4的分块结构化稀疏性。
5.根据权利要求1所述的加速器核心,还包括至少一个第二缓冲器,每个相应的第二缓冲器与对应的一组pe相关联。
6.根据权利要求5所述的加速器核心,其中,每个相应的第二缓冲器向与所述第二缓冲器相对应的一组pe中的所述k个pe广播第二元素。
7.根据权利要求1所述的加速器核心,其中,每个pe生成由所述pe接收的所述第一元素和所述第二元素的点积。
8.根据权利要求7所述的加速器核心,其中,所述第一元素包括权重元素,并且所述第二元素包括激活元素。
9.一种加速器核心,包括:
10.根据权利要求9所述的加速器核心,其中,所述块大小(k,c)包括(1,4)、(2,1)、(2,2)、(4,1)、(2,4)、(4,4)和(8,1)之一。
11.根据权利要求9所述的加速...
【专利技术属性】
技术研发人员:H·阿卜杜勒阿齐兹,J·哈苏恩,
申请(专利权)人:三星电子株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。