【技术实现步骤摘要】
基于Transformer神经网络的模型压缩方法、矩阵乘法模块
[0001]本申请涉及神经网络
,尤其涉及基于Transformer神经网络的模型压缩方法、矩阵乘法模块。
技术介绍
[0002]Transformer神经网络已经被广泛应用于各种任务中,如自然语言处理、图像处理等,但由于其计算量和模型参数量的问题,导致其具有内存占用大、功耗较高的缺点,这限制了Transformer神经网络在嵌入式设备上的应用。
[0003]为了能够压缩模型大小,目前常用的方法是进行权重剪枝,将权重矩阵中不重要的参数设置为0,然后通过稀疏矩阵对非零权重元素进行存储。但是经过剪枝之后,尽管模型本身得到了压缩,在应用中由于压缩带来的负载不均衡问题,实际的计算效率并没有得到很大的提升。这是由于剪枝之后,随机稀疏导致权重矩阵中,零元素分布位置完全随机,这种情况下,若将两个随机稀疏的权重并行计算,因为非零权重元素的数量不等,导致有效计算量不等,通过常用的能够跳过非零权重元素的计算架构对这两个权重矩阵并行计算时,两个并行矩阵的计算时间不等,导 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer神经网络的模型压缩方法,其特征在于,包括:获取原始权重矩阵;根据预设的第一参数,对所述原始权重矩阵中的每行权重进行分组,得到多个权重组,其中,每个权重组中所包含的元素数量与所述第一参数的值相等,所述第一参数的值小于所述原始权重矩阵的列数;根据预设的第二参数,对每个权重组进行剪枝,所述第二参数用于限定每个权重组的剪枝结果中所包含的非零权重元素个数,所述第二参数的值小于所述第一参数的值;获取非零权重矩阵以及二进制掩膜,所述非零权重矩阵包括每个权重组剪枝结果中的非零权重元素,所述二进制掩膜用于标识所述非零权重元素在对应权重组中的位置。2.根据权利要求1所述的基于Transformer神经网络的模型压缩方法,其特征在于,根据预设的第二参数,对每个权重组进行剪枝,包括:根据预设的第二参数,将目标权重组中的目标元素置零;所述目标元素为目标权重组中绝对值最小的目标数量的权重元素,所述目标权重组为任一个所述权重组,所述目标数量与所述第二参数的值相等。3.根据权利要求1或2所述的基于Transformer神经网络的模型压缩方法,其特征在于,所述第一参数的取值为2的幂数,且取值范围为[2,32]。4.一种基于Transformer神经网络的矩阵乘法模块,其特征在于,包括:多个并行脉动阵列;任一所述并行脉动阵列包括多个矩阵计算单元;任一所述矩阵计算单元包括:用于获取非零权重矩阵的权重输入端口、用于获取激活矩阵的激活输入端口、用于获取二进制掩膜的掩膜输入端口、中间结果输入端口、非零元素选择器、乘累加计算单元、多个多路复用器、多个寄存器、权重输出端口、激活输出端口、掩膜输出端口及中间结果输出端口;其中,所述非零权重矩阵包括每个权重组剪枝结果中的非零权重元素,所述二进制掩膜用于标识所述非零权重元素在对应权重组中的位置;所述乘累加计算单元包括乘法器和加法器;所述权重输入端口与所述掩膜输入端口均接至所述非零元素选择器的输入端,所述非零元素选择器的输...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。