【技术实现步骤摘要】
一种LSTM网络的压缩加速方法及FPGA加速器
本专利技术涉及计算机硬件加速领域,尤其涉及一种面向LSTM网络的压缩加速方法及FPGA加速器。
技术介绍
LSTM(LongShort-TermMemory)网络作为循环神经网络(RNN)的一个重要变种,现如今已经广泛应用于序列模型应用中,例如语音识别、机器翻译、字幕生成等。相对于原始的循环神经网络,LSTM网络通过引入多个门(包括遗忘门、输出门、输入门等)以及门之间的相互作用解决了长期依赖的问题。因此,LSTM网络拥有比传统循环神经网络更好的精度和适应性。现学术界针对LSTM网络的研究成井喷状。由于在LSTM网络基本神经单元中引入了多个门级,所以网络整体的时间复杂度和空间复杂度成倍的增加。在通用计算平台上直接执行LSTM这类计算密集型算法其能效比非常不理想。因此采用专用硬件加速电路加速是一个很好的解决途径。目前常用的硬件加速手段有GPU,FPGA和ASIC。在LSTM算法中,绝大多是矩阵运算和Element-Wise运算,对于这两种运算的处理,GPU有远超于CPU的性 ...
【技术保护点】
1.一种LSTM网络的压缩加速方法,其特征在于,包括以下步骤:/n步骤1),模型初始化,模型初始化后进行归一化操作,所有权值在0~1的范围内服从正太分布;/n步骤2),使用原始权值矩阵的部分参数构造分块的Toeplitz矩阵去代替原始矩阵。除此之外,激活函数采用分段线性近似的方法,接着进行训练至网络收敛;/n步骤3),对训练后的网络进行分组量化,接着分组训练至收敛;/n步骤4),对量化后的网络进行轻微的剪切操作,最后训练至收敛,得到最终压缩后的网络。/n
【技术特征摘要】
1.一种LSTM网络的压缩加速方法,其特征在于,包括以下步骤:
步骤1),模型初始化,模型初始化后进行归一化操作,所有权值在0~1的范围内服从正太分布;
步骤2),使用原始权值矩阵的部分参数构造分块的Toeplitz矩阵去代替原始矩阵。除此之外,激活函数采用分段线性近似的方法,接着进行训练至网络收敛;
步骤3),对训练后的网络进行分组量化,接着分组训练至收敛;
步骤4),对量化后的网络进行轻微的剪切操作,最后训练至收敛,得到最终压缩后的网络。
2.根据权利要求所述的一种LSTM网络的压缩加速方法,其特征在于,所述的分组量化包括均匀...
【专利技术属性】
技术研发人员:刘伟强,南国才,王成华,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。