当前位置: 首页 > 专利查询>上海大学专利>正文

基于FPGA的神经网络数据量化实现方法及系统技术方案

技术编号:43002972 阅读:39 留言:0更新日期:2024-10-18 17:11
一种基于FPGA的神经网络数据量化实现方法及系统,通过对待压缩神经网络模型进行预训练以确定量化范围,根据确定的范围进行非对称逐通道量化后将层间的反量化结果与量化结果合并,再将比例因子和零点值融合,以节省大量浮点运算,得到通道的每个量化激活值,最后进行融合批次归一化的卷积处理得到压缩后的神经网络推理过程中的定点权重、定点激活值和定点偏置,用于部署在FPGA上实现全定点推理流程。本发明专利技术在8比特的权重和激活值量化下实现定点推理,FPGA中仅仅需要读取python平台输出的定点格式输出特征图和定点权重,节省流水线操作的同时,在ImageNet上训练的ResNet50模型手动量化后准确率达到70.41%,满足实际部署需要。

【技术实现步骤摘要】

本专利技术涉及的是一种神经网络领域的技术,具体是一种基于fpga的神经网络数据量化实现方法及系统。


技术介绍

1、在深度学习的背景下,卷积神经网络在主流中央处理器或者图形处理器中是以32位浮点数的数据格式保存和计算的,然而在卷积神经网络推理过程中,当将32位全精度参数全部用8比特整数表示,那模型大小将会直观地缩小4倍,同时8比特整数相乘将比32位浮点乘法功耗降低18.5倍。模型量化就是以更少的数据位宽来表示网络参数的模型压缩方法,具有压缩参数、提升速度、降低内存占用的效果。但是量化模型很难直接在fpga端部署,可行性取决于硬件提供高效的量化计算指令、针对体系结构精细的优化、不同结构优化方案、系统和算法协同设计等。现有基于神经网络卷积层的量化加速技术通过分别在乘累加计算后设置逐通道乘法计算和逐通道加法计算,但现有技术仍然单独存在缩放因子和零值,并提供给流水线进行矩阵乘法,而这一步需要使用大量乘法器阵列进行计算,其实现所需资源较高。


技术实现思路

1、本专利技术针对现有技术存在的上述不足,提出一种基于fpga的神本文档来自技高网...

【技术保护点】

1.一种基于FPGA的神经网络数据量化实现方法,其特征在于,通过对待压缩神经网络模型进行预训练以确定量化范围,根据确定的范围进行非对称逐通道量化后将层间的反量化结果与量化结果合并,再将比例因子和零点值融合,以节省大量浮点运算,得到通道的每个量化激活值,最后进行融合批次归一化的卷积处理得到压缩后的神经网络推理过程中的定点权重、定点激活值和定点偏置,用于部署在FPGA上实现全定点推理流程。

2.根据权利要求1所述的基于FPGA的神经网络数据量化实现方法,其特征是,具体包括:

3.一种实现权利要求1或2所述基于FPGA的神经网络数据量化实现方法的系统,其特征在于,包括:...

【技术特征摘要】

1.一种基于fpga的神经网络数据量化实现方法,其特征在于,通过对待压缩神经网络模型进行预训练以确定量化范围,根据确定的范围进行非对称逐通道量化后将层间的反量化结果与量化结果合并,再将比例因子和零点值融合,以节省大量浮点运算,得到通道的每个量化激活值,最后进行融合批次归一化的卷积处理得到压缩后的神经网络推理过程中的定点权重、定点激活值和定点偏置,用于部署在fpga上实现全定点推理流程。

2.根据权利要求1所述的基于fpga的神经网络数据量化实现方法,其特征是,具体包括:

3.一种实现权利要求1或2所述基于fpga的神经网络数据量化实现方法的系统,其特征在于,包括:非对称逐通道量化模块、量化反量化融合模块、比例因子和零点值融合模块和批次归一化融合模块,其中:非对称逐通道量化模块引入对应的量化比例因子和非零的零点量化值,对权重和激活值进行非对称量化并采用直接截位的方式取整得到非对称量化结果;量化反量化融合模块引入反量化比例因子,进行融合处理,将这两个比例因子相乘以互相抵消,得到简洁推理算子;比例因子和零点值融合模块在量化反量化融合基础上,通过过滤器的权重之和与新的权重相乘以融合卷积量化过程中的比例因子进行前向推理的量化算子简化,用更简洁的计算方式推导出卷积核乘加过程中的偏置,得到输出通道的每个激活值;批次归一化融合模块根据训练过程中统计出的均值和方差,进行和卷积层的融合操作,将32位浮点格式的均值和方差融入卷积操作,得到卷积再经过批次归一化后的定点量化值。

4.根据权利要求3所述的系统,其特征是,所述...

【专利技术属性】
技术研发人员:孙琪茗曹姗李杉姜之源
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1