【技术实现步骤摘要】
低比特量化神经网络加速器实现方法和系统
[0001]本专利技术涉及计算机视觉和FPGA神经网络加速器
,具体地,涉及一种低比特量化神经网络加速器实现方法和系统。
技术介绍
[0002]红外目标识别系统在军事和民用领域有着非常广泛的应用,如遥感探测、航空航天、目标监视等。在军事上,智能化红外目标识别跟踪系统已成为现阶段和未来武器系统的重要组成部分,是制导武器变得更加具有精确性和智能化的一个重要指标,也是成像制导和高分辨率武器设备中的一种关键技术。在民用领域,得益于信息时代下日益兴起的,基于大数据的机器学习的技术支持,红外目标识别跟踪也有着广泛的应用前景,已经是自主机器人、防碰撞车辆等智能化系统中起着重要作用的一项功能。因此,对智能化红外目标识别进行理论和应用研究,具有重大的理论和实际意义。
[0003]专利文献CN112561049A(申请号:CN202011539621.9)公开了一种基于忆阻器的DNN加速器的资源分配方法及装置,资源分配方法包括以下步骤:初始化待映射深度神经网络DNN中各层的量化位宽;增加DN ...
【技术保护点】
【技术特征摘要】
1.一种低比特量化神经网络加速器实现方法,其特征在于,包括:步骤1:获取红外数据集并对目标检测网络进行训练,通过反向传播对权重进行更新,最终得到全精度权重模型;步骤2:初始化量化区间,采用低比特进行训练,直到达到最大迭代次数或者网络收敛为止;步骤3:将神经网络的BN层与CNN层进行融合,得到低比特的权重参数以及量化因子;步骤4:进行加速器架构,采用双缓冲、窗口缓存的方式提高系统带宽,采用循环展开的方式对计算单元进行并行;步骤5:将加速器结构综合成IP核,并在Vivado中与其他相关模块互联,生成能够部署的比特流文件;步骤6:将测试图像输入到神经网络加速器中,得到测试输出并与真值进行比对,得到包括检测准确率和加速器峰值吞吐的指标。2.根据权利要求1所述的低比特量化神经网络加速器实现方法,其特征在于,所述步骤1包括:步骤1.1:对红外图像进行采集,并按照7:3的比例分为训练集和测试集;步骤1.2:将训练图片输入神经网络中,所述神经网络包括13层卷积、3
×
3的卷积核和1
×
1的卷积核;所述步骤2包括:步骤2.1:对权重W和偏置β进行通道级量化,得到W
q
和β
q
,表达式为:x
q
=α
·
21‑
k
·
q其中,q为在整数运算单元中参与计算的整数;α为缩放因子;k是量化位宽;步骤2.2:对输入特征图X
in
进行层级量化,得到步骤2.3:根据梯度的反向传播更新缩放因子α,表达式为:表达式为:步骤2.4:根据梯度下降方向更新权值,直到模型收敛。3.根据权利要求1所述的低比特量化神经网络加速器实现方法,其特征在于,所述步骤3包括:将固定的批归一化层看作卷积核尺寸为1
×
1的卷积层,得到融合后的权重W和融合后的偏置b,表达式为:W=W
BN
×
W
conv
b=W
BN
×
b
conv
+b
BN
其中,W
BN
为批归一化层的权重,W
conv
为卷积层的权重,b
BN
为批归一化层的偏置,b
conv
为卷积层的偏置。4.根据权利要求1所述的低比特量化神经网络加速器实现方法,其特征在于,所述步骤
4包括:步骤4.1:设计多维度并行卷积单元,对卷积运算的输出层维度进行展开,并进行流水线处理;步骤4.2:优化设计低比特乘加运算单元,将每个PE的结构设计为包含九个乘法器和一个由九个加法器组成的加法树,每个乘法器分别接受一个8比特输入和2比特的权重;步骤4.3:设计多维度并行卷积单元和行缓冲,并通过行缓冲存储输入特征值中的一个滑动窗口所处的行内数据;步骤4.4:将所有计算单元进行组合,采用双缓冲架构并行执行,同时进行读入DDR和写入DDR。5.根据权利要求1所述的低比特量化神经网络加速器实现方法,其特征在于,所述步骤5包括:步骤5.1:通过Vivado_hls将加速器综合成IP,并定义输入输出接口;步骤5.2:通过Vivado将加速器IP与处理器模块、时钟模块、复位模块互联,定义信号地址,最终综合生成比特流文件;所述步骤6包括:步骤6.1:通过写驱动将输入图片从CPU端加载到FPGA上,并调用FPGA神经网络加速器,统计检测结果和检测时间;步骤6.2:将检测结果与全精度检测结果对比,统计误差损失,同时计算加速器的吞吐量和功耗,评估加速器的性能。6.一种低比特量化神经网络加速器实...
【专利技术属性】
技术研发人员:魏浩,高子扬,陈海宝,
申请(专利权)人:芩交科上海企业管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。