【技术实现步骤摘要】
一种卷积网络加速器、配置方法及计算机可读存储介质
本专利技术属于卷积网络的硬件加速
,尤其涉及一种卷积网络加速器、配置方法及计算机可读存储介质。
技术介绍
目前,随着深度学习技术的发展,卷积神经网络越来越广泛地应用于计算机视觉如目标检测识别、跟踪、语义分割等和语音识别及自然语言处理等领域,其突出的数据拟合性能和模型的通用性,让卷积神经网络在各种复杂场景领域的应用代替了原本的传统建模方法,成为了该领域的标杆。但同时,强大的数据拟合能力是以庞大的数据量和计算量为代价的,例如,AlexNet的模型大小为233MB,计算量为0.7GFLOPs;VGG-16的模型大小为528MB,计算量为15.5GFLOPs。当今主流的深度学习硬件平台为一些大吞吐率强计算能力的GPU平台,GPU平台可以在满足计算量的同时满足可灵活配置不同的网络结构,能作为深度学习的训练平台和云端学习平台,但是在需要使用嵌入式设备作为主要平台需要考虑平台的体积和功耗的应用场景,GPU平台不具有优势。同时作为嵌入式平台的主流芯片类型如ARM架构等来说,其吞 ...
【技术保护点】
1.一种卷积网络加速器配置方法,其特征在于,所述卷积网络加速器配置方法包括:/n步骤一,通过标志判断当前执行的前向网络层在整体网络模型所在的层数,获得当前执行的前向网络层配置参数;/n步骤二,通过所述前向网络层配置参数从DDR加载特征图和权重参数;同时,卷积层的加速核还根据获得执行的前向网络层配置参数配置并行度。/n
【技术特征摘要】
1.一种卷积网络加速器配置方法,其特征在于,所述卷积网络加速器配置方法包括:
步骤一,通过标志判断当前执行的前向网络层在整体网络模型所在的层数,获得当前执行的前向网络层配置参数;
步骤二,通过所述前向网络层配置参数从DDR加载特征图和权重参数;同时,卷积层的加速核还根据获得执行的前向网络层配置参数配置并行度。
2.如权利要求1所述的卷积网络加速器配置方法,其特征在于,所述步骤一的前向网络层配置参数包括:
输入输出特征图的长、宽、通道数;
卷积核的长、宽、通道数;
卷积和池化操作的步长。
3.如权利要求1所述的卷积网络加速器配置方法,其特征在于,所述步骤二中,DDR加载特征图和权重参数方法包括单维度分块加载,将特征图和权重参数分割至仅剩一维方向,并根据分块后的特征图和权重,将卷积运算转换为两种硬件结构;
第一种,利用累加树减少加法的计算时间,将原本加法计算的时间复杂度由O(n)降为O(log2n);
第二种,使用脉动阵列优化FPGA的综合结果,同时使卷积加速核的数据加载和数据计算进行流水操作。
4.如权利要求1所述的卷积网络加速器配置方法,其特征在于,所述步骤二中,DDR加载特征图和权重参数方法进一步包括分批加载,令卷积加速核的并行度为N×M,加载特征图和权重参数的缓存量为N×M的整数倍;从输入特征图的长C、输入特征图的宽R、输入特征图的通道数CHin、输出特征图的通道数CHout分块,分割后的输入特征图的长为TC、输入特征图的宽为TR、输入特征图的通道数为TCHin、输出特征图的通道数为TCHout;
所述TC、TR、TCHin、TCHout满足
其中NDSP为片内乘法器数量,NBRAM为片内blockRAM容量,单位为bit,BWDDR为DDR及其控制器带宽,单位为bit/s,fFPGA为FPGA的工作频率,单位为Hz,Qn为量化比特数,NOTFmap为输出特征图缓存容量,单位为bit。
5.如权利要求4所述的卷积网络加速器配置方法,其特征在于,输入特征图的长C、输入特征图的宽R、输入特征图的通道数CHin、输出特征图的通道数CHout分割方法包括:
TCHin=N、TCHout=M,卷积加速核的输入是尺寸为1×1×N的特征图、1×1×M的卷积核参数,卷积加速核数据加载模块从TC×TR×...
【专利技术属性】
技术研发人员:钟胜,卢金仪,颜露新,王建辉,徐文辉,颜章,唐维伟,李志敏,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。