【技术实现步骤摘要】
基于PYNQ的YOLOv4
‑
tiny神经网络加速器及加速方法
[0001]本专利技术涉及硬件加速
,具体涉及基于PYNQ的YOLOv4
‑
tiny神经网络加速器及加速方法。
技术介绍
[0002]随着人工智能技术的日益成熟,卷积神经网络的应用范围逐步扩大。越来越多的场景需要在终端设备上进行AI算法的部署,但是,由于深度学习算法的高并行度和大规模的计算,限制了算法的部署,因此实时性高、算力低功耗的硬件加速器成为了研究热点。
[0003]目前现有的方案是ASIC芯片作为终端的npu处理器,但是成本巨大,限制了应用。针对该问题,余奇提出了基于指令控制的卷积神经网络加速器,(余奇.基于FPGA的深度学习加速器设计与实现[D].安徽:中国科学技术大学,2016.),通过对操作进行指令编码,设计API接口的加速器,但是基于指令开发的加速器,需要针对应用开发系列指令集,指令集的开发周期长,学习成本大,不利于开发人员快速上手。陈辰,严伟,夏珺,等人提出了基于异构平台的卷积神经网络加速器(陈辰,严伟,夏珺,等.基于FPGA的深度学习目标检测系统的设计与实现[J].电子技术应用,2019,45(8):40
‑
43,47.DOI:10.16157/j.issn.0258
‑
7998.190318.),通过对所设计的电路进行IP封装,使用基于IP的block design的方式,通过软件来实现调度,但是该方法只能对结构化的算法层进行加速,如:卷积层、池化 ...
【技术保护点】
【技术特征摘要】
1.基于PYNQ的YOLOv4
‑
tiny神经网络加速器,其特征在于,将YOLOv4
‑
tiny神经网络部署在PYNQ开发平台上,所述的PYNQ开发平台包括处理器系统PS端、AXI总线互联模块、DDR存储器、可编程逻辑PL端;所述的处理器系统PS端包括:ARM内核:从上位机获取待处理数据集的权重数据和特征数据;将待处理数据集的权重数据和特征数据存入DDR存储器中;配置和调度可编程逻辑PL端中的寄存器组;将运算结果传输给上位机;所述的AXI总线互联模块:完成处理器系统PS端的ARM内核对可编程逻辑PL端中寄存器组的配置;处理器系统PS端和可编程逻辑PL端之间的数据传输,是处理器系统PS端和可编程逻辑PL端的互联总线,包括AXI4总线和AXI
‑
lite协议;所述的DDR存储器:按照数据格式储存从上位机获取的待处理数据集的权重数据和特征数据;储存计算模块的运算结果;所述的可编程逻辑PL端,包括:寄存器组:用于通过AXI
‑
lite协议解析配置包,根据配置包信息将配置数据路由到计算模块中;内存读写接口MCIF:用于请求仲裁和协议转换,是计算模块与DDR存储器之间数据交换的接口通道;计算模块:对待处理数据集的权重数据和特征数据进行运算。2.根据权利要求1所述的基于PYNQ的YOLOv4
‑
tiny神经网络加速器,其特征在于,所述的计算模块具体包括:卷积运算通路:对权重数据和特征数据完成卷积网络中的卷积运算;协助运算通路:用于卷积神经网络非卷积外的辅助运算;池化运算通路:对特征数据进行池化运算。3.根据权利要求2所述的基于PYNQ的YOLOv4
‑
tiny神经网络加速器,其特征在于,所述的卷积运算通路具体包括:DMA1:用于与内存读写接口MCIF进行数据传输,并解析片上缓存区CBUF的请求包,根据解析结果执行片上缓存区CBUF内特征数据和权重数据的读写;片上缓存区CBUF:用于缓存从DMA1中输入的特征数据和权重数据;DMA2:用于控制数据流的调度;乘加PE阵列:对输入的特征数据和权重数据执行乘加运算。4.根据权利要求2所述的基于PYNQ的YOLOv4
‑
tiny神经网络加速器,其特征在于,所述的协助运算通路具体包括:通道运算通路:对特征数据和权重数据进行加减或放缩;单数据运算通路:对特征尺寸上多维数据的运算;激活函数单元:对卷积通路的计算结果进行激活函数的运算,实现数据的归一化处理;旁路开关:用于选择卷积运算结果是否进行通道运算、单数据运算或激活函数操作。5.根据权利要求2所述的基于PYNQ的YOLOv4
‑
tiny神经网络加速器,其特征在于,所述的池化运算通路具体包括:读数据控制模块rdma:用于组建地址读命令包向内存读写接口MCIF发...
【专利技术属性】
技术研发人员:王树龙,曹宪法,刘伯航,李宇航,陈栋梁,李嘉睿,潘锦斌,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。