本发明专利技术提供了一种卷积神经网络加速器的数据回写系统,包括输入缓存模块、N级写回节点和写回控制模块,所述输入缓存模块用于与计算单元连接,以接收数据,最上一级所述写回节点与所述输入缓存模块连接,一个下一级所述写回节点至少与两个上一级所述写回节点连接,N为大于1的自然数,所述写回控制模块与最下一级所述写回节点连接,以从最下一级所述写回节点接收数据并传输给总线。所述卷积神经网络加速器的数据回写系统中,包括N级写回节点,最上一级所述写回节点与所述输入缓存模块连接,一个下一级所述写回节点至少与两个上一级所述写回节点连接,N为大于1的自然数,树状结构将写回节点分级,从而能够提高数据回写的传输效率。
【技术实现步骤摘要】
卷积神经网络加速器的数据回写系统
本专利技术涉及深度学习
,尤其涉及一种卷积神经网络加速器的数据回写系统。
技术介绍
现有技术中,云端现场可编程门阵列(FieldProgrammableGateArray,FPGA)与边缘端设备相比可以提供大量逻辑和内存资源,但运行在云端的神经网络模型往往比较庞大,在运行的过程中会产生大量的中间结果,而FPGA平台上的片上随机存取存储器(RandomAccessMemory,RAM)资源往往无法缓存所有的数据,因此需要将数据传输到片外存储器上,但现有技术中无法满足并发数据高吞吐率的传输需求,数据传输效率较低。因此,有必要提供一种新型的卷积神经网络加速器的数据回写系统以解决现有技术中存在的上述问题。
技术实现思路
本专利技术的目的在于提供一种卷积神经网络加速器的数据回写系统,提高卷积神经网络加速器数据回写的传输效率。为实现上述目的,本专利技术的所述卷积神经网络加速器的数据回写系统,包括:输入缓存模块,用于与计算单元连接,以接收数据;N级写回节点,最上一级所述写回节点与所述输入缓存模块连接,一个下一级所述写回节点至少与两个上一级所述写回节点连接,N为大于1的自然数;写回控制模块,与最下一级所述写回节点连接,以从最下一级所述写回节点接收数据并传输给总线。所述卷积神经网络加速器的数据回写系统的有益效果在于:包括N级写回节点,最上一级所述写回节点与所述输入缓存模块连接,一个下一级所述写回节点至少与两个上一级所述写回节点连接,N为大于1的自然数,树状结构将写回节点分级,从而能够提高数据回写的传输效率。优选地,所述写回节点包括第一输出缓存单元、选择单元和至少两个接收缓存单元,所述接收缓存单元的输出端与所述选择单元的输入端连接,所述选择单元的输出端与所述第一输出缓存单元的输入端连接。其有益效果在于:写回节点标准化设计,接口简单易用、易移植。进一步优选地,上一级所述写回节点的数量与下一级所述写回节点的接收缓存单元的数量相适配。其有益效果在于:避免下一级所述写回节点的接收缓存单元浪费。进一步优选地,所述写回控制模块包括地址映射单元,所述写回控制模块从最下一级所述写回节点接收的数据包括计算单元地址信息和计算结果数据,所述地址映射单元根据所述计算地址信息和起始地址信息计算写回地址。进一步优先地,所述写回节点还包括仲裁单元和缓存管理单元,所述仲裁单元与所述选择单元连接,所述缓存管理单元分别与所述接收缓存单元和所述第一输出缓存单元连接。其有益效果在于:能够有效避免数据传输过程中发生冲突。进一步优选地,所述接收缓存单元包括相互连接的第一缓存状态单元和第一数据缓存单元,所述第一缓存状态单元与所述缓存管理单元连接。其有益效果在于:便于判断所述第一数据缓存单元内是否存在数据。进一步优选地,所述第一输出缓存单元包括相互连接的第二缓存状态单元和第二数据缓存单元,所述第二缓存状态单元与所述缓存管理单元连接。其有益效果在于:便于判断所述第二数据缓存单元内是否存在数据。进一步优选地,相互连接的所述写回节点的缓存管理单元相互连接。其有益效果在于:避免产生数据冲突。进一步优选地,所述输入缓存模块包括输入缓存单元,所述输入缓存单元的数量与最上一级所述写回节点的接收缓存单元的数量相适配。其有益效果在于:避免最上一级所述写回节点的接收缓存单元的浪费。进一步优选地,所述输入缓存单元包括缓存控制单元、第三数据缓存单元和第二输出缓存单元,所述缓存控制单元分别与所述计算单元、所述第三数据缓存单元以及相对应的所述回写单元的缓存管理单元连接,所述第三数据缓存单元和所述第二输出缓存单元连接。优选地,最下一级所述写回节点的数量为1。其有益效果在于:能够保证同一时刻仅向总线传输一个数据,避免数据传输出现冲突。附图说明图1为本专利技术一些实施例中仲裁单元的结构框图;图2为本专利技术一些实施例中接收缓存单元的结构框图;图3为本专利技术一些实施例中第一输出缓存单元的结构框图;图4为本专利技术一些实施例中输入缓存单元的结构框图;图5为本专利技术一些具体实施例中卷积神经网络加速器的数据回写系统的结构框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另外定义,此处使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。针对现有技术存在的问题,本专利技术的实施例提供了一种卷积神经网络加速器的数据回写系统,基于云端现场可编程门阵列(FieldProgrammableGateArray,FPGA),所述卷积神经网络加速器的数据回写系统包括输入缓存模块、N级写回节点和写回控制模块,所述输入缓存模块用于与计算单元连接,以接收数据;最上一级所述写回节点与所述输入缓存模块连接,一个下一级所述写回节点至少与两个上一级所述写回节点连接,N为大于1的自然数;写回控制模块与最下一级所述写回节点连接,以从最下一级所述写回节点接收数据并传输给总线。优选地,最下一级所述写回节点的数量为1。一些实施例中,所述写回节点包括第一输出缓存单元、选择单元、仲裁单元、缓存管理单元和至少两个接收缓存单元,所述接收缓存单元的输出端与所述选择单元的输入端连接,所述选择单元的输出端与所述第一输出缓存单元的输入端连接,所述仲裁单元与所述选择单元连接,所述缓存管理单元分别与所述接收缓存单元和所述第一输出缓存单元连接。具体地,所述仲裁单元为移位寄存器,所述移位寄存器的位至少为2。图1为本专利技术一些实施例中仲裁单元的结构框图。参照图1,所述仲裁单元212包括移位寄存器,所述移位寄存器的位数与与其相连接的所述接收缓存单元的数量相同,例如,与所述仲裁单元212连接的所述接收缓存单元内的数量为4,则所述移位寄存器包括4个位,分别为第一位2121、第二位2122、第三位2123和第四位2124。工作原理以右移位为例,第一时钟周期所述第一位2121为1,所述第二位2122为0,所述第三位2123为0,所述第四位2124为0,第二时钟周期所述第一位2121为0,所述第二位21222为1,所述第三位2123为0,所述第四位2124为0;第三时钟周期所述第一位2121为0,所述第二位2122为0,所述第三位2123为1,所述第四位2124为0;第四时钟周期所述第一位2121为0,所述第二位2122为0,所述第三位2123为0,所述第四位2124为1;且四个时钟周期为一个循环。左移位和所述右移位的原理相同,在此不再详细赘述。图2为本文档来自技高网...
【技术保护点】
1.一种卷积神经网络加速器的数据回写系统,其特征在于,包括:/n输入缓存模块,用于与计算单元连接,以接收数据;/nN级写回节点,最上一级所述写回节点与所述输入缓存模块连接,一个下一级所述写回节点至少与两个上一级所述写回节点连接,N为大于1的自然数;/n写回控制模块,与最下一级所述写回节点连接,以从最下一级所述写回节点接收数据并传输给总线。/n
【技术特征摘要】
1.一种卷积神经网络加速器的数据回写系统,其特征在于,包括:
输入缓存模块,用于与计算单元连接,以接收数据;
N级写回节点,最上一级所述写回节点与所述输入缓存模块连接,一个下一级所述写回节点至少与两个上一级所述写回节点连接,N为大于1的自然数;
写回控制模块,与最下一级所述写回节点连接,以从最下一级所述写回节点接收数据并传输给总线。
2.根据权利要求1所述的卷积神经网络加速器的数据回写系统,其特征在于,所述写回节点包括第一输出缓存单元、选择单元和至少两个接收缓存单元,所述接收缓存单元的输出端与所述选择单元的输入端连接,所述选择单元的输出端与所述第一输出缓存单元的输入端连接。
3.根据权利要求2所述的卷积神经网络加速器的数据回写系统,其特征在于,上一级所述写回节点的数量与下一级所述写回节点的接收缓存单元的数量相适配。
4.根据权利要求2所述的卷积神经网络加速器的数据回写系统,其特征在于,所述写回控制模块包括地址映射单元,所述写回控制模块从最下一级所述写回节点接收的数据包括计算单元地址信息和计算结果数据,所述地址映射单元根据所述计算地址信息和起始地址信息计算写回地址。
5.根据权利要求2所述的卷积神经网络加速器的数据回写系统,其特征在于,所述写回节点还包括仲裁单元和缓存管理单元,所述仲裁单元与所述选择单元连接,所述缓存管理单元分别与...
【专利技术属性】
技术研发人员:王天一,边立剑,
申请(专利权)人:上海安路信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。