一种带宽自适应的数据传输的卷积神经网络加速计算系统技术方案

技术编号:36848084 阅读:8 留言:0更新日期:2023-03-15 16:49
本发明专利技术涉及一种带宽自适应的数据传输的卷积神经网络加速计算系统,包括卷积神经网络加速器,用于执行具体的数据计算;以及带宽自适应数据传输装置,设置在所述卷积神经网络加速器和外部存储装置之间,感知卷积神经网络加速器的数据消耗和生成速率、感知外部存储装置带宽的占用情况;根据感知数据确定卷积神经网络加速器和所述外部存储装置之间的数据传输策略;所述带宽自适应数据传输装置包括数据加载模块和数据卸载模块。通过上述结构可动态适应片外存储带宽,可大幅提升数据传输的连续性,从而有效提升卷积神经网络加速器的片外数据传输带宽。据传输带宽。据传输带宽。

【技术实现步骤摘要】
一种带宽自适应的数据传输的卷积神经网络加速计算系统


[0001]本专利技术属于专用算法硬件电路设计领域,特别涉及一种带宽自适应的数据传输的卷积神经网络加速计算系统。

技术介绍

[0002]以卷积神经网络(Convolutional Neural Network,CNN)为代表的深度学习算法在图像分类、目标检测等领域的性能不断提高。其海量的计算和存储,催生了很多基于ASIC或FPGA的深度学习处理器或是更专用的CNN加速器。
[0003]CNN加速器的性能主要受限于片外存储带宽上限和片上计算资源上限,但由于存储技术的发展速度长期滞后于处理器技术,前者往往是限制CNN加速器性能的主要因素。
[0004]以计算CNN的单个卷积层为例,需要多次读写输入特征数据、权重偏置数据和输出特征数据,这些读写操作通常具有很强的突发性和聚集性,很容易造成片外存储带宽时而阻塞、时而空闲,导致有限的带宽未得到充分利用,从而拖慢系统的整体性能。

技术实现思路

[0005]本专利技术正是基于现有技术的上述需求而提出的,本专利技术要解决的技术问题是提供一种带宽自适应的数据传输的卷积神经网络加速计算系统,以解决卷积神经网络加速计算系统中片外存储带宽利用效率不高的问题。
[0006]为了解决上述问题,本专利技术提供的技术方案包括:
[0007]一种带宽自适应的数据传输的卷积神经网络加速计算系统,其特征在于,包括卷积神经网络加速器,用于执行具体的数据计算;以及带宽自适应数据传输装置,设置在所述卷积神经网络加速器和外部存储装置之间,感知卷积神经网络加速器的数据消耗并生成速率、感知外部存储装置带宽的占用情况;根据感知数据确定卷积神经网络加速器和所述外部存储装置之间的数据传输策略;所述带宽自适应数据传输装置包括:数据加载模块,用于将片外外部存储单元中指定位置的数据加载至卷积神经网络加速器;数据卸载模块用于将卷积神经网络加速器计算产生的数据卸载至外部存储单元的指定位置。
[0008]优选地,所述卷积神经网络加速器和所述带宽自适应数据传输装置之间采用FIFO数据接口连接;所述卷积神经网络加速器和外部存储装置之间采用AXI数据接口连接。
[0009]优选地,所述卷积神经网络加速器,包括:计算单元,用于执行具体的数据计算;片上缓存单元,用于从外部存储装置获取用于计算的数据;寄存器组,设置在所述片上缓存单元和所述计算单元之间,寄存用于计算的数据。
[0010]优选地,所述数据加载单元包括:指令配置模块,从外部主控接收控制指令,将指令信息解析、运算之后生成各个其它模块的配置信息;地址自动生成模块,根据指令模块的配置信息生成指导驱动模块从外部存储单元读取数据块的地址信息;数据感知模块根据指令配置模块的配置信息,感知所述带宽自适应数据传输单元与卷积神经网络加速器以及外部存储单元之间的数据通道中的数据变化情况;自动插值模块,接收来自外部存储单元的
数据,并根据所述指令配置模块生成的配置信息将预定数值插入数据流的预定位置;数据驱动模块,根据指令配置模块的配置信息,驱动数据接口传输数据;当驱动模块接收到数据后,判断卷积神经网络加速器与带宽自适应数据传输单元之间的通信线路的FULL信号状态,在所述FULL信号不为高时,将插入预定数值的数据流输送至所述卷积神经网络加速器。
[0011]优选地,所述数据卸载单元包括:指令配置模块,从外部主控接收控制指令,将指令信息解析、运算之后生成各个其它模块的配置信息;地址自动生成模块,根据指令模块的配置信息生成指导驱动模块从外部存储单元读取数据块的地址信息;数据感知模块根据指令配置模块的配置信息,感知所述带宽自适应数据传输单元与卷积神经网络加速器以及外部存储单元之间的数据通道中的数据变化情况;数据驱动模块,根据指令配置模块的配置信息,驱动数据接口传输数据。
[0012]优选地,所述加载单元的所述数据驱动模块包括AXI数据感知模块,根据指令配置模块的配置信息感知AXI总线上数据传输带宽占用情况,并告知AXI驱动模块;在数据加载模式下,检测AXI总线RVALID信号的占空比D
R
,以及占空比的变化速率。
[0013]优选地,所述卸载单元的所述数据驱动模块包括AXI数据感知模块,根据指令配置模块的配置信息感知AXI总线上数据传输带宽占用情况,并告知AXI驱动模块;在数据卸载模式下,该模块检测AXI总线WREADY信号的占空比D
W
,以及占空比的变化速率。
[0014]优选地,所述加载单元的所述数据感知模块包括:AXI数据感知模块,根据指令配置模块的配置信息,感知AXI总线上数据传输带宽占用情况,并告知AXI驱动模块;在数据加载模式下,检测AXI总线RVALID信号的占空比D
R
,以及占空比的变化速率;FIFO数据感知模块根据指令配置模块的配置信息,感知FIFO中数据的变化情况,并告知数据AXI驱动模块和FIFO驱动模块;在数据加载模式下,感知FIFO的占空率F
e
及占空率的变化速率。
[0015]优选地,所述卸载单元的所述数据感知模块包括:AXI数据感知模块,根据指令配置模块的配置信息,感知AXI总线上数据传输带宽占用情况,并告知AXI驱动模块;在数据卸载模式下,检测AXI总线WREADY信号的占空比D
W
,以及占空比的变化速率;FIFO数据感知模块根据指令配置模块的配置信息,感知FIFO中数据的变化情况,并告知数据AXI驱动模块和FIFO驱动模块;在数据卸载模式下,感知FIFO的占用率F
f
,及占空率的变化速率。
[0016]优选地,所述外部存储装置包括DDR。
[0017]通过感知CNN加速器的数据消耗(生成)速率、感知片外存储带宽的占用情况、提高数据传输连续性等手段,提升卷积神经网络加速器的片外数据传输效率。此外,数据传输模块通过自动插值提高计算连续性,可降低卷积神经网络加速器计算单元的首次延时带来的效率损失。
附图说明
[0018]图1是本具体实施方式中卷积神经网络加速计算系统的结构图;
[0019]图2是本具体实施方式中数据加载单元的结构图;
[0020]图3是本具体实施方式中数据卸载单元的结构图;
[0021]图4是卷积层输入特征图的尺寸标注和分块示意图。
具体实施方式
[0022]本具体实施方式提供了一种带宽自适应的数据传输的卷积神经网络加速计算系统。其主要用于对卷积神经网络中大量的数据进行计算,例如计算卷积神经网络的卷积核等,起到加速计算卷积神经网络的作用。
[0023]如图1所示,本具体实施方式中的一种带宽自适应的数据传输的卷积神经网络加速计算系统包括卷积神经网络加速器,以及带宽自适应数据传输单元。
[0024]所述卷积神经网络加速器,包括计算单元,用于执行具体的数据计算,例如执行卷积核的计算等,数据计算单元可以包括一个或多个计算模块,采用不同种类的数据计算方法。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种带宽自适应的数据传输的卷积神经网络加速计算系统,其特征在于,包括卷积神经网络加速器,用于执行具体的数据计算;以及带宽自适应数据传输装置,设置在所述卷积神经网络加速器和外部存储装置之间,感知卷积神经网络加速器的数据消耗并生成速率、感知外部存储装置带宽的占用情况;根据感知数据确定卷积神经网络加速器和所述外部存储装置之间的数据传输策略;所述带宽自适应数据传输装置包括:数据加载模块,用于将片外外部存储单元中指定位置的数据加载至卷积神经网络加速器;数据卸载模块用于将卷积神经网络加速器计算产生的数据卸载至外部存储单元的指定位置。2.根据权利要求1所述的一种带宽自适应的数据传输的卷积神经网络加速计算系统,其特征在于,所述卷积神经网络加速器和所述带宽自适应数据传输装置之间采用FIFO数据接口连接;所述带宽自适应数据传输装置和外部存储装置之间采用AXI数据接口连接。3.根据权利要求1所述的一种带宽自适应的数据传输的卷积神经网络加速计算系统,其特征在于,所述卷积神经网络加速器,包括:计算单元,用于执行具体的数据计算;片上缓存单元,用于缓存从外部存储装置获取或计算单元产生的数据;寄存器组,设置在所述片上缓存单元和所述计算单元之间,寄存用于计算的数据。4.根据权利要求2所述的一种带宽自适应的数据传输的卷积神经网络加速计算系统,其特征在于,所述数据加载单元包括:指令配置模块,从外部主控接收控制指令,将指令信息解析、运算之后生成各个其它模块的配置信息;地址自动生成模块,根据指令模块的配置信息生成指导驱动模块从外部存储单元读取数据块的地址信息;数据感知模块根据指令配置模块的配置信息,感知所述带宽自适应数据传输单元与卷积神经网络加速器以及外部存储单元之间的数据通道中的数据变化情况;自动插值模块,接收来自外部存储单元的数据,并根据所述指令配置模块生成的配置信息将预定数值插入数据流的预定位置;数据驱动模块,根据指令配置模块的配置信息,驱动数据接口传输数据;当驱动模块接收到数据后,判断卷积神经网络加速器与带宽自适应数据传输单元之间的通信线路的FULL信号状态,在所述FULL信号不为高时,将插入预定数值的数据流输送至所述卷积神经网络加速器。5.根据权利要求4所述的一种带宽自适应的数据传输的卷积神经网络加速计算系统,其特征在于,所述数据卸载单元包括:指令配置模块,从外部主控接收控制指令,将指令信息解析、运算之后生成各个其它模块的配置信息;地址自动生成模块,根据指令模块的配置信息生成指导驱动模块从外部存储单元读取数据块的地址信息;数据感知...

【专利技术属性】
技术研发人员:王晓峰周辉路坤锋赵雄波盖一帆蒋彭龙李晓敏李超然谢宇嘉赵冠杰林平董文杰吴松龄弥寒光黄鹂吴敏李杨珺王森李杰徐天运靳蕊溪林玉野
申请(专利权)人:北京航天自动控制研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1