【技术实现步骤摘要】
卷积神经网络的存储器优化的区块式推论方法及其系统
本专利技术涉及一种区块式推论方法及其系统,特别涉及一种卷积神经网络的存储器优化的区块式推论方法及其系统。
技术介绍
当使用卷积神经网络于影像处理应用时,其外部存储器频宽需求可能会相当高,而使用区块式推论流程,可以大幅降低此频宽需求。然而,区块间会有重叠的特征向量,目前已知有两种不同的处理方法,一种是采重新计算方式,另一种则是采重复利用方式。其中前者会增加计算量而降低输出像素量,而后者则是需要大量的区块暂存器来存放重复使用的特征向量。由此可知,目前市场上缺乏一种能在不增加太多计算量以及区块暂存器前提下,可大幅降低外部存储器频宽需求的卷积神经网络的存储器优化的区块式推论方法及其系统,故相关业者均在寻求其解决之道。
技术实现思路
因此,本专利技术的目的在于提供一种卷积神经网络的存储器优化的区块式推论方法及其系统,当进行区块式推论时,于区块前行的方向上重复利用已计算过的特征,而于另一个方向上采用重新计算的方式,使区块式推论在不增加过多计算量以及区块暂存器的前提下, ...
【技术保护点】
1.一种卷积神经网络的存储器优化的区块式推论方法,用以处理一输入影像,其特征在于,该卷积神经网络的存储器优化的区块式推论方法包含以下步骤:/n一参数设定步骤,是设定一推论参数组,该推论参数组包含一卷积深度、一区块宽度、一区块高度及多层卷积核大小;/n一分割步骤,是驱动一运算处理单元依据该卷积深度、该区块宽度、该区块高度及所述多层卷积核大小划分该输入影像成多个输入区块数据,各该输入区块数据具有一输入区块大小;/n一区块推论步骤,是驱动该运算处理单元将各该输入区块数据执行一多层卷积操作而产生一输出区块数据,且该多层卷积操作包含:/n一第一方向数据选取步骤,是依据该输出区块数据的 ...
【技术特征摘要】
20191008 US 62/912,6301.一种卷积神经网络的存储器优化的区块式推论方法,用以处理一输入影像,其特征在于,该卷积神经网络的存储器优化的区块式推论方法包含以下步骤:
一参数设定步骤,是设定一推论参数组,该推论参数组包含一卷积深度、一区块宽度、一区块高度及多层卷积核大小;
一分割步骤,是驱动一运算处理单元依据该卷积深度、该区块宽度、该区块高度及所述多层卷积核大小划分该输入影像成多个输入区块数据,各该输入区块数据具有一输入区块大小;
一区块推论步骤,是驱动该运算处理单元将各该输入区块数据执行一多层卷积操作而产生一输出区块数据,且该多层卷积操作包含:
一第一方向数据选取步骤,是依据该输出区块数据的一位置沿一扫描换行方向选择多个第i层重新计算特征,然后依据该输出区块数据的该位置及所述多个第i层重新计算特征选取出一第i层重新计算输入特征区块数据,其中i为1至该卷积深度的多个正整数的其中一者;
一第二方向数据选取步骤,是依据该第i层重新计算输入特征区块数据沿一区块扫描方向选取出多个第i层重复利用特征,并将该第i层重新计算输入特征区块数据及所述多个第i层重复利用特征组合而产生一第i层重复利用输入特征区块数据;及
一卷积运算步骤,是依据一第i层卷积核大小从该第i层重复利用输入特征区块数据中选取出多个第i层子区块输入特征群,然后对各该第i层子区块输入特征群及一卷积参数组执行一卷积运算而产生一第i层子区块输出特征,并将对应所述多个第i层子区块输入特征群的所述多个第i层子区块输出特征组合而形成一第i层输出特征区块数据;以及
一暂存步骤,是驱动一区块暂存器暂存该第i层输出特征区块数据及所述多个第i层重复利用特征。
2.如权利要求1所述的卷积神经网络的存储器优化的区块式推论方法,其特征在于,
当i等于1时,该第i层重新计算输入特征区块数据等于各该输入区块数据;及
当i等于该卷积深度时,该第i层输出特征区块数据等于该输出区块数据。
3.如权利要求1所述的卷积神经网络的存储器优化的区块式推论方法,其特征在于,该第i层重新计算输入特征区块数据具有一第i层重新计算输入特征区块大小与一第i层重新计算输入特征区块通道数,该第i层输出特征区块数据具有一第i层输出特征区块大小与一第i层输出特征区块通道数,该第i层输出特征区块大小大于该第i层重新计算输入特征区块大小,且该第i层重新计算输入特征区块通道数等于该第i层输出特征区块通道数。
4.如权利要求1所述的卷积神经网络的存储器优化的区块式推论方法,其特征在于,该区块扫描方向垂直于该扫描换行方向,该区块宽度大于该区块高度,且该区块高度的一延伸方向平行于该区块扫描方向。
5.如权利要求1所述的卷积神经网络的存储器优化的区块式推论方法,其特征在于,该卷积深度、该区块宽度及该区块高度均为正整数,该第i层卷积核大小为kWi×kHi,所述多个第i层重复利用特征沿该区块扫描方向具有一重复利用特征数量,且该重复利用特征数量等于kHi-1。
6.如权利要求1所述的卷积神经网络的存储器优化的区块式推论方法,其特征在于,该区块宽度表示为BW,该卷积深度表示为D,该区块高度表示为BH;
该输入区块大小等于BW×BH;
该输出区块数据具有一输出区块大小,且该输出区块大小等于(BW-2D)×BH;
该第i层重新计算输入特征区块数据具有一第i层重新计算输入特征区块大小,且该第i层重新计算输入特征区块大小等于(BW-2i+2)×BH;
该第i层重复利用输入特征区块数据具有一第i层重复利用输入特征区块大小,且该第i层重复利用输入特征区块大小等于(BW-2i+2)×(BH+2);
该第i层输出特征区块数据具有一第i层输出特征区块大小,且该第i层输出特征区块大小等于(BW-2i)×BH;及
该卷积深度小于该区块宽度的一半。
7.如权利要求1所述的卷积神经网络的存储器优化的区块式推论方法,其特征在于,
当其中一该第i层子区块输入特征群的多个输入特征的至少一者位于该第i层重复利用输入特征区块数据的一外区域时,该其中一第i层子区块输入特征群的所述多个输入特征包含多个外区块特征及多个第一内区块特征,所述多个外区块特征代表已运算的特征,所述多个第一内区块特征代表未运算的特征;
当其中一该第i层子区块输入特征群的所述多个输入特征均位于该第i层重复利用输入特征区块数据的一内区域时,该其中一第i层子区块输入特征群的所述多个输入特征仅包含多个第二内区块特征;及
该第i层重复利用输入特征区块数据沿该区块扫描方向的排列顺序为该外区域与该内区域。
8.如权利要求7所述的卷积神经网络的存储器优化的区块式推论方法,其特征在于,所述多个外区块特征是存储于该区块暂存器,该区块暂存器具有一暂存空间,该暂存空间通过该第i层重新计算输入特征区块数据的一宽度、该卷积深度、一层数、一通道数及该第i层卷积核大小运算求得,该第i层重新计算输入特征区块数据的该宽度表示为BWi,该卷积深度表示为D,该层数表示为i,该通道数表示为C,该第i层卷积核大小为kWi×kHi,该暂存空间表示为LBS且符合下式:
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。