基于通道融合的可配置稀疏卷积硬件加速方法和系统技术方案

技术编号:35071279 阅读:22 留言:0更新日期:2022-09-28 11:33
本发明专利技术提供了一种基于通道融合的可配置稀疏卷积硬件加速方法和系统,包括:步骤1:获取所有非零的有效激活值数据与对应卷积核权重数据的偏移地址;步骤2:将有效激活值数据与对应卷积核权重数据的偏移地址进行存储,并将对应的有效值数据对依次进行乘累加操作;步骤3:在乘累加队列中设置数据选择器与数据分路器,将融合卷积核的数据结果重新解耦合至对应的输出通道进行累加;步骤4:对不同通道的数据进行重分配,将融合后的对应输出通道的数据重新送入融合前的输出通道的位置。本发明专利技术通过对稀疏卷积核进行通道融合预处理,使得各个融合后的输出通道间有效数据量尽可能平衡,从而带来了更高的硬件利用率与更高的稀疏卷积加速效率。效率。效率。

【技术实现步骤摘要】
基于通道融合的可配置稀疏卷积硬件加速方法和系统


[0001]本专利技术涉及卷积神经网络
,具体地,涉及一种基于通道融合的可配置稀疏卷积硬件加速方法和系统。

技术介绍

[0002]近年来,随着算法的进步与算力的提升,人工智能领域得到了极大的发展,并且影响到了行行业业。然而大型的卷积神经网络在拥有出色性能的同时也对计算资源和存储资源提出了极高的要求,尤其是在一些资源受限的场景下,往往需要通过一些方法来降低对计算与存储资源的开销,也即轻量化模型。
[0003]卷积神经网络中的非线性激活层(ReLU等)使得激活值也存在相当的稀疏性,一个典型的神经网络中激活值约有70%的稀疏性。L1、L2正则化则在使得加速训练、避免过拟合的同时也为权重中带来了更多的零值。进一步的,Han等人提出对卷积神经网络进行剪枝、Dropout、量化等操作后,可以在保持精度相当的同时将有效的神经元连接压缩至原有的1/9到1/13,权重数据降低至原有的约1/10。
[0004]因此,一种可行的方式为充分利用卷积神经网络的稀疏性来降低资源需求。即卷积神经网络中由于存在许多无效的零值数据,这些数据既不需要被存储、也不需要被计算,通过合理的方式跳过这些无效的数据,可以节省大量的存储空间与计算资源。
[0005]然而由于剪枝、Dropout、ReLU、正则化等等引起卷积稀疏的因素往往具有不规则性,所带来的非结构化的不规则稀疏性使得一般的硬件很难从其稀疏性中获得收益。结构化的剪枝等往往较非结构化的剪枝相比性能有着较大差距,CPU、GPU在计算卷积时往往先将其转化为矩阵乘法进行计算,而不规则的稀疏矩阵乘法甚至可能因为不同线程间的分支跳转与负载不均而带来较收益更大的额外开销,因此,针对非结构化的剪枝需要定制的硬件进行加速。
[0006]专利文献CN107341544B(申请号:CN201710524017.0)公开了一种基于可分割阵列的可重构加速器及其实现方法,该可重构加速器包括:便笺式存储器缓存区,用于实现卷积计算与稀疏化全连接计算的数据重用;可分割计算阵列,包括多个可重构计算单元,可分割计算阵列分为卷积计算阵列及稀疏化全连接计算阵列;寄存器缓存区,由多块寄存器构成的存储区域,为卷积计算与稀疏化全连接计算提供输入数据、权重数据及对应的输出结果;卷积计算的输入数据及权重数据分别输入到卷积计算阵列,输出卷积计算结果;稀疏化全连接计算的输入数据及权重数据分别输入到稀疏化全连接计算阵列,输出稀疏化全连接计算结果。
[0007]针对稀疏卷积神经网络的硬件加速设计,同类专利技术或是跳过稀疏的卷积核,或是跳过稀疏的权重值,或是两者同时跳过。这些设计在较低并行度时有着较好的稀疏计算加速效率,但当算子并行度提高时,由于各并行间有效数据量差异巨大,这些设计会受到负载不均衡导致的硬件利用率低的影响。基于此,本专利技术提出了一种基于通道融合的可配置稀疏卷积硬件加速设计方案,该方案在跳过系数激活值的同时,通过对不同输出通道的稀疏
权重数据进行通道融合预处理,在跳过无效权重计算的同时,由于通道融合算法使得各输出通道之间的有效数据尽可能平衡,使得在较大的算子并行程度时仍能保持较高的稀疏加速比与硬件利用率。

技术实现思路

[0008]针对现有技术中的缺陷,本专利技术的目的是提供一种基于通道融合的可配置稀疏卷积硬件加速方法和系统。
[0009]根据本专利技术提供的基于通道融合的可配置稀疏卷积硬件加速方法,包括:
[0010]步骤1:采用比特图滑动窗的方式获取所有非零的有效激活值数据与对应卷积核权重数据的偏移地址;
[0011]步骤2:将有效激活值数据与对应卷积核权重数据的偏移地址进行存储,并将对应的有效值数据对依次进行乘累加操作;
[0012]步骤3:在乘累加队列中设置数据选择器与数据分路器,将融合卷积核的数据结果重新解耦合至对应的输出通道进行累加;
[0013]步骤4:对不同通道的数据进行重分配,将融合后的对应输出通道的数据重新送入融合前的输出通道的位置。
[0014]优选的,对于卷积核的稀疏分布不均匀的情况,通过对硬件算子3
×
3卷积核有效值出现频率最高的位置进行空间冗余设置,使得硬件卷积算子与对应的滑动窗大小变为3
×
3+1。
[0015]优选的,对于通道融合:
[0016]首先,将对应的K组输出通道,按照运算单元的输入并行度C_in_parallel划分为C/C_in_parallel组卷积核,每组卷积核共含有K组输出通道与C_in_parallel组输入通道;
[0017]接着,对于每组卷积核,统计各组输出通道下所有的C_in_parallel组输入通道中含有的有效数据量并排序;
[0018]最后,将所有的输出通道组按照有效数据量最小与有效数据量最多依次进行两两匹配,匹配成功的规则为所有对应位置的数据不同时为有效值;
[0019]所有匹配成功的通道则融合为一个通道,未融合成功的通道则按照次序继续与下一通道,直到遍历了所有剩余的未匹配的通道。
[0020]优选的,采用比特图的方式存储稀疏的激活值,若以n

bit的位宽存储最终的激活值,则比特图方式的存储以1/n的代价存储所有数据是否为有效值及所有真正的有效数据。
[0021]优选的,对于稀疏的权重卷积核,通过在服务器端对稀疏的权重数据进行通道融合,降低权重数据的存储开销、跳过无效的零值计算、平衡不同运算单元间的有效计算量。
[0022]根据本专利技术提供的基于通道融合的可配置稀疏卷积硬件加速系统,包括:
[0023]模块M1:采用比特图滑动窗的方式获取所有非零的有效激活值数据与对应卷积核权重数据的偏移地址;
[0024]模块M2:将有效激活值数据与对应卷积核权重数据的偏移地址进行存储,并将对应的有效值数据对依次进行乘累加操作;
[0025]模块M3:在乘累加队列中设置数据选择器与数据分路器,将融合卷积核的数据结果重新解耦合至对应的输出通道进行累加;
[0026]模块M4:对不同通道的数据进行重分配,将融合后的对应输出通道的数据重新送入融合前的输出通道的位置。
[0027]优选的,对于卷积核的稀疏分布不均匀的情况,通过对硬件算子3
×
3卷积核有效值出现频率最高的位置进行空间冗余设置,使得硬件卷积算子与对应的滑动窗大小变为3
×
3+1。
[0028]优选的,对于通道融合:
[0029]首先,将对应的K组输出通道,按照运算单元的输入并行度C_in_parallel划分为C/C_in_parallel组卷积核,每组卷积核共含有K组输出通道与C_in_parallel组输入通道;
[0030]接着,对于每组卷积核,统计各组输出通道下所有的C_in_parallel组输入通道中含有的有效数据量并排序;
[0031]最后,将所有的输出通道组按照有效数据量最小与有效数据量最多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于通道融合的可配置稀疏卷积硬件加速方法,其特征在于,包括:步骤1:采用比特图滑动窗的方式获取所有非零的有效激活值数据与对应卷积核权重数据的偏移地址;步骤2:将有效激活值数据与对应卷积核权重数据的偏移地址进行存储,并将对应的有效值数据对依次进行乘累加操作;步骤3:在乘累加队列中设置数据选择器与数据分路器,将融合卷积核的数据结果重新解耦合至对应的输出通道进行累加;步骤4:对不同通道的数据进行重分配,将融合后的对应输出通道的数据重新送入融合前的输出通道的位置。2.根据权利要求1所述的基于通道融合的可配置稀疏卷积硬件加速方法,其特征在于,对于卷积核的稀疏分布不均匀的情况,通过对硬件算子3
×
3卷积核有效值出现频率最高的位置进行空间冗余设置,使得硬件卷积算子与对应的滑动窗大小变为3
×
3+1。3.根据权利要求1所述的基于通道融合的可配置稀疏卷积硬件加速方法,其特征在于,对于通道融合:首先,将对应的K组输出通道,按照运算单元的输入并行度C_in_parallel划分为C/C_in_parallel组卷积核,每组卷积核共含有K组输出通道与C_in_parallel组输入通道;接着,对于每组卷积核,统计各组输出通道下所有的C_in_parallel组输入通道中含有的有效数据量并排序;最后,将所有的输出通道组按照有效数据量最小与有效数据量最多依次进行两两匹配,匹配成功的规则为所有对应位置的数据不同时为有效值;所有匹配成功的通道则融合为一个通道,未融合成功的通道则按照次序继续与下一通道,直到遍历了所有剩余的未匹配的通道。4.根据权利要求1所述的基于通道融合的可配置稀疏卷积硬件加速方法,其特征在于,采用比特图的方式存储稀疏的激活值,若以n

bit的位宽存储最终的激活值,则比特图方式的存储以1/n的代价存储所有数据是否为有效值及所有真正的有效数据。5.根据权利要求1所述的基于通道融合的可配置稀疏卷积硬件加速方法,其特征在于,对于稀疏的权重卷积核,通过在服务器端对稀疏的权重数据进行通道融合,降低权重数据的存储开销、跳过无效的零值计算、平衡不同运算单元间的有效计算量。6.一种基于通道融...

【专利技术属性】
技术研发人员:王琴莫志文蒋剑飞景乃锋绳伟光贺光辉
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1