加速可重构处理器运行的稀疏化数据处理方法及系统技术方案

技术编号:27194907 阅读:18 留言:0更新日期:2021-01-31 11:46
本发明专利技术提供加速可重构处理器运行的稀疏化数据处理方法,包括:沿待计算稀疏化权重矩阵的行列方向以P

【技术实现步骤摘要】
加速可重构处理器运行的稀疏化数据处理方法及系统


[0001]本专利技术涉及可重构处理器领域,具体应用于可重构处理器在度学习的神经网络计算在图像检测、图像识别、语音识别等领域的计算。本专利技术具体涉及加速可重构处理器运行的稀疏化数据处理方法及系统。

技术介绍

[0002]基于深度学习的神经网络计算在图像检测、图像识别、语音识别等领域被广泛的应用,而神经网络中的卷积运算与全连接运算消耗大量的存储资源、计算资源与带宽资源,成为神经网络在智能摄像头、智能耳机、智能音箱等智能设备上实施的瓶颈。稀疏化技术是一种通过训练的方式约束卷积计算与全连接运算中用到权重中非零权重的比例,以此降低存储权重的存储开销。同时研究发现,稀疏化同样可以用于减少卷积计算与全连接计算的乘加次数,并减少数据传输的带宽。然而,训练过程中随机的稀疏化权重不利于充分挖掘硬件的计算资源与带宽资源。

技术实现思路

[0003]本专利技术的目的是提供加速可重构处理器运行的稀疏化数据处理方法,采用的分组规则稀疏化策略更有利算法精度收敛,在同样的算法精度下,可以提供更高的稀疏率。
[0004]本专利技术的另一个目的是提供加速可重构处理器运行的稀疏化数据处理系统,在同样的算法精度下,可以提供更高的稀疏率。
[0005]本专利技术的第一个方面,提供了加速可重构处理器运行的稀疏化数据处理方法,可重构处理器包括PE阵列。PE阵列具有P
×
Q个PE单元。稀疏化数据处理方法包括:步骤S101,沿待计算稀疏化权重矩阵的行列方向以P/>×
Q为一个划分单元,将权重矩阵划分为多个单元块。单元块中包括多个有效权重。
[0006]步骤S102,将待计算权重矩阵中的列向单元块组成为一组。判断一组中单元块中有效权重总数是否多于P*Q/2,若是,则将一组平均拆分为两组单元块。获取待计算权重矩阵中不超过P*Q/2的一组单元块数量为分组划分数量。根据分组划分数量沿待计算权重矩阵的列向将待计算权重矩阵划分为多个计算组。
[0007]步骤S103,PE阵列依次读取所述计算组中各单元块的向量值,若当前单元块的向量值为非零权重,则将当前单元块的非零权重值和距离上一非零权重的零权重单元块间隔数作为当前单元块的有效权重地址存入与所述计算组能对应的存储地址中。
[0008]在本专利技术提供了加速可重构处理器运行的稀疏化数据处理方法的另一种实施方式中,步骤S103后还包括:步骤S104,通过PE中的P*Q个PE单元,根据待处理阵列的每个计算组的有效权重地址获取有效权重地址所对应的非零权重值及其对应的存储地址。根据非零权重值对应的存储地址读取其对应的卷积计算值。
[0009]步骤S105,根据每个计算组中的非零权重值其对应的卷积计算值实现深度学习的
神经网络模型中的卷积或全连接层计算。
[0010]在本专利技术提供了加速可重构处理器运行的稀疏化数据处理方法的又一种实施方式中,步骤S105后还包括:步骤S106,输出神经网络模型中的卷积或全连接层计算结果。在本专利技术提供了加速可重构处理器运行的稀疏化数据处理方法的又一种实施方式中,PE阵列中的P
×
Q个PE单元为8
×
8的PE单元。
[0011]本专利技术的第二个方面,提供了加速可重构处理器运行的稀疏化数据处理系统,可重构处理器包括PE阵列。PE阵列具有P
×
Q个PE单元。稀疏化数据处理系统包括:一个权重划分单元,其配置为沿待计算稀疏化权重矩阵的行列方向以P
×
Q为一个划分单元,将权重矩阵划分为多个单元块。单元块中包括多个有效权重。
[0012]一个分组单元,其配置为将待计算权重矩阵中的列向单元块组成为一组。判断一组中单元块中有效权重总数是否多于P*Q/2,若是,则将一组平均拆分为两组单元块。获取待计算权重矩阵中不超过P*Q/2的一组单元块数量为分组划分数量。根据分组划分数量沿待计算权重矩阵的列向将待计算权重矩阵划分为多个计算组。和一个存储单元,其配置为PE阵列依次读取所述计算组中各单元块的向量值,若当前单元块的向量值为非零权重,则将当前单元块的非零权重值和距离上一非零权重的零权重单元块间隔数作为当前单元块的有效权重地址存入与所述计算组能对应的存储地址中。
[0013]在本专利技术提供了加速可重构处理器运行的稀疏化数据处理系统的另一种实施方式中,该系统还包括:一个提取单元,其配置为通过PE中的P
×
Q个PE单元,根据待处理阵列的每个计算组的有效权重地址获取有效权重地址所对应的非零权重值及其对应的存储地址。根据非零权重值对应的存储地址读取其对应的卷积计算值。和一个计算单元,其配置为根据每个计算组中的非零权重值其对应的卷积计算值实现深度学习的神经网络模型中的卷积或全连接层计算。
[0014]在本专利技术提供了加速可重构处理器运行的稀疏化数据处理系统的再一种实施方式中,该系统还包括:一个输出单元,其配置为输出神经网络模型中的卷积或全连接层计算结果。
[0015]在本专利技术提供了加速可重构处理器运行的稀疏化数据处理系统的再一种实施方式中,PE阵列中的P
×
Q个PE单元为8
×
8的PE单元。
[0016]下文将以明确易懂的方式,结合附图对加速可重构处理器运行的稀疏化数据处理方法及系统的特性、技术特征、优点及其实现方式予以进一步说明。
[0017]附图说明
[0018]图1是用于说明在本专利技术一种实施方式中,加速可重构处理器运行的稀疏化数据处理方法的流程示意图。
[0019]图2是用于说明在本专利技术另一种实施方式中,加速可重构处理器运行的稀疏化数据处理方法的流程示意图。
[0020]图3是用于说明在本专利技术再一种实施方式中,加速可重构处理器运行的稀疏化数据处理方法的流程示意图。
[0021]图4是用于说明在本专利技术一种实施方式中,加速可重构处理器运行的稀疏化数据处理系统的组成示意图。
[0022]图5是用于说明在本专利技术一种实施方式中,权重矩阵的一种划分示意图。
[0023]图6是用于说明在本专利技术一种实施方式中,权重矩阵的另一种划分示意图。
[0024]图7是用于说明在本专利技术一种实施方式中,一种稀疏化矩阵存储格式的示意图。
[0025]图8是用于说明在本专利技术一种实施方式中,另一种稀疏化矩阵存储格式的示意图。
[0026]图9是用于说明在本专利技术一种实施方式中,再一种稀疏化矩阵存储格式的示意图。
[0027]具体实施方式
[0028]为了对专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图说明本专利技术的具体实施方式,在各图中相同的标号表示结构相同或结构相似但功能相同的部件。
[0029]在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中只示意性地表示出了与本示例性实施例相关的部分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.加速可重构处理器运行的稀疏化数据处理方法,其特征在于,所述可重构处理器包括PE阵列;所述PE阵列具有P
×
Q个PE单元;所述稀疏化数据处理方法包括:步骤S101,沿待计算稀疏化权重矩阵的行列方向以P
×
Q为一个划分单元,将所述权重矩阵划分为多个单元块;所述单元块中包括多个有效权重;步骤S102,将所述待计算权重矩阵中的列向单元块组成为一组;判断所述一组中单元块中有效权重总数是否多于P
×
Q/2,若是,则将所述一组平均拆分为两组单元块;获取待计算权重矩阵中不超过P
×
Q/2的一组单元块数量为分组划分数量;根据所述分组划分数量沿所述待计算权重矩阵的列向将所述待计算权重矩阵划分为多个计算组;步骤S103,所述PE阵列依次读取所述计算组中各单元块的向量值,若当前单元块的向量值为非零权重,则将当前单元块的非零权重值和距离上一非零权重的零权重单元块间隔数作为当前单元块的有效权重地址存入与所述计算组能对应的存储地址中。2.根据权利要求1所述的稀疏化数据处理方法,其特征在于,所述步骤S103后还包括:步骤S104,通过所述PE中的P
×
Q个PE单元,根据待处理阵列的每个计算组的有效权重地址获取所述有效权重地址所对应的非零权重值及其对应的存储地址;根据所述非零权重值对应的存储地址读取其对应的卷积或全连接的特征输入值;步骤S105,根据每个计算组中的非零权重值其对应的特征输入值实现深度学习的神经网络模型中的卷积或全连接层计算。3.根据权利要求2所述的稀疏化数据处理方法,其特征在于,所述步骤S105后还包括:步骤S106,输出所述神经网络模型中的卷积或全连接层计算结果。4.根据权利要求1所述的稀疏化数据处理方法,其特征在于,所述PE阵列中的P
×
Q个PE单元为8
×
8的PE单元。5.加速可重构处理器运行的稀疏化数据处...

【专利技术属性】
技术研发人员:唐士斌欧阳鹏
申请(专利权)人:北京清微智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1