一种基于通用神经网络处理器并行加速ResNet的实现方法技术

技术编号：30822624 阅读：22 留言：0更新日期：2021-11-18 12:08

本发明专利技术公开了一种基于通用神经网络处理器并行加速ResNet的实现方法，包括以下步骤：将数据集和权重从中央缓存区载入寄存器，进行卷积层的运算，将权重矩阵从寄存器载入矩阵乘法单元；以流数据的方式将数据集矩阵送入矩阵乘法单元，并将运算结果写回寄存器，重复这一过程直到全部的数据处理完毕；用向量压缩单元完成批标准化的运算；用SIMD运算单元完成线性整流的运算；用SIMD运算单元和向量压缩单元完成池化层的运算；用矩阵乘法单元完成全连接层的运算，结果写回到寄存器；将寄存器中的结果写回中央缓存区。采用矩阵乘法单元完成卷积层和全连接层的运算，具备最佳的性能和性能功耗比，实现更低的能源消耗，更短的模型收敛时间，更快的图像识别速度。更快的图像识别速度。更快的图像识别速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于通用神经网络处理器并行加速ResNet的实现方法

[0001]本专利技术涉及，尤其涉及一种基于通用神经网络处理器并行加速ResNet的实现方法。

技术介绍

[0002]残差网络“ResNet”是一种机器学习的模型，过去在进行深度网络训练时，存在差异梯度消失的问题，重复的矩阵乘法可能会使得结果与初始内容的差异梯度变小，随着网络的深入，模型的性能会达到饱和甚至最后出现下降的情况。“ResNet”解决了这一问题，通过建立一个捷径缓解了梯度消失的问题，使得我们的模型可以学习一个常值函数，以确保性能至少和之前一样而不会变差。 ResNet使得计算机图像识别实用化，并在生活中得到了广泛和重要的应用。随着深度神经网络技术的发展，神经网络的层数加深，梯度破碎的情形更加显著，为此采用ResNet技术缓解这个问题变得更加重要。
[0003]目前ResNet的一种常见部署方式是使用利用图形处理器(GPU)设备，因其并行计算的方式相较传统的串行计算的中央处理器(CPU)效率更高，性能功耗比更佳。然而对于使用GPU并行操作而言，有几个因素严重影响GPU设备的计算性能，其中包括内存的访问模式，如全局内容中的合并访问以及共享内存中的内存块冲突。
[0004]以其中的基本运算之一矩阵转置为例，该运算的本质是进行数据交换，通常GPU采用并行的方式处理数据，但是由于其全局内存之间的转存延迟高，影响了矩阵转置的整体效率。另一方面，ResNet网络主要由卷积层(Conv)、池化层(Pooling)和全连接层组成，其中还包含批标准化(...

【技术保护点】

【技术特征摘要】
1.一种基于通用神经网络处理器并行加速ResNet的实现方法，其特征在于，包括以下步骤：步骤S1：将数据集和权重从中央缓存区载入寄存器，进行卷积层的运算，将权重矩阵从寄存器载入矩阵乘法单元；以流数据的方式将数据集矩阵送入矩阵乘法单元，并将运算结果写回寄存器，重复这一过程直到全部的数据处理完毕；步骤S2：用向量压缩单元完成批标准化的运算；步骤S3：用SIMD运算单元完成线性整流的运算；步骤S4：用SIMD运算单元和向量压缩单元完成池化层的运算；步骤S5：用矩阵乘法单元完成全连接层的运算，同时将结果写回到寄存器中；步骤S6：将所述寄存器中的结果写回中央缓存区。2.根据权利要求1所述的一种基于通用神经网络处理器并行加速ResNet的实现方法，其特征在于：所述步骤S1中：所述卷积层的运算采用矩阵乘法单元完成。3.根据权利要求1所述的一种基于通用神经网络处理器并行加速ResNet的实现方法，其特征在于：所述步骤S1中：所述卷积层中的卷积用数据集矩阵和权重矩阵的矩阵乘法实现。4.根据权利要求1所述的一种基于通用神经网络处理器并行加速ResNet的实现方法，其特征在于：所述步骤S1中：采用SIMD运算单元代替矩阵乘法单元，完成矩阵的乘法部分。5.根据权利要求...

【专利技术属性】
技术研发人员：杨龚轶凡，闯小明，郑瀚寻，王润哲，
申请(专利权)人：苏州仰思坪半导体有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人