The utility model discloses a computing unit, an array, a module and a hardware system, belonging to the field of artificial intelligence algorithm hardware acceleration. In view of the problem of large data and long calculation time of sparse convolutional neural network algorithm in the prior art, the utility model designs an invalid data removal mechanism in the calculation unit, which can remove the invalid weight or input image data, reduce the calculation time, reduce the power consumption brought by multiplication and accumulation calculation; designs a multi-channel sub calculation unit, which adopts multiplexing accumulation Adding channel mechanism to complete convolution operation and reduce resource consumption; in the case of invalid data removal, the utility model also designs a rotation mechanism of supply, which can keep sufficient supply of computing unit; the utility model is suitable for mobile applications, such as smart home and smart city, because of low power consumption, small area, high throughput and fast recognition speed, which can efficiently complete license plate Recognition, face recognition, etc.
【技术实现步骤摘要】
一种计算单元、阵列、模块、硬件系统
本专利技术涉及人工智能算法硬件加速领域,特别涉及一种计算单元、阵列、模块、硬件系统。
技术介绍
卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络,在人工智能领域有着广泛的应用,包括图像识别、大数据处理、自然语言处理等。为了提高算法的精度,卷积神经网络的模型结构愈加复杂,深度不断加大,由此所带来的模型参数庞大、计算时间过长阻碍了该算法在终端的部署,如智能家居、智能交通等物联网应用。这些问题引起了对卷积神经网络的算法和硬件设计的深入研究,以追求低功耗和高吞吐量。在算法上,一种方法是参数剪枝:结构化剪枝和非结构化剪枝,带来了权重的稀疏化,ReLU等激活函数也带来了每层输出激活图像数据的稀疏化。另一种方法是参数共享:使用特定量化方法将网络训练为量化神经网络,如二值化或三值化网络,并确保其算法的效果不会影响应用的实现。近些年来针对稀疏化卷积神经网络算法的硬件设计越来越多,但相关研究大多集中在常规的稀疏卷积神经网络的硬件设计,如对权重矩阵和输入图像矩阵进行编码和解码,而本专利技术是针对稀疏化的量化卷积神经网络设计一种硬件实现方法,常规的编码技术所带来的代价远大于提升的效果本身。中国专利申请,申请号CN201811486547.1,公开日2019年5月3日,公开了一种针对硬件实现稀疏化卷积神经网络推断的加速方法,包括面对稀疏硬件加速架构的分组剪枝参数确定方法、针对稀疏硬件加速架构的分组剪枝训练方法和针对稀疏化卷积神经网络前向推 ...
【技术保护点】
1.一种计算单元,其特征在于:包括一个无效数据模块、一个缓冲单元组、一个加法器、一个多通道部分、寄存器组以及多个选通器,输入数据经过无效数据模块处理后传输到缓冲单元组,缓冲单元组对数据缓冲后提供有效数据源给加法器,数据通过加法器后经过多通道部分和寄存器组,最后数据分为正权值部分和负权值部分再通过选通器传输到加法器。/n
【技术特征摘要】
1.一种计算单元,其特征在于:包括一个无效数据模块、一个缓冲单元组、一个加法器、一个多通道部分、寄存器组以及多个选通器,输入数据经过无效数据模块处理后传输到缓冲单元组,缓冲单元组对数据缓冲后提供有效数据源给加法器,数据通过加法器后经过多通道部分和寄存器组,最后数据分为正权值部分和负权值部分再通过选通器传输到加法器。
2.根据权利要求1所述的一种计算单元,其特征在于,无效数据模块判断输入数据是否为零,输入数据为零判为无效数据跳过计算单元。
3.根据权利要求2所述的一种计算单元,其特征在于,无效数据模块的输入数据为系统输入图像数据或权重数据。
4.根据权利要求1所述的一种计算单元,其特征在于,缓冲单元组包含多个子缓冲单元,用于缓冲经过无效数据消除模块的数据,输入数据经过子缓冲单元后通过供数轮转机制确保向加法器提供足够的有效数据源。
5.根据权利要求1所述的一种计算单元,其特征在于,所述计算单元采用了一种可重构复用累加通道的机制进行乘法累加操作,多通道部分和寄存器组用于寄存对应每一个权重的部分和累加结果,并根据权重的值来选择向加法器提供的累加源数据重构累加通道,选通器用于根据权重的值来重构加法器的累加通路。
6.一种阵列,包括权利要求1-5任一所述的计算单元,其特征在于,所述阵列由计算单元呈阵列分布,阵列有Z片,每一片...
【专利技术属性】
技术研发人员:李丽,陈沁雨,傅玉祥,曹华锋,何书专,
申请(专利权)人:南京宁麒智能计算芯片研究院有限公司,
类型:新型
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。