硬件加速器引擎制造技术

技术编号：18681510 阅读：28 留言：0更新日期：2018-08-14 22:44

本公开涉及硬件加速器引擎。实施例涉及支持深度神经网络算法卷积阶段的有效映射的硬件加速器引擎。硬件加速器引擎包括多个卷积加速器，并且多个卷积加速器中的每一个包括内核缓冲器、特征线缓冲器和多个乘法累加(MAC)单元。MAC单元被布置为对从内核缓冲器和特征线缓冲器两者接收的数据进行乘法和累加。硬件加速器引擎还包括耦合到串流开关的输出总线端口的至少一个输入总线、耦合到串流开关的输入总线端口的至少一个输出总线、或硬连线到串流开关的相应输出总线和输入总线端口的至少一个输入总线和至少一个输出总线。

Hardware accelerator engine

This disclosure concerns the hardware accelerator engine. The implementation involves a hardware accelerator engine supporting effective mapping in the convolution stage of the deep neural network algorithm. The hardware accelerator engine includes a plurality of convolution accelerators, and each of the plurality of convolution accelerators includes a kernel buffer, a feature buffer, and a plurality of multiplication accumulation (MAC) units. The MAC unit is arranged to multiply and accumulate the data received from both the kernel buffer and the feature line buffer. The hardware accelerator engine also includes at least one input bus coupled to the output bus port of the series switch, at least one output bus coupled to the input bus port of the series switch, or at least one input bus and at least one output bus hard-wired to the corresponding output bus and input bus port of the series switch.

全部详细技术资料下载

【技术实现步骤摘要】
硬件加速器引擎
本公开整体涉及深度卷积神经网络(DCNN)。更具体地但不排他地，本公开涉及被布置为实现DCNN的一部分的硬件加速器引擎。
技术介绍
已知的计算机视觉、语音识别和信号处理应用受益于使用深度卷积神经网络(DCNN)。DCNN技术中的一项重要工作是由Y.LeCun等人在1998年的IEEE会报第86期第11卷第2278-2324页上发表的“Gradient-BasedLearningAppliedToDocumentRecognition”，该文章利用“AlexNet”赢得了2012年的ImageNet大型视觉识别挑战赛。如由Krizhevsky,A.、Sutskever,I.和Hinton,G.于2012年在内达华州太浩湖的NIPS第1-9页发表的“ImageNetClassificationWithDeepConvolutionalNeuralNetworks”中所描述的，AlexNet是第一次显著优于经典方法的DCNN。DCNN是处理大量数据并通过以下方式进行自适应地“学习”的基于计算机的工具：将数据内的近端相关的特征融合、对数据进行广泛预测、并基于可靠的结论和新的融合来改进预测。DCNN被布置在多个“层”中，并且在每一层处进行不同类型的预测。例如，如果面部的多个二维图片被提供作为DCNN的输入，则DCNN将学习诸如边缘、曲线、角度、点、颜色对比度、亮点、暗点等的面部的各种特性。在DCNN的一个或多个第一层处学习这些一个或多个特征。然后，在一个或多个第二层中，DCNN将学习诸如眼睛、眉毛、前额、头发、鼻子、嘴、脸颊等的面部的各种可识别的特征...

【技术保护点】
1.一种支持深度神经网络算法的卷积阶段的有效映射的硬件加速器引擎，其特征在于，所述硬件加速器引擎包括：多个卷积加速器，所述多个卷积加速器中的每一个包括：内核缓冲器；特征线缓冲器；多个乘法累加MAC单元，被布置为对从所述内核缓冲器和所述特征线缓冲器接收的数据进行乘法和累加；以及耦合到串流开关的输出总线端口的至少一个输入总线；耦合到所述串流开关的输入总线端口的至少一个输出总线；或者硬连线到所述串流开关的相应输出总线端口和输入总线端口的至少一个输入总线和至少一个输出总线。

【技术特征摘要】
2017.01.04 IN 201711000422;2017.02.02 US 15/423,271.一种支持深度神经网络算法的卷积阶段的有效映射的硬件加速器引擎，其特征在于，所述硬件加速器引擎包括：多个卷积加速器，所述多个卷积加速器中的每一个包括：内核缓冲器；特征线缓冲器；多个乘法累加MAC单元，被布置为对从所述内核缓冲器和所述特征线缓冲器接收的数据进行乘法和累加；以及耦合到串流开关的输出总线端口的至少一个输入总线；耦合到所述串流开关的输入总线端口的至少一个输出总线；或者硬连线到所述串流开关的相应输出总线端口和输入总线端口的至少一个输入总线和至少一个输出总线。2.根据权利要求1所述的硬件加速器引擎，其特征在于，所述内核缓冲器经由第一输入总线耦合到所述串流开关的第一输出端口，并且其中所述特征线缓冲器经由第二输入总线耦合到所述串流开关的第二输出端口。3.根据权利要求1所述的硬件加速器引擎，其特征在于，所述特征条缓冲器存储多达12个具有16比特宽的像素值的输入特征帧的线。4.根据权利要求1所述的硬件加速器引擎，其特征在于，所述特征线缓冲器被布置为接收和存储被包括作为至少一个图像帧的特征数据的多个线，其中特征数据的每个线具有第一标签和最后标签，并且所述至少一个图像帧还在其第一线上具有线标签，并且其最后线上具有线标签。5.根据权利要求4所述的硬件加速器引擎，其特征在于，包括：验证逻辑，以检查和验证所述特征数据中包括的标签信息。6.根据权利要求1所述的硬件加速器引擎，其特征在于，所述特征线缓冲器被布置在双端口存储器设备中。7.根据权利要求1所述的硬件加速器引擎，其特征在于，所述特征线缓冲器被布置在单端口存储器中，其中在交替时钟周期写入和读取数据。8.根据权利要求1所述的硬件加速器引擎，其特征在于，所述内核缓冲器被布置为接收作为原始数据串流的内核数据，所述原始数据串流具有第一标签和最后标签。9.根据权利要求1所述的硬件加速器引擎，其特征在于，包括：加法器树；以及乘法累加MAC模块，具有多个MAC单元，所述MAC模块具有耦合到所述内核缓冲器的第一输入和耦合到所述特征线缓冲器的第二输入，其...

【专利技术属性】
技术研发人员：T·勃伊施，G·德索利，
申请(专利权)人：意法半导体股份有限公司，意法半导体国际有限公司，
类型：新型
国别省市：意大利,IT

全部详细技术资料下载我是这个专利的主人