硬件加速器引擎制造技术

技术编号：18427050 阅读：18 留言：0更新日期：2018-07-12 02:10

本公开涉及硬件加速器引擎。实施例涉及支持深度神经网络算法卷积阶段的有效映射的硬件加速器引擎。硬件加速器引擎包括多个卷积加速器，并且多个卷积加速器中的每一个包括内核缓冲器、特征线缓冲器和多个乘法累加(MAC)单元。MAC单元被布置为对从内核缓冲器和特征线缓冲器两者接收的数据进行乘法和累加。硬件加速器引擎还包括耦合到串流开关的输出总线端口的至少一个输入总线、耦合到串流开关的输入总线端口的至少一个输出总线、或硬连线到串流开关的相应输出总线和输入总线端口的至少一个输入总线和至少一个输出总线。

全部详细技术资料下载

【技术实现步骤摘要】
硬件加速器引擎相关申请的交叉引用本申请要求于2017年1月4日提交的印度临时专利申请No.201711000422的权益，该申请的整体内容通过引用并入于此。
本公开整体涉及深度卷积神经网络(DCNN)。更具体地但不排他地，本公开涉及被布置为实现DCNN的一部分的硬件加速器引擎。
技术介绍
已知的计算机视觉、语音识别和信号处理应用受益于使用深度卷积神经网络(DCNN)。DCNN技术中的一项重要工作是由Y.LeCun等人在1998年的IEEE会报第86期第11卷第2278-2324页上发表的“Gradient-BasedLearningAppliedToDocumentRecognition”，该文章利用“AlexNet”赢得了2012年的ImageNet大型视觉识别挑战赛。如由Krizhevsky,A.、Sutskever,I.和Hinton,G.于2012年在内达华州太浩湖的NIPS第1-9页发表的“ImageNetClassificationWithDeepConvolutionalNeuralNetworks”中所描述的，AlexNet是第一次显著优于经典方法的DCNN。DCNN是处理大量数据并通过以下方式进行自适应地“学习”的基于计算机的工具：将数据内的近端相关的特征融合、对数据进行广泛预测、并基于可靠的结论和新的融合来改进预测。DCNN被布置在多个“层”中，并且在每一层处进行不同类型的预测。例如，如果面部的多个二维图片被提供作为DCNN的输入，则DCNN将学习诸如边缘、曲线、角度、点、颜色对比度、亮点、暗点等的面部的各种特性。在DCNN的一个或多个...

【技术保护点】
1.一种支持深度神经网络算法的卷积阶段的有效映射的硬件加速器引擎，所述硬件加速器引擎包括：多个卷积加速器，所述多个卷积加速器中的每一个包括：内核缓冲器；特征线缓冲器；多个乘法累加(MAC)单元，被布置为对从所述内核缓冲器和所述特征线缓冲器接收的数据进行乘法和累加；以及耦合到串流开关的输出总线端口的至少一个输入总线；耦合到所述串流开关的输入总线端口的至少一个输出总线；或者硬连线到所述串流开关的相应输出总线端口和输入总线端口的至少一个输入总线和至少一个输出总线。

【技术特征摘要】
2017.01.04 IN 201711000422;2017.02.02 US 15/423,271.一种支持深度神经网络算法的卷积阶段的有效映射的硬件加速器引擎，所述硬件加速器引擎包括：多个卷积加速器，所述多个卷积加速器中的每一个包括：内核缓冲器；特征线缓冲器；多个乘法累加(MAC)单元，被布置为对从所述内核缓冲器和所述特征线缓冲器接收的数据进行乘法和累加；以及耦合到串流开关的输出总线端口的至少一个输入总线；耦合到所述串流开关的输入总线端口的至少一个输出总线；或者硬连线到所述串流开关的相应输出总线端口和输入总线端口的至少一个输入总线和至少一个输出总线。2.根据权利要求1所述的硬件加速器引擎，其中所述内核缓冲器经由第一输入总线耦合到所述串流开关的第一输出端口，并且其中所述特征线缓冲器经由第二输入总线耦合到所述串流开关的第二输出端口。3.根据权利要求1所述的硬件加速器引擎，其中所述特征条缓冲器存储多达12个具有16比特宽的像素值的输入特征帧的线。4.根据权利要求1所述的硬件加速器引擎，其中所述特征线缓冲器被布置为接收和存储被包括作为至少一个图像帧的特征数据的多个线，其中特征数据的每个线具有第一标签和最后标签，并且所述至少一个图像帧还在其第一线上具有线标签，并且其最后线上具有线标签。5.根据权利要求4所述的硬件加速器引擎，包括：验证逻辑，以检查和验证所述特征数据中包括的标签信息。6.根据权利要求1所述的硬件加速器引擎，其中所述特征线缓冲器被布置在双端口存储器设备中。7.根据权利要求1所述的硬件加速器引擎，其中所述特征线缓冲器被布置在单端口存储器中，其中在交替时钟周期写入和读取数据。8.根据权利要求1所述的硬件加速器引擎，其中所述内核缓冲器被布置为接收作为原始数据串流的内核数据，所述原始数据串流具有第一标签和最后标签。9.根据权利要求1所述的硬件加速器引擎，包括：加法器树；以及具有多个MAC单元的乘法累加(MAC)模块，所述MAC模块具有耦合到所述内核缓冲器的第一输入和耦合到所述特征线缓冲器的第二输入，其中所述多个MAC单元均被布置为将来自所述内核缓冲器的数据与来自所述特征线缓冲器的数据相乘以产生乘积，所述MAC模块进一步被布置为对所述乘积累加并将所累加的乘积数据传递到所述加法器树。10.根据权利要求9所述的硬件加速器引擎，包括：输出缓冲器，用于从所述加法器树接收求和数据，其中所述输出缓冲器被布置为经由所述至少一个输出总线将所述求和数据传递到所述串流开关的经选择的输入总线端口。11.一种用于实现深度卷积神经网络(DCNN)的一部分的硬件加速器引擎方法，所述方法包括：执行批次计算，所述批次计算包括：经由串流开关的第一输出端口将特征数据串流接收到特征数据缓冲器中；经由所述串流开关的第二输出端口将内核数据串流接收到内核数据缓冲器中；经由所述串流开关的第三...

【专利技术属性】
技术研发人员：T·勃伊施，G·德索利，
申请(专利权)人：意法半导体股份有限公司，意法半导体国际有限公司，
类型：发明
国别省市：意大利,IT

全部详细技术资料下载我是这个专利的主人