用于神经网络的方法和装置制造方法及图纸

技术编号:24290367 阅读:13 留言:0更新日期:2020-05-26 20:22
本发明专利技术题为“用于神经网络的方法和装置”。本发明专利技术提供了一种信号处理系统,所述信号处理系统包括与加速器通信的中央处理单元(CPU)以及与所述加速器通信的指令调度器。第一存储器设备包括被配置为操作所述加速器的第一指令集以及被配置为操作所述CPU的第二指令集,并且第二存储器设备被配置为接收数据文件。所述加速器包括多个处理引擎(PE)和指令调度器,所述指令集包括多个运算符,并且所述指令调度器被配置为采用所述PE在所述加速器中实现所述运算符。所述CPU采用在所述加速器中实现的所述运算符来分析所述数据文件以从中提取特征。

Methods and devices for neural networks

【技术实现步骤摘要】
用于神经网络的方法和装置
技术介绍
人工神经网络是一种采用多个机器学习算法一起处理复杂数据文件(例如,视觉图像、音频文件等)的计算框架。用于实现人工神经网络的处理器配置可能具有次优性能。计算机或处理器的性能可以根据指令执行速率或吞吐量来评估,该指令执行速率或吞吐量可以每秒百万条指令(MIPS)、时钟速度、总线大小、资源利用率、存储器大小、延迟、带宽、吞吐量等来表示。人工神经网络包括输入层、一个或多个隐藏层以及输出层。可以被配置为执行神经网络的硬件的一些实施方案可为每个层定义固定配置。这种布置可能是次优的,因为层可能具有不同的并行性,不同的并行性最好用不同的性能引擎(PE)提供服务。过度提供PE可导致成本增加、可靠性降低且功耗过大。用于实现神经网络的硬件配置可包括中央处理单元(CPU),其与加速器一起操作以处理图像文件或在存储器设备上捕获的其他数据。加速器可利用图形处理单元(GPGPU)、多核处理器、现场可编程门阵列(FPGA)和专用集成电路(ASIC)上的通用计算形式的专用硬件。神经网络的一个实施方案是卷积神经网络(CNN),已证明这种神经网络是用于执行图像识别、检测和检索的有效工具。CNN可按比例放大并被配置为支持学习过程所需的大标记数据集。在这些条件下,已发现CNN在学习复杂且稳健的图像特征方面很成功。CNN是一种前馈人工神经网络,在这种神经网络中,各个神经元以使得它们对视场中的重叠区域作出响应的方式平铺。
技术实现思路
本专利技术公开了一种信号处理系统,该信号处理系统包括与加速器通信的中央处理单元(CPU)以及与加速器通信的指令调度器。第一存储器设备包括被配置为操作加速器的第一指令集以及被配置为操作CPU的第二指令集,并且第二存储器设备被配置为接收数据文件。加速器包括多个处理引擎(PE)和指令调度器,指令集包括多个运算符,并且指令调度器被配置为采用PE在加速器中实现运算符。CPU采用在加速器中实现的运算符来分析数据文件以从中提取特征。本公开的一方面包括数据文件是由相机捕获的视场的位图图像文件,其中CPU采用加速器从位图图像文件提取特征。本公开的另一方面包括信号处理系统与被设置成执行控制动作的控制系统通信,其中控制系统被设置成基于从位图图像文件提取的特征来执行控制动作。本公开的另一方面包括运算符包括由PE中的一个实现的可组合整流线性(ReLU)运算符。本公开的另一方面包括运算符,其包括由PE中的一个实现的可组合池化运算符。本公开的另一方面包括可组合池化运算符是最大池化运算符。本公开的另一方面包括可组合池化运算符是平均池化运算符。本公开的另一方面包括指令调度器被配置为采用PE在加速器中实现运算符,包括被配置为实现PE中的单个PE以处理应用于单个输入特征的单个数据内核以实现单个输出特征。本公开的另一方面包括指令调度器被配置为实现并行布置的PE中的多个复制PE以处理数据内核图块。本公开的另一方面包括指令调度器被配置为实现多个并行布置的PE中的多个副本PE以处理数据内核的多个图块。本公开的另一方面包括在加速器中实现的运算符是可组合整流线性(ReLU)运算符。本公开的另一方面包括第一合并布置,该第一合并布置包括处理单元,该处理单元处理单个数据图块以使与ReLU运算符串联的卷积运算生效。本公开的另一方面包括在加速器中实现的运算符是包括处理单元的第二合并布置,该处理单元处理多个数据图块以使与被配置为使池化运算生效的处理引擎串联设置的卷积运算生效。本公开的另一方面包括第三合并布置,该第三合并布置包括第一处理单元,该第一处理单元被配置为处理多个数据图块以使与被配置为处理多个数据图块以使卷积运算生效的第二处理单元串联布置的卷积运算生效,该第三合并布置包括中间数据缓冲器。本公开的另一方面包括用于车辆的车辆控制系统,该车辆控制系统包括:相机,该相机被设置成捕获与其邻近的视场;控制系统,该控制系统被配置为控制车辆的致动器的操作;以及信号处理系统,该信号处理系统包括控制器、加速器和存储器设备,其中加速器包括多个处理引擎(PE)。信号处理系统与相机和控制系统通信。控制器包括指令集。控制器可操作以经由相机捕获视场的图像,其中图像由位图图像文件构成。位图图像文件被传送到存储器设备,并且加速器实现多个运算符,其中多个运算符源自指令集。控制器执行多个运算符以从位图图像文件中提取特征,并且控制系统基于从位图图像文件提取的特征来控制车辆的致动器的操作。当结合附图时,根据以下对用于执行如所附权利要求中限定的本教导内容的最佳模式和其他实施方案中的一些的详细描述,本教导内容的上述特征和优点以及其他特征和优点将是显而易见的。附图说明现在将参考附图以举例的方式描述一个或多个实施方案,其中:图1示意性地示出了根据本公开的包括被配置为执行人工神经网络的中央处理单元(CPU)和加速器的信号处理系统,其中该信号处理系统是包括感测系统和控制系统的车辆控制系统的元件;图2示意性地示出了根据本公开的采用单个处理引擎(PE)可在加速器中实现的指令集的一部分;图3-1示意性地示出了根据本公开的三个位图图像文件形式的数据输入以及相关过滤器,其中位图图像文件中的每一个被构成为以x-y矩阵布置的多个像素;图3-2示意性地示出了根据本公开的经由处理单元进行特征检测的过程,该处理单元采用单个处理引擎来处理单个数据内核(PE-K单元),该单个数据内核针对图3-1的位图图像文件的每个像素采用应用于单个输入特征(IF)的K×K大小的过滤器,以实现单个输出特征(OF);图3-3示意性地示出了根据本公开的经由处理单元进行特征检测的过程的非限制性实施方案,该处理单元处理包含m×m数据内核(PE-T单元)的数据图块,其中PE-T单元由一定数量的PE-K单元的m个副本构成;图3-4示意性地示出了根据本公开的经由处理单元进行特征检测的过程的非限制性实施方案,该处理单元处理多个数据图块,每个图块包含m个数量的k×k数据内核(PE-W单元),其中PE-W单元由一定数量的PE-T单元的n个副本构成;图4-1示意性地示出了根据本公开的第一配置,其中输入存储器包括具有3×3像素尺寸的第一内核;图4-2示意性地示出了根据本公开的第二配置,其中输入存储器包括具有4×4像素尺寸的第二内核;图4-3示意性地示出了根据本公开的第三配置,其中输入存储器包括具有5×5像素尺寸的第三内核;图5示意性地示出了根据本公开的用于可组合整流线性(ReLU)运算符的基于硬件的处理单元,该运算符通过在硬件中实现来加速ReLU计算的执行;图6示意性地示出了根据本公开的用于可组合池化运算符的基于硬件的处理单元,该运算符通过在硬件中实现来加速池化计算(例如,maxpool、avgpool)的执行;图7示意性地示出了根据本公开的第一合并布置,该第一合并布置包括将PE-T单元(参考图3-3所示)的实施方案布置成与ReLU运算符(参考图5所示)本文档来自技高网...

【技术保护点】
1.一种信号处理系统,包括:/n中央处理单元(CPU),所述中央处理单元(CPU)与加速器通信;/n指令调度器,所述指令调度器与所述加速器通信;/n第一存储器设备,所述第一存储器设备包括被配置为操作所述加速器的第一指令集以及被配置为操作所述CPU的第二指令集;/n第二存储器设备,所述第二存储器设备被配置为接收数据文件;以及/n所述加速器,所述加速器包括多个处理引擎(PE);/n其中所述第一指令集包括多个运算符;/n其中所述指令调度器被配置为采用所述PE在所述加速器中实现所述多个运算符;/n其中所述CPU采用在所述加速器中实现的所述多个运算符来分析所述数据文件以从所述数据文件提取特征;并且/n其中所述CPU将所述特征传送到第二控制器。/n

【技术特征摘要】
20181116 US 16/1933031.一种信号处理系统,包括:
中央处理单元(CPU),所述中央处理单元(CPU)与加速器通信;
指令调度器,所述指令调度器与所述加速器通信;
第一存储器设备,所述第一存储器设备包括被配置为操作所述加速器的第一指令集以及被配置为操作所述CPU的第二指令集;
第二存储器设备,所述第二存储器设备被配置为接收数据文件;以及
所述加速器,所述加速器包括多个处理引擎(PE);
其中所述第一指令集包括多个运算符;
其中所述指令调度器被配置为采用所述PE在所述加速器中实现所述多个运算符;
其中所述CPU采用在所述加速器中实现的所述多个运算符来分析所述数据文件以从所述数据文件提取特征;并且
其中所述CPU将所述特征传送到第二控制器。


2.根据权利要求1所述的信号处理系统,其中所述数据文件包括由相机捕获的视场的位图图像文件,并且
其中所述CPU采用所述加速器以从所述位图图像文件提取所述特征。


3.根据权利要求2所述的信号处理系统,其中所述信号处理系统与被设置成执行控制动作的控制系统通信,并且
其中所述控制系统被设置成基于从所述位图图像文件提取的所述特征来执行所述控制动作。


4.根据权利要求1所述的信号处理系统,其中所述多个运算符包括由所述PE中的一个实现的可组合整流线性(ReLU)运算符。


5.根据权利要求1所述的信号处理系统,其中所述多个运算符包括...

【专利技术属性】
技术研发人员:S·王佟维曾树青R·L·米利特
申请(专利权)人:通用汽车环球科技运作有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1