当前位置: 首页 > 专利查询>英特尔公司专利>正文

卷积神经网络优化机构制造技术

技术编号:19321504 阅读:16 留言:0更新日期:2018-11-03 11:27
本发明专利技术涉及卷积神经网络优化机构。公开了一种促进卷积神经网络(CNN)的优化的装置。所述装置包括优化逻辑,所述优化逻辑要接收具有指令列表的CNN模型,并且所述优化逻辑包括通过消除所述指令列表中包括权重值0的分支对所述指令列表进行优化的修剪逻辑。

Convolution neural network optimization mechanism

The invention relates to a convolution neural network optimization mechanism. A device for optimizing the convolution neural network (CNN) is disclosed. The device includes an optimization logic that receives a CNN model with an instruction list, and the optimization logic includes pruning logic that optimizes the instruction list by eliminating branches of the instruction list that include a weight value of 0.

【技术实现步骤摘要】
卷积神经网络优化机构
实施例大体上涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。版权通告本专利文档的公开内容的一部分包含受到(版权或掩模作品)保护的材料。(版权或掩模作品)拥有者不反对由任何人对该专利文档或该专利公开内容的摹真复制,由于其出现在专利和商标局专利文件或记录中,但是,(版权或掩模作品)拥有者无论如何都以其他方式保留所有(版权或掩模作品)权利。
技术介绍
当前的并行图形数据处理包括被开发以对图形数据执行特定操作的系统和方法,这些特定操作诸如例如线性内插、镶嵌、栅格化、纹理映射、深度测试等。传统上,图形处理器使用了固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为了进一步提高性能,图形处理器通常实现处理技术(诸如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在ShaneCook的CUDA编程(CUDAProgramming),第3章,第37-51页(2013年)中找到。附图说明为了以能够详细理解本专利技术实施例的以上记载特征的方式,可以通过参考实施例来进行以上简要概括的实施例的更具体的描述,这些实施例中的一些在所附附图中被图示。然而,应当注意,所附附图仅图示了典型实施例,并因此不应被认为是对其范围的限制。图1是图示了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图;图2A至2D图示了根据实施例的并行处理器部件;图3A至3B是根据实施例的图形多处理器的框图;图4A至4F图示了其中多个GPU通信地耦合到多个多核处理器的示例性架构;图5图示了根据实施例的图形处理流水线;图6图示了根据实施例的采用优化机构的计算设备;图7A是图示了用于修剪神经网络网络的机构的一个实施例的流程图;图7B图示了图元的列表的一个实施例;图7C是图示了用于处理卷积窗口的机构的一个实施例的流程图;图8图示了根据实施例的机器学习软件堆叠;图9图示了根据实施例的高度并行的通用图形处理单元;图10图示了根据实施例的多GPU计算系统;图11A至11B图示了示例性深度神经网络的层;图12图示了示例性递归神经网络;图13图示了深度神经网络的训练和部署;图14是图示了分布式学习的框图;图15图示了适合于使用训练模型执行推断的示例性推断片上系统(SOC);图16是根据实施例的处理系统的框图;图17是根据实施例的处理器的框图;图18是根据实施例的图形处理器的框图;图19是根据一些实施例的图形处理器的图形处理引擎的框图;图20是由附加实施例提供的图形处理器的框图;图21图示了包括在一些实施例中采用的处理元件阵列的线程执行逻辑;图22是图示了根据一些实施例的图形处理器指令格式的框图;图23是根据另一实施例的图形处理器的框图;图24A至24B图示了根据一些实施例的图形处理器命令格式和命令序列;图25图示了根据一些实施例的数据处理系统的示例性图形软件架构;图26是图示了根据实施例的IP核开发系统的框图;图27是图示了根据实施例的示例性片上系统集成电路的框图;图28是图示了附加示例性图形处理器的框图;以及图29是图示了根据实施例的片上系统集成电路的附加示例性图形处理器的框图。具体实施方式在一些实施例中,公开了用于优化卷积神经网络(CNN)的机构。在一些实施例中,优化机构包括用于产生实现网络的硬件优化可执行文件的修剪机构。在这样的实施例中,通过遍历指令列表来在分支上执行优化,以消除从0权重值下降的所有分支并跳过具有1权重值的分支。在其他实施例中,该机构包括针对在CNN处提供的卷积运算的量化和反量化而实现的图元。在更进一步的实施例中,优化机构包括卷积窗口处理机构,其消除与先前接收到的窗口相比不包括显著附加信息的卷积窗口,这得到了常用图像的压缩表示。在以下描述中,阐述了很多特定细节以提供更透彻的理解。然而,本领域技术人员应当理解,没有这些特定细节中的一个或多个,也可以实践本文中所描述的实施例。在其他实例中,未描述公知的特征以避免使本专利技术实施例的细节变得模糊。系统概述图1是图示了被配置成实现本文所述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101,所述处理子系统具有一个或多个处理器102和系统存储器104,所述一个或多个处理器和所述系统存储器经由互连路径进行通信,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,或者可以集成在一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,所述I/O中枢可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,I/O中枢107可以使得显示控制器(所述显示控制器可以被包括在一个或多个处理器102中)能够向一个或多个显示设备110A提供输出。在一个实施例中,与I/O中枢107耦合的一个或多个显示设备110A可以包括本地显示设备、内部显示设备或嵌入式显示设备。在一个实施例中,处理子系统101包括一个或多个并行处理器112,所述一个或多个并行处理器经由总线或其他通信链路113耦合至存储器中枢105。通信链路113可以是任意数量的基于标准的通信链路技术或协议(诸如但不限于PCIExpress)中的一个,或者可以是供应方特定的通信接口或通信结构。在一个实施例中,一个或多个并行处理器112形成以计算为中心的并行或向量处理系统,所述系统包括大量处理核和/或处理集群,诸如集成众核(MIC)处理器。在一个实施例中,一个或多个并行处理器112形成图形处理子系统,所述图形处理子系统可以向经由I/O中枢107耦合的一个或多个显示设备110A中的一个输出像素。一个或多个并行处理器112还可以包括显示控制器和显示接口(未示出)以实现到一个或多个显示设备110B的直接连接。在I/O子系统111内,系统存储单元114可以连接至I/O中枢107来为计算系统100提供存储机制。I/O开关116可以用于提供接口机制以实现I/O中枢107和可以集成到平台中的其他部件(诸如网络适配器118和/或无线网络适配器119)以及可以经由一个或多个插入式设备120添加的各种其他设备之间的连接。网络适配器118可以是以太网适配器或另一种有线网络适配器。无线网络适配器119可以包括Wi-Fi、蓝牙、近场通信(NFC)或包括一个或多个无线电装置的其他网络设备中的一个或多个。计算系统100可以包括未显式示出的其他部件,这些部件包括USB或其他端口连接件、光存储驱动器、视频捕获设备等,也可以连接至I/O中枢107。图1中将各种部件互连的通信路径可以使用任何合适的协议(诸如基于PCI(外围部件互连)的协议(例如,PCI-Express))或(多个)任何其他总线或点对点通信接口和/或协议(诸如NV-Link高速互连件或本领域中已知的互连协议)来实现。本文档来自技高网...

【技术保护点】
1.一种促进卷积神经网络(CNN)的优化的装置,包括;图形处理单元,具有执行NN运算的多个执行单元;以及优化逻辑,用于接收具有指令列表的CNN模型,并通过消除所述指令列表中包括第一权重值的分支对所述指令列表进行优化。

【技术特征摘要】
2017.04.17 US 15/4885511.一种促进卷积神经网络(CNN)的优化的装置,包括;图形处理单元,具有执行NN运算的多个执行单元;以及优化逻辑,用于接收具有指令列表的CNN模型,并通过消除所述指令列表中包括第一权重值的分支对所述指令列表进行优化。2.如权利要求1所述的装置,其中所述优化逻辑包括:修剪逻辑,用于通过忽视所述CNN模型中包括第二权重值的分支来对所述指令列表进行优化。3.如权利要求2所述的装置,其中所述修剪逻辑进一步通过消除所述CNN模型中具有所述第一权重值的预定阈值内的权重值的分支来对所述指令列表进行优化。4.如权利要求2所述的装置,其中所述修剪逻辑在接收到所述CNN模型时将所述CNN模型扩充到初等运算中。5.如权利要求4所述的装置,其中所述修剪逻辑压缩经优化的指令列表中的指令的表示。6.如权利要求4所述的装置,其中所述修剪逻辑生成执行经优化的指令列表中的指令的可执行应用。7.如权利要求1所述的装置,其中所述优化逻辑包括:一组量化图元,用于转换浮点数以执行在所述CNN处提供的卷积运算。8.如权利要求7所述的装置,其中所述优化逻辑进一步包括:一组反量化图元,用于转换浮点和整数。9.如权利要求1所述的装置,其中所述优化逻辑包括:窗口处理逻辑,用于消除与先前接收到的卷积窗口相比不包括附加信息的...

【专利技术属性】
技术研发人员:马立伟E奥尔德艾哈迈德瓦尔B拉克什马南BJ阿什鲍格J金J博特莱森MB麦克弗森K尼利斯D斯利瓦斯塔瓦J雷PT唐MS斯特里克兰X陈姚安邦T斯派斯曼A科克AR阿普
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1