当前位置: 首页 > 专利查询>英特尔公司专利>正文

频域中的子图和对GPU上的卷积实现的动态选择制造技术

技术编号:19240835 阅读:38 留言:0更新日期:2018-10-24 04:12
本发明专利技术涉及频域中的子图和对GPU上的卷积实现的动态选择。在示例中,一种装置包括多个执行单元;以及逻辑,所述逻辑至少部分地包括硬件逻辑,用以确定可以在频域中执行的网络的子图并且在频域中在所述子图中应用计算。还公开并要求保护其他实施例。

【技术实现步骤摘要】
频域中的子图和对GPU上的卷积实现的动态选择
实施例一般地涉及数据处理,并且更具体地涉及经由通用图形处理单元的机器学习处理。
技术介绍
机器学习已经在解决许多种任务上获得成功。在训练和使用机器学习算法(例如,神经网络)时产生的计算自然地有助于高效的并行实现。因此,诸如通用图形处理单元(GPGPU)之类的并行处理器在深度神经网络的实际实现中发挥了重要作用。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理的量最大化。在SIMT架构中,并行线程的组尝试尽可能经常地一起同步执行程序指令以增加处理效率。并行机器学习算法实现所提供的效率允许对高容量网络的使用并且使得那些网络能够被关于较大数据集进行训练。附图说明使得可以详细地理解本专利技术的实施例的以上记载特征的方式,可以参考实施例对以上简要概括的实施例进行较具体的描述,所述实施例中的一些被图示在附图中。然而,要注意,附图仅图示典型实施例,并因此不要被认为限制其范围。图1是图示了被配置成实现本文中所描述的实施例的一个或多个方面的计算机系统的框图。图2A-2D图示了根据实施例的并行处理器部件。图3A-3B是根据实施例的图形多处理器的框图。图4A-4F图示了其中多个GPU通信地耦合至多个多核处理器的示例性架构。图5是根据实施例的图形处理流水线的概念图。图6A-6B和7A-7E图示了依照实施例的技术中的示例性架构和操作。图8图示了根据实施例的机器学习软件栈。图9图示了根据实施例的高度并行的通用图形处理单元。图10图示了根据实施例的多GPU计算系统。图11A-B图示了示例性深度神经网络的层。图12图示了示例性递归神经网络。图13图示了深度神经网络的训练和部署。图14是图示了分布式学习的框图。图15图示了适合于使用经训练的模型来执行推断的示例性推断片上系统(SOC)。图16是根据实施例的处理系统的框图。图17是根据实施例的处理器的框图。图18是根据实施例的图形处理器的框图。图19是依照一些实施例的图形处理器的图形处理引擎的框图。图20是由附加实施例提供的图形处理器的框图。图21图示了线程执行逻辑,所述线程执行逻辑包括在一些实施例中采用的处理元件的阵列。图22是图示了根据一些实施例的图形处理器指令格式的框图。图23是根据另一实施例的图形处理器的框图。图24A-24B图示了根据一些实施例的图形处理器命令格式和命令序列。图25图示了根据一些实施例的数据处理系统的示例性图形软件架构。图26是图示了根据实施例的IP核开发系统的框图。图27是图示了根据实施例的示例性片上系统集成电路的框图。图28是图示了附加示例性图形处理器的框图。图29是图示了根据实施例的片上系统集成电路的附加示例性图形处理器的框图。具体实施方式在以下描述中,阐述了很多特定细节以便提供对各种实施例的彻底理解。然而,可以在没有特定细节的情况下实践各种实施例。在其他实例中,没有详细地描述公知的方法、过程、部件和电路以便不使特定实施例模糊。进一步,可以使用各种手段来执行实施例的各种方面,所述手段诸如集成半导体电路(“硬件”)、组织成一个或多个程序(“软件”)的计算机可读指令,或硬件和软件的某个组合。出于本公开的目的,对“逻辑”的引用将意味着硬件、软件、固件或其某个组合。可以在任何处理器(诸如GPCPU、CPU、GPU等)、图形控制器等中应用本文中所讨论的一些实施例。还公开并要求保护其他实施例。进一步地,可以在包括(例如具有一个或多个处理器核的)一个或多个处理器的计算系统中应用一些实施例,所述计算系统诸如本文中所讨论的那些,包括例如移动计算设备,例如智能电话、平板、UMPC(超级移动个人计算机)、膝上型计算机、超极本TM计算设备、可穿戴设备(诸如智能手表或智能眼镜)等。在一些实施例中,图形处理单元(GPU)通信地耦合至主机/处理器核以使图形操作、机器学习操作、模式分析操作、以及各种通用GPU(GPGPU)功能加速。GPU可通过总线或另一互连(例如,诸如PCIe或NVLink之类的高速互连)通信地耦合至主机处理器/核。在其他实施例中,GPU可被集成在与核相同的封装或芯片上,并通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合至核。不管GPU被连接的方式,处理器核都可以以工作描述符中所包含的命令/指令的序列的形式将工作分配给GPU。GPU然后使用专用电路/逻辑以用于高效地处理这些命令/指令。在以下描述中,阐述了很多特定细节来提供更彻底的理解。然而,将对本领域技术人员显而易见的是,可以在没有这些特定细节中的一个或多个的情况下实践本文中所描述的实施例。在其他实例中,没有描述公知的特征以避免使本专利技术的实施例的细节模糊。系统概述图1是图示了被配置成实现本文中所描述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101,所述处理子系统101具有经由互连路径进行通信的一个或多个处理器102和系统存储器104,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,或者可以集成在所述一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,所述I/O中枢107可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,I/O中枢107可以使得显示控制器能够向一个或多个显示设备110A提供输出,所述显示控制器可以被包括在所述一个或多个处理器102中。在一个实施例中,与I/O中枢107耦合的所述一个或多个显示设备110A可以包括本地的、内部的或嵌入式的显示设备。在一个实施例中,处理子系统101包括一个或多个并行处理器112,所述一个或多个并行处理器112经由总线或其他通信链路113耦合至存储器中枢105。通信链路113可以是任何数量的基于标准的通信链路技术或协议(诸如但不限于PCIExpress)中的一个,或者可以是供应方特定的通信接口或通信结构。在一个实施例中,所述一个或多个并行处理器112形成计算集中的并行或向量处理系统,所述系统包括大量处理核和/或处理集群,诸如集成众核(MIC)处理器。在一个实施例中,所述一个或多个并行处理器112形成图形处理子系统,所述图形处理子系统可以向经由I/O中枢107耦合的所述一个或多个显示设备110A中的一个输出像素。所述一个或多个并行处理器112还可以包括显示控制器和显示接口(未示出)以使得能实现到一个或多个显示设备110B的直接连接。在I/O子系统111内,系统存储单元114可以连接至I/O中枢107来为计算系统100提供存储机制。I/O开关116可以用于提供接口机制,以使得能实现I/O中枢107与可以集成到平台中的其他部件(诸如网络适配器118和/或无线网络适配器119)和可以经由一个或多个插入式设备120添加的各种其他设备之间的连接。网络适配器118可以是以太网适配器或另一有线网络适配器。无线网络适配器119可以包括如下中的一个或多个:Wi-Fi、蓝牙、近场通信(NFC)或包括一个或多个无线电装置的其他网络设备。计算系统100可以包括未明确示出的其他部件,所述其他部件包括USB或其他端口连接、光存储驱动器、视频捕获设备等本文档来自技高网...

【技术保护点】
1.一种装置,包括:多个执行单元;以及逻辑,其至少部分地包括硬件逻辑,用以:确定能够在频域中执行的网络的子图;以及在频域中在所述子图中应用计算。

【技术特征摘要】
2017.04.08 US 15/4827241.一种装置,包括:多个执行单元;以及逻辑,其至少部分地包括硬件逻辑,用以:确定能够在频域中执行的网络的子图;以及在频域中在所述子图中应用计算。2.根据权利要求1所述的装置,进一步包括逻辑,至少部分地包括硬件逻辑,用以:至少部分地基于针对所述网络中的每个卷积运行短暂比较来动态地选择卷积实现。3.根据权利要求2所述的装置,其中:所述选择在运行时实现。4.一种电子设备,包括:处理器,其具有多个执行;以及逻辑,其至少部分地包括硬件逻辑,用以:确定能够在频域中执行的网络的子图;以及在频域中在所述子图中应用计算。5.根据权利要求4所述的电子设备,进一步...

【专利技术属性】
技术研发人员:E科亨A布莱魏斯U萨雷尔M贝哈尔J苏巴格A阿蒙G莱博维奇G雅各布L费维舍夫斯基T巴尔安Y沙的米伊J德雷富斯I本阿里Y费斯T施瓦茨
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1