当前位置: 首页 > 专利查询>英特尔公司专利>正文

对机器学习模型的动态分布训练制造技术

技术编号:19322243 阅读:23 留言:0更新日期:2018-11-03 11:48
本申请公开了对机器学习模型的动态分布训练。在示例中,一种装置包括:多个执行单元,包括至少第一类型的执行单元和第二类型的执行单元,以及逻辑,该逻辑至少部分地包括硬件逻辑,用于对工作负荷进行分析并且将工作负荷分配给第一类型的执行单元或第二类型的执行单元中的一个。还公开并要求保护其他实施例。

Dynamic distribution training for machine learning models

This application discloses dynamic distribution training for machine learning models. In an example, a device includes a plurality of execution units, including at least the first type of execution unit and the second type of execution unit, as well as logic, which at least partially includes hardware logic for analyzing workload and assigning workload to the first type of execution unit or the second type of execution unit. One of the execution units. Other embodiments are also disclosed and requested.

【技术实现步骤摘要】
对机器学习模型的动态分布训练
实施例大体上涉及数据处理,并且更具体地涉及经由通用图形处理单元的机器学习处理。背景机器学习已经成功地解决了许多类型的任务。当训练和使用机器学习算法(例如,神经网络)时产生的计算自然地适合于高效的并行实现方式。因此,诸如通用图形处理单元(GPGPU)的并行处理器在深度神经网络的实际实现方式中发挥重大作用。具有单指令多线程(SIMT)架构的并行图形处理器设计为使图形流水线中的并行处理量最大化。在SIMT架构中,并行线程组试图尽可能经常地一起同步执行程序指令以提高处理效率。并行机器学习算法实现方式提供的效率允许使用高容量网络并且使这些网络能在较大的数据集上训练。附图说明为了以能够详细理解本实施例的以上记载特征的方式,可以通过参考实施例来对以上简要概括的实施例进行更具体的描述,这些实施例中的一些在所附附图中被示出。然而,应当注意,所附附图仅示出典型实施例,并因此不应被认为是对其范围的限制。图1是示出了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图。图2A至图2D示出了根据实施例的并行处理器部件。图3A至图3B是根据实施例的图形多处理器的框图。图4A至图4F示出了其中多个GPU通信地耦合至多个多核处理器的示例性架构。图5是根据实施例的图形处理流水线的概念图。图6和图7A至图7D示出了根据实施例的技术中的示例性架构和操作。图8示出了根据实施例的机器学习软件栈。图9示出了根据实施例的高度并行的通用图形处理单元。图10示出了根据实施例的多GPU计算系统。图11A至图11B示出了示例性深度神经网络的层。图12示出了示例性递归神经网络。图13示出了深度神经网络的训练和部署。图14是示出分布式学习的框图。图15示出了适合于使用训练模型执行推断的示例性推断用芯片上系统(SOC)。图16是根据实施例的处理系统的框图。图17是根据实施例的处理器的框图。图18是根据实施例的图形处理器的框图。图19是根据一些实施例的图形处理器的图形处理引擎的框图。图20是由附加实施例提供的图形处理器的框图。图21示出了线程执行逻辑,所述线程执行逻辑包括在一些实施例中采用的处理元件阵列。图22是示出了根据一些实施例的图形处理器指令格式的框图。图23是根据另一个实施例的图形处理器的框图。图24A至图24B示出了根据一些实施例的图形处理器命令格式和命令序列。图25示出了根据一些实施例的数据处理系统的示例性图形软件架构。图26是示出了根据实施例的IP核开发系统的框图。图27是示出了根据实施例的示例性芯片上系统集成电路的框图。图28是示出了附加的示例性图形处理器的框图。图29是示出了根据实施例的芯片上系统集成电路的附加示例性图形处理器的框图。具体实施方式在下面的描述中,阐述了很多特定细节以提供对各实施例的全面理解。然而,在没有这些特定细节的情况下,也可实践各实施例。在其他实例中,未详细描述公知的方法、过程、部件和电路以不使特定实施例变得模糊。此外,诸实施例的各方面可使用各种手段来执行,诸如集成半导体电路(“硬件”)、组织成一个或多个程序的计算机可读指令(“软件”)或硬件与软件的某种组合。出于本公开的目的,对“逻辑”的引用应当意指硬件、软件、固件或其某种组合。本文中所讨论的一些实施例可被应用于任何处理器(诸如,GPCPU、CPU、GPU等)、图形控制器等。还公开并要求保护其他实施例。进一步地,可在包括一个或多个处理器(例如,具有一个或多个处理器核)的计算系统中应用一些实施例,这些计算系统诸如本文中所讨论的那些,包括例如移动计算设备,例如智能电话、平板、UMPC(超级移动个人计算机)、膝上型计算机、超极本TM计算设备、可穿戴设备(诸如智能手表或智能眼镜)等等。在一些实施例中,图形处理单元(GPU)被通信地耦合到主机/处理器核以加速图形操作、机器学习操作、模式分析操作、以及各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如,诸如PCIe或NVLink的高速互连)被通信地耦合到主机处理器/核。在其他实施例中,GPU可被集成在与核相同的封装或芯片上并通过内部处理器总线/互连(即,在封装或芯片的内部)被通信地耦合到核。不管GPU被连接的方式,处理器核可以以工作描述符中包含的命令/指令的序列的形式将工作分配给GPU。GPU然后使用专用电路/逻辑以高效地处理这些命令/指令。在以下描述中,阐述了很多特定细节来提供更全面的理解。然而,将对本领域技术人员显而易见的是,没有这些特定细节中的一个或多个,也可实践本文中所描述的实施例。在其他实例中,未描述公知的特征以避免使本实施例的细节变得模糊。系统概览图1是展示了被配置成实现本文所述的实施例的一个或多个方面的计算机系统100的框图。计算系统100包括处理子系统101,所述处理子系统具有一个或多个处理器102和系统存储器104,所述一个或多个处理器和所述系统存储器经由互连路径进行通信,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,也可以集成在一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,所述I/O中枢可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,I/O中枢107可以使得显示控制器(所述显示控制器可以被包括在一个或多个处理器102中)能够向一个或多个显示设备110A提供输出。在一个实施例中,与I/O中枢107耦合的一个或多个显示设备110A可以包括本地显示设备、内部显示设备或嵌入式显示设备。在一个实施例中,处理子系统101包括一个或多个并行处理器112,所述一个或多个并行处理器经由总线或其他通信链路113耦合至存储器中枢105。通信链路113可以是任意数量的基于标准的通信链路技术或协议(诸如但不限于PCIExpress)中的一个,也可以是供应方特定的通信接口或通信结构。在一个实施例中,一个或多个并行处理器112形成以计算为中心的并行或向量处理系统,所述系统包括大量处理核和/或处理集群诸如集成众核(MIC)处理器。在一个实施例中,一个或多个并行处理器112形成图形处理子系统,所述图形处理子系统可以向经由I/O中枢107耦合的一个或多个显示设备110A中的一个输出像素。一个或多个并行处理器112还可以包括显示控制器和显示接口(未示出)以实现到一个或多个显示设备110B的直接连接。在I/O子系统111内,系统存储单元114可以连接至I/O中枢107来为计算系统100提供存储机制。I/O开关116可以用于提供接口机制以实现I/O中枢107和可以集成到平台中的其他部件诸如网络适配器118和/或无线网络适配器119以及可以经由一个或多个插入式设备120添加的各种其他设备之间的连接。网络适配器118可以是以太网适配器或另一种有线网络适配器。无线网络适配器119可以包括Wi-Fi、蓝牙、近场通信(NFC)或包括一个或多个无线电装置的其他网络设备中的一个或多个。计算系统100可以包括未明确示出的其他部件,这些部件包括USB或其他端口连接件、光存储驱动器、视频捕获设备等,也可以连接至I/O中枢107。图1中将各种部件互连的通信路径可以使本文档来自技高网...

【技术保护点】
1.一种装置,包括:多个计算引擎,包括逻辑,所述逻辑至少部分地包括硬件逻辑,用于训练神经网络;以及硬件引擎,用于使权重更新过程加速以用于训练所述神经网络。

【技术特征摘要】
2017.04.24 US 15/494,9711.一种装置,包括:多个计算引擎,包括逻辑,所述逻辑至少部分地包括硬件逻辑,用于训练神经网络;以及硬件引擎,用于使权重更新过程加速以用于训练所述神经网络。2.如权利要求1所述的装置,其特征在于:所述硬件引擎实现用于使来自所述神经网络中的多个节点的权重平均的快速操作。3.如权利要求2所述的装置,其特征在于:所述神经网络包括多个子神经网络;以及每个子神经网络被分开地训练。4.如权利要求3所述的装置,其特征在于:所述多个子神经网络根据优先级操作。5.如权利要求4所述的装置,其特征在于:第一子神经网络的输出可以被提供为第二子神经网络的输入。6.如权利要求1所述的装置,其特征在于:所述神经网络的决策例程在至少两个不同计算引擎上执行。7.如权利要求6所述的装置,其特征在于,进一步包括逻辑,所述逻辑至少部分地包括硬件逻辑,用于:对在所述至少两个不同计算引擎上执行的所述决策例程的结果进行比较。8.如权利要求7所述的装置,其特征在于,进一步包括驱动器,所述驱动器包括逻辑,所述逻辑至少部分地包括硬件逻辑,用于:如果在所述至少两个不同计算引擎上执行的所述决策例程的结果匹配,则继续处理。9.如权利要求8所述的装置,其特征在于,进一步包括逻辑,所述逻辑至少部分地包括硬件逻辑,用于:通过使用在所述至少两个不同计算引擎上执行的所述决策例程的结果来生成循环冗余校验(CRC)。10.如权利要求1所述的装置,其特征在于,所述多个计算引擎在单个集成电路上。11.一种电子设备,包括:处理...

【专利技术属性】
技术研发人员:A·考克A·R·阿普K·辛哈J·雷B·文布E·乌尔德阿迈德瓦尔S·S·巴格索克希姚安邦K·尼利斯陈晓明J·C·韦斯特J·E·高茨克里奇P·萨蒂C·萨科斯维尔F·阿赫巴里N·R·萨蒂什马立伟J·波特森E·努维塔蒂T·T·施吕斯列尔A·N·沙阿J·肯尼迪V·兰甘纳坦S·加哈吉达
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1