对机器学习模型的动态分布训练制造技术

技术编号：19322243 阅读：23 留言：0更新日期：2018-11-03 11:48

本申请公开了对机器学习模型的动态分布训练。在示例中，一种装置包括：多个执行单元，包括至少第一类型的执行单元和第二类型的执行单元，以及逻辑，该逻辑至少部分地包括硬件逻辑，用于对工作负荷进行分析并且将工作负荷分配给第一类型的执行单元或第二类型的执行单元中的一个。还公开并要求保护其他实施例。

Dynamic distribution training for machine learning models

This application discloses dynamic distribution training for machine learning models. In an example, a device includes a plurality of execution units, including at least the first type of execution unit and the second type of execution unit, as well as logic, which at least partially includes hardware logic for analyzing workload and assigning workload to the first type of execution unit or the second type of execution unit. One of the execution units. Other embodiments are also disclosed and requested.

全部详细技术资料下载

【技术实现步骤摘要】
对机器学习模型的动态分布训练
实施例大体上涉及数据处理，并且更具体地涉及经由通用图形处理单元的机器学习处理。背景机器学习已经成功地解决了许多类型的任务。当训练和使用机器学习算法(例如，神经网络)时产生的计算自然地适合于高效的并行实现方式。因此，诸如通用图形处理单元(GPGPU)的并行处理器在深度神经网络的实际实现方式中发挥重大作用。具有单指令多线程(SIMT)架构的并行图形处理器设计为使图形流水线中的并行处理量最大化。在SIMT架构中，并行线程组试图尽可能经常地一起同步执行程序指令以提高处理效率。并行机器学习算法实现方式提供的效率允许使用高容量网络并且使这些网络能在较大的数据集上训练。附图说明为了以能够详细理解本实施例的以上记载特征的方式，可以通过参考实施例来对以上简要概括的实施例进行更具体的描述，这些实施例中的一些在所附附图中被示出。然而，应当注意，所附附图仅示出典型实施例，并因此不应被认为是对其范围的限制。图1是示出了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图。图2A至图2D示出了根据实施例的并行处理器部件。图3A至图3B是根据实施例的图形多处理器的框图。图4A至图4F示出了其中多个GPU通信地耦合至多个多核处理器的示例性架构。图5是根据实施例的图形处理流水线的概念图。图6和图7A至图7D示出了根据实施例的技术中的示例性架构和操作。图8示出了根据实施例的机器学习软件栈。图9示出了根据实施例的高度并行的通用图形处理单元。图10示出了根据实施例的多GPU计算系统。图11A至图11B示出了示例性深度神经网络的层。图12示出了示例性递归...

【技术保护点】
1.一种装置，包括：多个计算引擎，包括逻辑，所述逻辑至少部分地包括硬件逻辑，用于训练神经网络；以及硬件引擎，用于使权重更新过程加速以用于训练所述神经网络。

【技术特征摘要】
2017.04.24 US 15/494,9711.一种装置，包括：多个计算引擎，包括逻辑，所述逻辑至少部分地包括硬件逻辑，用于训练神经网络；以及硬件引擎，用于使权重更新过程加速以用于训练所述神经网络。2.如权利要求1所述的装置，其特征在于：所述硬件引擎实现用于使来自所述神经网络中的多个节点的权重平均的快速操作。3.如权利要求2所述的装置，其特征在于：所述神经网络包括多个子神经网络；以及每个子神经网络被分开地训练。4.如权利要求3所述的装置，其特征在于：所述多个子神经网络根据优先级操作。5.如权利要求4所述的装置，其特征在于：第一子神经网络的输出可以被提供为第二子神经网络的输入。6.如权利要求1所述的装置，其特征在于：所述神经网络的决策例程在至少两个不同计算引擎上执行。7.如权利要求6所述的装置，其特征在于，进一步包括逻辑，所述逻辑至少部分地包括硬件逻辑，用于：对在所述至少两个不同计算引擎上执行的所述决策例程的结果进行比较。8.如权利要求7所述的装置，其特征在于，进一步包括驱动器，所述驱动器包括逻辑，所述逻辑至少部分地包括硬件逻辑，用于：如果在所述至少两个不同计算引擎上执行的所述决策例程的结果匹配，则继续处理。9.如权利要求8所述的装置，其特征在于，进一步包括逻辑，所述逻辑至少部分地包括硬件逻辑，用于：通过使用在所述至少两个不同计算引擎上执行的所述决策例程的结果来生成循环冗余校验(CRC)。10.如权利要求1所述的装置，其特征在于，所述多个计算引擎在单个集成电路上。11.一种电子设备，包括：处理...

【专利技术属性】
技术研发人员：A·考克，A·R·阿普，K·辛哈，J·雷，B·文布，E·乌尔德阿迈德瓦尔，S·S·巴格索克希，姚安邦，K·尼利斯，陈晓明，J·C·韦斯特，J·E·高茨克里奇，P·萨蒂，C·萨科斯维尔，F·阿赫巴里，N·R·萨蒂什，马立伟，J·波特森，E·努维塔蒂，T·T·施吕斯列尔，A·N·沙阿，J·肯尼迪，V·兰甘纳坦，S·加哈吉达，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人