用于深度学习框架的细粒度计算通信执行制造技术

技术编号：19427902 阅读：19 留言：0更新日期：2018-11-14 11:05

一个实施例提供用于配置神经网络的分布式训练的系统。该系统包括：存储器，所述存储器用于存储用以促进所述神经网络的分布式训练期间的数据传输的库；网络接口，所述网络接口用于发送和接收与所述可训练参数相关联的梯度数据；通用处理器，所述通用处理器用于执行由所述库提供的指令，所述指令使所述通用处理器将所述网络接口配置成在机器学习框架的工作流期间发送和接收与所述可训练参数相关联的所述梯度数据；以及图形处理器，所述图形处理器用于执行与机器学习框架工作流相关联的计算操作，以生成与所述可训练参数相关联的所述梯度数据，其中，基于所述机器学习框架工作流，所述库将所述图形处理器上的所述计算操作与经由所述网络接口的梯度数据的发送和接收进行交错。

全部详细技术资料下载

【技术实现步骤摘要】
用于深度学习框架的细粒度计算通信执行交叉引用本申请要求2017年5月5日提交的62/502,453号美国临时申请的权益，该美国临时申请藉此通过引用而被纳入本文。
实施例总体上涉及数据处理，且更具体地涉及经由通用图形处理单元进行的数据处理。
技术介绍
当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法，这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上，图形处理器使用固定功能计算单元来处理图形数据；然而，最近，图形处理器的多个部分已变得可编程，从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为进一步提高性能，图形处理器通常实施处理技术(比如，流水线操作)，这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中，多组并行线程试图尽可能经常地一起同步执行程序指令，以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在以下两者中找到：ShaneCook的CUDA编程(CUDAProgramming)，第3章，第37-51页(2013年)；和/或NicholasWilt的CUDA手册(GPU编程的综合指南(AComprehensiveGuidetoGPUProgramming))，章节2.6.2到3.1.2(2013年6月)。附图说明为使得可以详细地理解本专利技术的特征，可通过参考实施例来具有对本专利技术的更具体的描述，在附图中展示了这些实施例中的一些。然而，应注意的是，附图...

【技术保护点】
1.一种用于配置神经网络的分布式训练的系统，所述系统包括：存储器，所述存储器用于存储库，所述库用于促进所述神经网络的分布式训练期间的数据传输，所述数据与所述神经网络的可训练参数相关联；网络接口，所述网络接口用于发送和接收与所述可训练参数相关联的梯度数据；通用处理器，所述通用处理器用于执行由所述库提供的指令，所述指令使所述通用处理器将所述网络接口配置成在机器学习框架的工作流期间发送和接收与所述可训练参数相关联的所述梯度数据；以及图形处理器，所述图形处理器用于执行与机器学习框架工作流相关联的计算操作，以生成与所述可训练参数相关联的所述梯度数据，其中，基于所述机器学习框架工作流，所述库将所述图形处理器上的所述计算操作与经由所述网络接口的梯度数据的发送和接收进行交错。

【技术特征摘要】
2017.05.05 US 62/502,453;2018.01.12 US 15/869,5021.一种用于配置神经网络的分布式训练的系统，所述系统包括：存储器，所述存储器用于存储库，所述库用于促进所述神经网络的分布式训练期间的数据传输，所述数据与所述神经网络的可训练参数相关联；网络接口，所述网络接口用于发送和接收与所述可训练参数相关联的梯度数据；通用处理器，所述通用处理器用于执行由所述库提供的指令，所述指令使所述通用处理器将所述网络接口配置成在机器学习框架的工作流期间发送和接收与所述可训练参数相关联的所述梯度数据；以及图形处理器，所述图形处理器用于执行与机器学习框架工作流相关联的计算操作，以生成与所述可训练参数相关联的所述梯度数据，其中，基于所述机器学习框架工作流，所述库将所述图形处理器上的所述计算操作与经由所述网络接口的梯度数据的发送和接收进行交错。2.如权利要求1所述的系统，其特征在于，计算操作被配置成与经由所述网络接口发送或接收梯度数据的通信操作重叠。3.如权利要求2所述的系统，所述机器学习框架工作流用于使所述图形处理器执行与所述神经网络的第一层的第一部分相关联的计算操作。4.如权利要求3所述的系统，其特征在于，响应于完成与所述神经网络的第一层的第一部分相关联的所述计算操作的通知，所述库用于使所述网络接口发送所述计算操作的结果。5.如权利要求4所述的系统，所述网络接口用于根据通信模式来发送所述结果，所述通信模式用于在所述神经网络的分布式训练期间要在工作者节点之间进行传输的消息。6.如权利要求5所述的系统，其特征在于，所述通信模式是聚集、散播、全聚集、全互换、归约、归约_散播、或者全归约。7.如权利要求1所述的系统，其特征在于，所述网络接口是用于实现到通信结构的连接的结构接口，所述通信结构用于将分布式训练网络的工作者节点互连。8.如权利要求7所述的系统，其特征在于，所述结构接口是外围部件互连快速接口。9.如权利要求7所述的系统，其特征在于，所述结构接口是NVLink接口。10.如权利要求7-9中任一项所述的系统，其特征在于，所述图形处理器包括所述结构接口的至少一部分。11.一种执行神经网络的分布式训练的方法，所述方法包括：将库存储到存储器中，所述库用于促进所述神经网络的分布式训练期间的数据传输，所述数据与所述神经网络的可训练参数相关联；经由网络接口发送和接收与所述可训练参数相关联的梯度数据；经由通用处理器执行由所述库提供的指令，所述指令使所述通用处理器将所述网络接口配置成在机器学习框架的工作流期间发送和接收与所述可训练参数相关联的所述梯度数据；以及经由图形处理器执行与机器学习框架工作流相关联的计算操作，以生成与所述可训练参数相关联的所述梯度数据，所述计算操作与经由所述网络接口的梯度数据的发送和接收交错。12.如权利要求11所述的方法，附加地包括将计算操作配置成与经...

【专利技术属性】
技术研发人员：S·斯瑞哈兰，D·穆迪盖雷，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人