一种加速分布式机器学习的方法及系统技术方案

技术编号：24331915 阅读：86 留言：0更新日期：2020-05-29 20:01

本发明专利技术实施例提供一种加速分布式机器学习的方法及系统，该方法包括：将机器学习模型输入到分布式机器学习系统中，对于所述分布式机器学习系统中的任意两个节点，在所述任意两个节点之间建立多条连接，并赋予这些连接不同的优先级；将所述机器学习模型的参数分配到多条连接上进行传输，使得紧急参数能够通过高优先级连接尽快完成传输，以对分布式机器学习训练进行加速。本发明专利技术实施例考虑前向计算过程中通信和计算的重叠，通过优先传输紧急参数，减少现有机器学习框架下参数传输顺序的随机性，重叠前向计算过程中的通信和计算，隐藏通信开销，并通过网络级别的流调度协调不同节点的通信，实现分布式的通信调度，从而加速训练过程。

A method and system for accelerating distributed machine learning

全部详细技术资料下载

【技术实现步骤摘要】
一种加速分布式机器学习的方法及系统
本专利技术涉及计算机
，尤其涉及一种加速分布式机器学习的方法及系统。
技术介绍
随着数据量的增长，基于数据并行的分布式训练已经成为业界广泛采用的机器学习加速方式。在数据并行中，不同计算节点有同一模型的多个副本，每个计算节点使用不同的训练数据计算模型更新，然后所有计算节点之间汇总模型更新。模型汇总完成后，便开始新一轮计算。随着模型规模的增大(如BERT模型参数量高达3亿)，模型汇总带来的通信开销逐渐成为影响分布式机器学习性能的一大因素。机器学习计算是逐层进行的，并可分为前向计算和反向传播两个阶段：前向计算负责计算模型的损失，反向传播负责计算模型的更新。为了降低通信对分布式机器学习性能的影响，现有方案普遍采用“无需等待的反向传播”方式，即反向传播时，后层模型更新的传输和前层模型更新的计算重叠，以尽可能隐藏模型更新传输的开销。然而，现有方案均未考虑前向计算过程中通信和计算的重叠，参数传输顺序具有随机性，从而导致迭代时间会大大增加，且机器学习效率低下。
技术实现思路
为了解决上述问题，本专利技术实施例提供一种加速分布式机器学习的方法及系统。第一方面，本专利技术实施例提供一种加速分布式机器学习的方法，包括：将机器学习模型输入到分布式机器学习系统中，对于所述分布式机器学习系统中的任意两个节点，在所述任意两个节点之间建立多条连接；将所述机器学习模型的参数分配到多条连接上进行传输，并赋予多条连接不同的优先级，以对分布式机器学习训练进行加速。...

【技术保护点】
1.一种加速分布式机器学习的方法，其特征在于，包括：/n将机器学习模型输入到分布式机器学习系统中，对于所述分布式机器学习系统中的任意两个节点，在所述任意两个节点之间建立多条连接；/n将所述机器学习模型的参数分配到多条连接上进行传输，并赋予多条连接不同的优先级，以对分布式机器学习训练进行加速。/n

【技术特征摘要】
1.一种加速分布式机器学习的方法，其特征在于，包括：
将机器学习模型输入到分布式机器学习系统中，对于所述分布式机器学习系统中的任意两个节点，在所述任意两个节点之间建立多条连接；
将所述机器学习模型的参数分配到多条连接上进行传输，并赋予多条连接不同的优先级，以对分布式机器学习训练进行加速。

2.根据权利要求1所述加速分布式机器学习的方法，其特征在于，所述将所述机器学习模型的参数分配到多条连接上进行传输，具体包括：
对所述分布式机器学习系统中的每条连接设置一个优先级；
对于任一优先级的连接，获取所述任一优先级的连接对应的目标参数，所述目标参数为所述任一优先级的连接需要传输的所述机器学习模型参数；
所述任一优先级的连接对所述目标参数进行传输。

3.根据权利要求1所述加速分布式机器学习的方法，其特征在于，还包括：将所述任一优先级作为所述目标参数的优先级。

4.根据权利要求3所述加速分布式机器学习的方法，其特征在于，对于任意两个不同优先级的目标参数，当这两个目标参数进入网络时，先传输优先级高的目标参数。
...

【专利技术属性】
技术研发人员：李丹，王帅，耿金坤，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人