当前位置: 首页 > 专利查询>中南大学专利>正文

一种进度感知的分布式机器学习网内聚合传输方法技术

技术编号:41476281 阅读:20 留言:0更新日期:2024-05-30 14:28
本发明专利技术公开了一种进度感知的分布式机器学习网内聚合传输方法,分布式机器学习的梯度分组被工作节点发送至交换机的聚合器进行聚合,以消减网络流量。交换机每收到一个梯度分组,则立即向相应源工作节点回复分组确认,从而触发各个工作节点异步更新拥塞窗口并发送新的梯度分组,避免部分节点拖尾导致所有节点同步阻塞的问题。同时,交换机实时计算每个工作节点的传输进度、网络拥塞状态和聚合器拥塞状态,并反馈回各个工作节点。工作节点采用拥塞窗口和异步程度窗口协同控制梯度分组的发送速率。拥塞窗口根据网络拥塞状态和工作节点传输进度调节。传输进度慢的节点比进度快的节点分配更多带宽,缓解拖尾问题。异步程度窗口控制根据聚合器拥塞状态调节,控制工作节点在交换机上的聚合器占用数量,避免任务饥饿。两种窗口中的较小值决定了梯度分组的发送速率。本发明专利技术提高了分布式机器学习网内聚合效率,降低了模型训练时间。

【技术实现步骤摘要】

本专利技术属于分布式机器学习领域,具体涉及一种进度感知的分布式机器学习网内聚合传输方法


技术介绍

1、近年来,机器学习被广泛应用于各个领域,如语音识别、自然语言处理和自动驾驶汽车等。随着机器学习的数据集和模型越来越大和复杂,使用单台工作节点进行模型训练需要很长的时间。因此,业界通常采用分布式机器学习技术,在数据中心部署机器学习模型,使用多个带有图形处理器的工作节点进行并行训练以减少训练时间。

2、在分布式机器学习的每个训练迭代中,所有工作节点都需要同步参数,以确保收敛精度。在这种通信阶段期间,大量的流量在多个工作节点之间传输,通信成为性能瓶颈。最近,一系列基于网内聚合的解决方案如switchml、atp、panama等使用可编程交换机来聚合梯度,从而显著减少了传输到参数服务器的流量。这些网内聚合方案的主要机制为:每个工作节点首先将梯度分成固定大小的分组,并为每个分组分配唯一的序列号。这些固定大小的分组被发送到交换机进行聚合。在交换机上,内存被组织成一组聚合器,每个聚合器都有唯一的索引号。来自不同工作节点的具有相同序列号的梯度会在同一聚合器中聚本文档来自技高网...

【技术保护点】

1.一种进度感知的分布式机器学习网内聚合传输方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述的步骤1包括:对工作节点的拥塞窗口CWD大小和异步程度窗口AWD大小、链路拥塞程度α、聚合器拥塞程度β、工作节点的传输进度p、交换机的任务传输进度Ssum进行初始化,其中CWD初始化大小为2个梯度分组的大小,AWD初始化大小为交换机的总聚合器数量,其他初始化为0。

3.根据权利要求1所述的方法,其特征在于,所述的步骤201中,GACK为工作节点发出的梯度分组到达交换机聚合器之后生成的确认,用于通告工作节点该梯度是否占用聚合资源;AACK为所有...

【技术特征摘要】

1.一种进度感知的分布式机器学习网内聚合传输方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述的步骤1包括:对工作节点的拥塞窗口cwd大小和异步程度窗口awd大小、链路拥塞程度α、聚合器拥塞程度β、工作节点的传输进度p、交换机的任务传输进度ssum进行初始化,其中cwd初始化大小为2个梯度分组的大小,awd初始化大小为交换机的总聚合器数量,其他初始化为0。

3.根据权利要求1所述的方法,其特征在于,所述的步骤201中,gack为工作节点发出的梯度分组到达交换机聚合器之后生成的确认,用于通告工作节点该梯度是否占用聚合资源;aack为所有工作节点同序号梯度完成聚合后,由参数服务器生成的确认,用于通告该梯度是否已完成聚合。

4.根据权利要求1所述的方法,其特征在于,所述的步骤202中,αi+1=(1-f)×αi+f×ei,其中,f为链路拥塞程度权重因子;i表示第i个rtt;下一rtt中链路拥塞窗口大...

【专利技术属性】
技术研发人员:黄家玮李钊毅周盛文王启乐李益军邓涵宇蒋万春王建新
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1