基于自适应拓扑和辅助路由的分布式机器学习训练系统技术方案

技术编号：40265428 阅读：10 留言：0更新日期：2024-02-02 22:54

本发明专利技术公开了基于自适应拓扑和辅助路由的分布式机器学习训练系统，包括：用户平面，用于提供构建拓扑的自定义策略；调度平面，包括网络感知模块、策略制定模块以及策略一致性模块；数据平面，包括策略执行模块和网络测量模块。本发明专利技术缓解了多智算中心跨广域互联的通信瓶颈问题，解决了现有分布式机器学习系统在资源异构且动态变化的广域网络中效能受限的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能计算系统，具体涉及基于自适应拓扑和辅助路由的分布式机器学习训练系统。

技术介绍

1、随着人工智能技术的高速发展，大型语言模型，如chatgpt已经显著提升了人工智能生成内容的质量和应用潜力，初步开辟出提升人类生产力的新领域。然而，训练这类拥有数十亿参数的大规模模型需要极其庞大的计算和存储资源，已远超出当前基础设施的运行能力。与此同时，数字经济时代数据密集型、计算密集型的新型智能计算业务，例如在东数西算工程中，高性能计算能力尤为紧缺。因此，加快破解计算能力壁垒显得尤为迫切。

2、由此，智能计算应运而生，它联合高性能计算系统、云集群和边缘基础设施等跨领域资源，通过横向分布不同计算平台和纵向统一边缘至云的资源，实现计算能力的横向扩张和纵向协同，为人工智能训练任务提供高效的计算服务。但是，智能计算系统正在与网络带宽限制带来的通信瓶颈作斗争。

3、具体来说，随着智能计算节点的分布范围不断扩大，不同网络域之间的物理距离也在不断增加。这使得不同区域间就数据、参数和模型等资源交换会受到网络带宽和时延限制的影响，导致跨域传输速度较慢。这类问题在动态异构网络下尤为突出，例如边缘设备和云端数据中心间的连接质量会受环境等多种因素影响。此外，在分布式机器学习等通信密集型任务中，由于任务本身具有确定性，计算节点需要进行深度迭代和参数交换来实现联合学习，这对实时传输通信性能有很高要求。但是，当海量训练样本分布存储在不同网络域时，大规模参数的频繁交换往往会造成网络拥塞，降低整体训练效率。

4、针对目前资源动

5、其中，部分方法通过充分利用服务器的多重角色实现数据流管理和系统的可扩展性。通过根、叶子和中间节点的巧妙配置，实现数据从叶子流到根，而中间节点则聚合来自其子节点的流，以减少网络上的数据流量和最小化服务器接收的数据。此外，通过将服务器上的热点流量重新分配到工作节点之间的空闲链路来提高系统的可扩展性。这些方法在设计上受限于网络资源信息的缺乏，限制了系统对网络状态的准确把握，进一步影响了系统的自适应性和性能。并且，通常采用基于平衡树覆盖的方式构建分层参数服务器架构，其中一些系统仅包括两层，这种固定结构对于充分利用异构和动态广域网显得效率不高。因此，这些方法不可用于资源动态异构的广域分布式机器学习训练系统。

6、部分方法通过设置网络探测模块来构建能够适应不断变化网络条件的动态树拓扑。例如，一些研究集成了基于dpdk的延迟探测和iperf用于测速的带宽探测模块，对云数据中心网络进行全面扫描，获取各计算节点的实际位置及链路性能特征，如延迟和带宽数据。然后，基于采集到的物理网络拓扑数据，构建了一种与实际物理网匹配的双层平衡树虚拟拓扑模型。这些方法采用的探测技术会产生额外的探测流量，长期大规模探测可能会增加网络负载，并可能干扰应用程序本身流量，另外，探测调度和结果汇报也会占用一定的系统资源，无法在生产环境中实现高精度的实时监测，因此，这些方法不可用于资源动态异构的广域分布式机器学习训练系统。

7、部分方法使用应用流量本身作为探针来测量链路吞吐量。例如，将应用流量发送至目标链路并观测传输时间和确认时间，通过停止等待协议计算出链路吞吐量。得到的吞吐量数据用于构建最小生成树，进一步允许对树拓扑结构进行自动调整，以及时应对网络变化。这些方法采用停止等待协议作为链路吞吐量探测的方法，限制了传输和聚合之间的重叠，降低了分布式训练的并行度，显著降低了训练速度。同时，由于需要等待确认信号，导致网络资源的低效利用，增加了通信往返时间，进而增加了通信开销。尤其是在高延迟网络环境下，该协议会进一步降低数据传输效率，对网络延迟敏感，因此不适用于资源动态异构的广域分布式机器学习训练系统。

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的分布式机器学习训练系统及方法解决了现有广域环境下分布式训练的性能短板问题。

2、为了达到上述专利技术目的，本专利技术采用的技术方案为：基于自适应拓扑和辅助路由的分布式机器学习训练系统，包括：

3、用户平面，用于提供构建拓扑的自定义策略；

4、调度平面，包括网络感知模块、策略制定模块以及策略一致性模块；其中，网络感知模块用于感知网络参数，所述策略制定模块用于基于感知的网络参数及用户提供的自定义策略构建多根服务器最速聚合拓扑，所述策略一致性模块用于基于拓扑一致性协议和辅助路由一致性协议，将构建的多根服务器最速聚合拓扑作为模型传输路径的策略发布至数据平面；

5、数据平面，包括策略执行模块和网络测量模块；其中，策略执行模块用于在网络的多个智算节点中执行分布的策略，网络测量模块用于实时获取络状态及报告作为网络感知模块的感知网络参数的数据基础。

6、进一步地，所述网络感知模块通过轻量级、实时测量链路吞吐量以及使用分层时钟同步的技术来感知网络参数。

7、进一步地，所述拓扑一致性协议用于完成多根服务器最速聚合拓扑的自适应调度，其包括通信前拓扑更新请求策略与调度，以及缓存模型数据与本地拓扑更新后的传输和聚合；

8、所述辅助路由一致性协议用于基于多径辅助路径技术，利用空闲路径辅助主路径进行数据传输，其根据多根服务器最速聚合拓扑的构建流程，更新路由策略，并将更新路由策略发布至智算节点；其中，路由策略中记录辅助路径上的节点的消息结构包括发送方标识、接收方标识、辅助路由标识、路由标识、其他标识以及传输数据。

9、进一步地，所述策略制定模块构建多根服务器最速聚合拓扑的方法具体为：

10、s1、初始化无向图g＝(v，e)，初始化树的数量n，初始化两个相邻节点之间的数据吞吐量s；其中，v为无向图的顶点集合，e为无向图的边集合，且边的权重w为正整数；

11、s2、进行非重叠路径搜索，得到根集r和候选路径p；

12、s3、对于每个根vi∈r，初始化以节点vi为根的树tvi；

13、s4、对于每个非根节点vj，在候选路径p中取第一条路径p←pvi→vj.pop_first()作为最快聚合路径；其中，vj∈v，

14、s5、复位vl＝vi，vr为vi的相邻节点；

15、其中，vl作为根节点vi，vr是vl的下一个节点；

16、s6、让节点vl、vr遍历路径p，找到p路径所涉及的所有节点，以建立父子关系vl.child.add(vr)，vr.parent(vl)；

17、s7、得到r根服务器最速聚合拓扑

18、进一步地，所述步骤s2中，进行非重叠路径搜索的方法具体为：

19、s21、初始化无向图g＝(v，e)，初始化树的数量n，初始化两个相邻节点之间的数据吞吐量s，初始化根集和候选路径

20、s22、重置边缘权重wvi→本文档来自技高网...

【技术保护点】

1.基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，包括：

2.根据权利要求1所述的基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，所述网络感知模块通过轻量级、实时测量链路吞吐量以及使用分层时钟同步的技术来感知网络参数。

3.根据权利要求1所述的基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，所述拓扑一致性协议用于完成多根服务器最速聚合拓扑的自适应调度，其包括通信前拓扑更新请求策略与调度，以及缓存模型数据与本地拓扑更新后的传输和聚合；

4.根据权利要求1所述的基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，所述策略制定模块构建多根服务器最速聚合拓扑的方法具体为：

5.根据权利要求4所述的基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，所述步骤S2中，进行非重叠路径搜索的方法具体为：

6.根据权利要求5所述的基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，所述步骤S23中，进行R根FAPT联合树覆盖的方法具体为：

7.根据权利要

8.根据权利要求4所述的基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，在构建多根服务器最速聚合拓扑时，采用多径辅助路由技术进行路由策略调度，其路由策略调度方法为：

9.根据权利要求1所述的基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，在实施所述系统的部署环境时，将其部署在跨领域的多个智算中心集群中，且智算中心集群间之间通过广域网互联；

10.根据权利要求1所述的基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，在实施所述系统的部署环境时，将其部署在一个智算中心集群中，且智算中心内通过广域网互联；

...

【技术特征摘要】

1.基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，包括：

5.根据权利要求4所述的基于自适应拓扑和辅助路由的分布式机器学习训练系统，其特征在于，所述步骤s2中，进行非重叠路径搜索的方法具体为：

6.根据权利要求5所述的基于自适应拓扑和辅助路由的分布式机...

【专利技术属性】
技术研发人员：虞红芳，冯文佼，李宗航，孙罡，罗龙，伍东旭，蔡伟博，李晴，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人