一种用于分布式训练系统的算力路由数据包转发方法技术方案

技术编号:39980401 阅读:36 留言:0更新日期:2024-01-09 01:29
本发明专利技术提供一种用于分布式训练系统的算力路由数据包转发方法,提供了用于分布式训练的算力路由机制,具体包括:控制器解析算法生成的路由策略,并根据算力路由判断逻辑将生成的流表自动下发到可编程交换机中;在组播前执行源路由策略以保证路由机制的灵活性;设计的算力服务层报头包括算力路径标识和算力服务索引,前者用于标识组播节点以及算力服务路径,后者用于标识组播功能以及算力服务路径上具体的服务索引;在组播节点执行算力服务层转发策略,当算力服务索引值为0时执行组播策略,通过组播机制保证各个分布式计算节点中参数的同步性;将计算节点归类为同步节点和异步节点,通过组播域内和组播域间的范围描述来表示算力节点之间的关系。

【技术实现步骤摘要】

本专利技术涉及有线网络通信,尤其涉及一种用于分布式训练系统的算力路由数据包转发方法


技术介绍

1、机器学习技术的广泛应用掀起了各个领域智能化的浪潮。随着机器学习模型复杂度的提高,对算力的需求迅速增长,越来越多的企业和机构需要通过分布式训练的方式完成大规模机器学习任务,这对于网络的带宽、服务质量和灵活性提出了更高的要求。

2、为了提高训练的效率和吞吐量,许多组织已经采用了数据并行(dataparallelism,dp)的分布式训练方式,每个计算节点维护着相同的计算任务模型与参数,将训练的数据分解成多个数据模块,交由不同的计算节点并行处理,以实现加速训练的效果。

3、在基于数据并行的训练过程中,不同的计算节点需要对计算的参数进行同步和更新,于是研究人员提出了参数服务器(parameter server,ps)架构,用于管理和共享分布式训练任务模型的参数数据。在机器学习的分布式训练中,参数服务器架构起到了重要的作用,可以实现计算参数的存储、更新和共享。基于参数服务器架构并使用数据并行机制的完成分布式训练任务是当今热门的分布式训练方案。<本文档来自技高网...

【技术保护点】

1.一种用于分布式训练系统的算力路由数据包转发方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述源路由层包含端口号,以及标志位两个字段,总共具有n个堆栈类型的数据;分布式训练系统的可编程交换机根据所述源路由层中的端口号和标志位读取源路由层的数据信息,使得数据包能够根据源节点的需求经过相应的外部网络节点;

3.根据权利要求2所述的方法,其特征在于,所述判断逻辑的执行过程包括:

4.根据权利要求1至3任一所述的方法,其特征在于,执行所述方法的分布式训练系统还包括参数服务器集群、虚拟网络功能群、分布式控制器集群和算力集群;

【技术特征摘要】

1.一种用于分布式训练系统的算力路由数据包转发方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述源路由层包含端口号,以及标志位两个字段,总共具有n个堆栈类型的数据;分布式训练系统的可编程交换机根据所述源路由层中的端口号和标志位读取源路由层的数据信息,使得数...

【专利技术属性】
技术研发人员:高德云权伟刘明远宋浩然尚雪宁庞博李玉峰
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1