【技术实现步骤摘要】
本专利技术涉及有线网络通信,尤其涉及一种用于分布式训练系统的算力路由数据包转发方法。
技术介绍
1、机器学习技术的广泛应用掀起了各个领域智能化的浪潮。随着机器学习模型复杂度的提高,对算力的需求迅速增长,越来越多的企业和机构需要通过分布式训练的方式完成大规模机器学习任务,这对于网络的带宽、服务质量和灵活性提出了更高的要求。
2、为了提高训练的效率和吞吐量,许多组织已经采用了数据并行(dataparallelism,dp)的分布式训练方式,每个计算节点维护着相同的计算任务模型与参数,将训练的数据分解成多个数据模块,交由不同的计算节点并行处理,以实现加速训练的效果。
3、在基于数据并行的训练过程中,不同的计算节点需要对计算的参数进行同步和更新,于是研究人员提出了参数服务器(parameter server,ps)架构,用于管理和共享分布式训练任务模型的参数数据。在机器学习的分布式训练中,参数服务器架构起到了重要的作用,可以实现计算参数的存储、更新和共享。基于参数服务器架构并使用数据并行机制的完成分布式训练任务是当今热门
...【技术保护点】
1.一种用于分布式训练系统的算力路由数据包转发方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述源路由层包含端口号,以及标志位两个字段,总共具有n个堆栈类型的数据;分布式训练系统的可编程交换机根据所述源路由层中的端口号和标志位读取源路由层的数据信息,使得数据包能够根据源节点的需求经过相应的外部网络节点;
3.根据权利要求2所述的方法,其特征在于,所述判断逻辑的执行过程包括:
4.根据权利要求1至3任一所述的方法,其特征在于,执行所述方法的分布式训练系统还包括参数服务器集群、虚拟网络功能群、分布式控制器集群和算力集群;
【技术特征摘要】
1.一种用于分布式训练系统的算力路由数据包转发方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述源路由层包含端口号,以及标志位两个字段,总共具有n个堆栈类型的数据;分布式训练系统的可编程交换机根据所述源路由层中的端口号和标志位读取源路由层的数据信息,使得数...
【专利技术属性】
技术研发人员:高德云,权伟,刘明远,宋浩然,尚雪宁,庞博,李玉峰,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。