【技术实现步骤摘要】
本申请属于人工智能,具体涉及一种基于实时网络负载测量的动态流量调度方法、装置、系统和设备。
技术介绍
1、在数据中心网络中,通常采用具有密集连接的网络拓扑,如spine-leaf、dragonfly、torus等拓扑结构。它们的共同特点是,在任意一对计算单元间存在多条路径。这种设计可以提高网络吞吐量和可靠性,解决单一链路带宽不足的问题,并提供冗余链路,在网络故障时进行切换。
2、另一方面,随着ai大模型规模的持续增长,单一计算单元(如gpu)的算力或内存已无法承担单个大模型的运算。因此,出现了一系列并行计算技术,将单个大模型分布到多个计算单元上进行并行计算,如张量并行、流水线并行、专家并行等。为实现并行计算,计算单元之间需要通过网络进行全连接,以同步中间和最终计算结果。
3、但并行计算过程中,由于通信数据量庞大,有可能大量数据同时通过同一条路径转发,造成路径阻塞。
技术实现思路
1、本申请提出一种基于实时网络负载测量的动态流量调度方法、装置、系统和设备,能够解决相关
...【技术保护点】
1.一种基于实时网络负载测量的动态流量调度方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一流量包括第一流分片,所述预测网络负载为预测时延,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一网络设备发送的路径信息,确定从所述第二网络设备至第一网络设备的多个转发路径各自对应的预测网络负载,包括:
4.根据权利要求3所述的方法,其特征在于,在所述基于所述第一目标转发路径传输所述第一流量至所述第一网络设备之后,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述基
...【技术特征摘要】
1.一种基于实时网络负载测量的动态流量调度方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一流量包括第一流分片,所述预测网络负载为预测时延,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一网络设备发送的路径信息,确定从所述第二网络设备至第一网络设备的多个转发路径各自对应的预测网络负载,包括:
4.根据权利要求3所述的方法,其特征在于,在所述基于所述第一目标转发路径传输所述第一流量至所述第一网络设备之后,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个转发路径各自对应的预测网络负载确定第一目标转发路径,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述多个转发路径各自对应的预测网络负载确定第一目标转发路径,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于所述多个转发路径各自对应的预测网络负载确定第一目标转发路径,包括:
8.一种基于实时网络负载测量的动态流量调度...
【专利技术属性】
技术研发人员:李斌,袁永轲,陈鹏,
申请(专利权)人:星融元数据技术苏州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。