智算中心网络的拥塞控制方法、装置、设备和存储介质制造方法及图纸

技术编号:44490069 阅读:29 留言:0更新日期:2025-03-04 17:54
本申请涉及一种智算中心网络的拥塞控制方法、装置、设备和存储介质。所述方法包括:在确定第一目标周期内RP终端接收到CNP报文的情况下,获取RP终端对应的QP队列的当前报文发送速率;根据历史周期内QP队列的队列长度,确定第一目标周期对应的降速参数;其中,历史周期为第一目标周期之前的周期;根据降速参数和当前报文发送速率,确定目标报文发送速率;控制RP终端在第一目标周期内按照目标报文发送速率发送QP队列中的QP报文。采用本方法能够通过历史周期内QP队列的队列长度实时确定降速参数,进而对RP终端的报文发送速率进行动态化调整,实现不同周期采用不同调整幅度,适应于不同拥塞程度的网络场景,对报文发送速率进行更精确化的控制。

【技术实现步骤摘要】

本申请涉及智算网络,特别是涉及一种智算中心网络的拥塞控制方法、装置、设备和存储介质


技术介绍

1、随着智能计算的快速发展,智算中心的流量日益复杂,尤其是大模型训练中的海量数据吞吐情况,给智算中心带来了更紧急的流量控制和拥塞控制的难题。目前,主流的智算中心普遍采用roce(rdma over converged ethernet,基于以太网的rdma技术) v2协议来构建rdma(remote direct memory access,远程直接内存访问)网络,而roce v2协议采用了dcqcn(data center quantized congestion notification,数据中心量化拥塞通知)算法来进行拥塞控制。

2、dcqcn算法中,交换机按照一定概率对qp(queue pair,队列对)队列中的数据报文打上ecn(explicit congestion notification,显式拥塞通知)标记,使得数据报文的接收端将发送给源发送端的数据报文标记为cnp(congestion notification packet,拥塞通本文档来自技高网...

【技术保护点】

1.一种智算中心网络的拥塞控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述历史周期包括第一历史周期和第二历史周期,所述第一历史周期为所述第一目标周期的前一个周期,所述第二历史周期为所述第一历史周期的前一个周期;

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一历史周期内所述QP队列的队列长度,与所述第二历史周期内所述QP队列的队列长度之间的大小关系,确定所述第一目标周期对应的降速参数,包括:

4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述降速参数和所述当前报文发送速率,确定目标报文发送速...

【技术特征摘要】

1.一种智算中心网络的拥塞控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述历史周期包括第一历史周期和第二历史周期,所述第一历史周期为所述第一目标周期的前一个周期,所述第二历史周期为所述第一历史周期的前一个周期;

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一历史周期内所述qp队列的队列长度,与所述第二历史周期内所述qp队列的队列长度之间的大小关系,确定所述第一目标周期对应的降速参数,包括:

4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述降速参数和所述当前报文发送速率,确定目标报文发送速率,包括:

5.根据权利要求1所述的方法,其特征在于,所述控制所述rp终端在所述第一目标周期内按照所述目标报文发送速...

【专利技术属性】
技术研发人员:吕航李聪李佳聪
申请(专利权)人:中国电信股份有限公司技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1