【技术实现步骤摘要】
本申请涉及智算网络,特别是涉及一种智算中心网络的拥塞控制方法、装置、设备和存储介质。
技术介绍
1、随着智能计算的快速发展,智算中心的流量日益复杂,尤其是大模型训练中的海量数据吞吐情况,给智算中心带来了更紧急的流量控制和拥塞控制的难题。目前,主流的智算中心普遍采用roce(rdma over converged ethernet,基于以太网的rdma技术) v2协议来构建rdma(remote direct memory access,远程直接内存访问)网络,而roce v2协议采用了dcqcn(data center quantized congestion notification,数据中心量化拥塞通知)算法来进行拥塞控制。
2、dcqcn算法中,交换机按照一定概率对qp(queue pair,队列对)队列中的数据报文打上ecn(explicit congestion notification,显式拥塞通知)标记,使得数据报文的接收端将发送给源发送端的数据报文标记为cnp(congestion notification
...【技术保护点】
1.一种智算中心网络的拥塞控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述历史周期包括第一历史周期和第二历史周期,所述第一历史周期为所述第一目标周期的前一个周期,所述第二历史周期为所述第一历史周期的前一个周期;
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一历史周期内所述QP队列的队列长度,与所述第二历史周期内所述QP队列的队列长度之间的大小关系,确定所述第一目标周期对应的降速参数,包括:
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述降速参数和所述当前报文发送速率
...【技术特征摘要】
1.一种智算中心网络的拥塞控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述历史周期包括第一历史周期和第二历史周期,所述第一历史周期为所述第一目标周期的前一个周期,所述第二历史周期为所述第一历史周期的前一个周期;
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一历史周期内所述qp队列的队列长度,与所述第二历史周期内所述qp队列的队列长度之间的大小关系,确定所述第一目标周期对应的降速参数,包括:
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述降速参数和所述当前报文发送速率,确定目标报文发送速率,包括:
5.根据权利要求1所述的方法,其特征在于,所述控制所述rp终端在所述第一目标周期内按照所述目标报文发送速...
【专利技术属性】
技术研发人员:吕航,李聪,李佳聪,
申请(专利权)人:中国电信股份有限公司技术创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。