智算集群流量控制方法、系统、电子设备及存储介质技术方案

技术编号:46620314 阅读:1 留言:0更新日期:2025-10-14 21:15
本申请提供一种智算集群流量控制方法、系统、电子设备及存储介质,本申请智算集群流量控制方法,通过解析智算集群中当前数据流中的当前数据包,并统计当前数据流的当前丢包比例;并响应于当前数据流的当前丢包比例大于或等于对应的队列判定阈值,将当前数据包放入无损队列;响应于当前数据流的当前丢包比例小于对应的队列判定阈值,将当前数据包放入有损队列;且在接收到否定应答时,采取不重传并容许所述当前数据包的丢失。本申请将DML的丢失容忍特性与网络流控制结合,打破传统无损网络的刚性限制,能够显著降低PFC的触发频率,并彻底消除了数据包的重传时延,显著缩短AI训练的通信时间。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种智算集群流量控制方法、系统、电子设备及存储介质


技术介绍

1、近年来,深度学习技术在计算机视觉、语音识别等多个领域得到了广泛应用和迅速发展。随着数据集规模和模型规模的不断增大,dml(distributed machine learning,分布式机器学习)被提出替代单机训练并得到了广泛的应用。目前,谷歌、微软、facebook等信息技术巨头已经利用由大规模服务器组成的ai集群训练dml任务。随着gpu等计算节点的算力显著提升,网络中的数据传输量也急剧增加,网络通信已成为dml的主要瓶颈。为了缩短模型训练的时间,当前ai训练集群广泛采用rdma技术来提升跨机器的通信效率。rdma(remote direct memory access,远程直接内存访问)使得终端主机能够直接在远程内存交换数据,将网络堆栈卸载到网卡处来减轻cpu的负担。该技术具备低时延、高吞吐量以及低cpu开销的特性。为了能够利用数据中心广泛使用的以太网,roce v2(rdma overconverged ethernet v2)协议被提出以支持在以太网上使本文档来自技高网...

【技术保护点】

1.一种智算集群流量控制方法,其特征在于,包括:

2.根据权利要求1所述的智算集群流量控制方法,其特征在于,采用以下公式计算所述当前数据流的当前丢包比例:

3.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述队列判定阈值的计算公式如下:

4.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述在接收到否定应答时,采取不重传并容许所述当前数据包的丢失,同时还包括:

5.根据权利要求4所述的智算集群流量控制方法,其特征在于,所述计算丢失的数据包的数量,之后还包括:

6.根据权利要求1所述的智算集群流量控制方法,其特征...

【技术特征摘要】

1.一种智算集群流量控制方法,其特征在于,包括:

2.根据权利要求1所述的智算集群流量控制方法,其特征在于,采用以下公式计算所述当前数据流的当前丢包比例:

3.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述队列判定阈值的计算公式如下:

4.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述在接收到否定应答时,采取不重传并容许所述当前数据包的丢失,同时还包括:

5.根据权利要求4所述的智算集群流量控制方法,其特征在于,所述计算丢失的数据包的数量,之后还包括:

6.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述智算集群...

【专利技术属性】
技术研发人员:王伟王奕博张杰胡乔钧李意洋李亚杰赵永利王小雨
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1