【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种智算集群流量控制方法、系统、电子设备及存储介质。
技术介绍
1、近年来,深度学习技术在计算机视觉、语音识别等多个领域得到了广泛应用和迅速发展。随着数据集规模和模型规模的不断增大,dml(distributed machine learning,分布式机器学习)被提出替代单机训练并得到了广泛的应用。目前,谷歌、微软、facebook等信息技术巨头已经利用由大规模服务器组成的ai集群训练dml任务。随着gpu等计算节点的算力显著提升,网络中的数据传输量也急剧增加,网络通信已成为dml的主要瓶颈。为了缩短模型训练的时间,当前ai训练集群广泛采用rdma技术来提升跨机器的通信效率。rdma(remote direct memory access,远程直接内存访问)使得终端主机能够直接在远程内存交换数据,将网络堆栈卸载到网卡处来减轻cpu的负担。该技术具备低时延、高吞吐量以及低cpu开销的特性。为了能够利用数据中心广泛使用的以太网,roce v2(rdma overconverged ethernet v2)协议被提
...【技术保护点】
1.一种智算集群流量控制方法,其特征在于,包括:
2.根据权利要求1所述的智算集群流量控制方法,其特征在于,采用以下公式计算所述当前数据流的当前丢包比例:
3.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述队列判定阈值的计算公式如下:
4.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述在接收到否定应答时,采取不重传并容许所述当前数据包的丢失,同时还包括:
5.根据权利要求4所述的智算集群流量控制方法,其特征在于,所述计算丢失的数据包的数量,之后还包括:
6.根据权利要求1所述的智算集群
...【技术特征摘要】
1.一种智算集群流量控制方法,其特征在于,包括:
2.根据权利要求1所述的智算集群流量控制方法,其特征在于,采用以下公式计算所述当前数据流的当前丢包比例:
3.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述队列判定阈值的计算公式如下:
4.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述在接收到否定应答时,采取不重传并容许所述当前数据包的丢失,同时还包括:
5.根据权利要求4所述的智算集群流量控制方法,其特征在于,所述计算丢失的数据包的数量,之后还包括:
6.根据权利要求1所述的智算集群流量控制方法,其特征在于,所述智算集群...
【专利技术属性】
技术研发人员:王伟,王奕博,张杰,胡乔钧,李意洋,李亚杰,赵永利,王小雨,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。