一种分布式机器学习的网络优化系统、方法及电子设备技术方案

技术编号:37913606 阅读:7 留言:0更新日期:2023-06-21 22:36
本发明专利技术提供了一种分布式机器学习的网络优化系统、方法、电子设备和存储介质,系统包括交换机和分布式机器学习参数的发送端,交换机用于检测当前网络通讯状态;若队列长度超过预设拥塞阈值,则标记报文;若队列长度超过预设丢包阈值,生成第一类数据包并发送到上游端口;发送端用于若收到报文对应的拥塞通知,则根据拥塞通知,调整发送速率,以对分布式机器学习进行网络优化;获取数据包被发送时的时间戳,则基于时间戳生成延迟信号并根据延迟信号确定拥塞控制信号,并根据拥塞控制信号调整发送速率。应用本发明专利技术实施例,实现了优化当前网络环境下的分布式机器学习的效率及质量。络环境下的分布式机器学习的效率及质量。络环境下的分布式机器学习的效率及质量。

【技术实现步骤摘要】
一种分布式机器学习的网络优化系统、方法及电子设备


[0001]本专利技术涉及机器学习
,尤其涉及一种分布式机器学习的网络优化系统、方法、电子设备和存储介质。

技术介绍

[0002]当前的机器学习系统依靠迭代分布式训练来解决模型和输入数据日益增加的复杂性。在这些通信量大的系统中,迭代时间取决于计算时间、通信时间以及计算和通信重叠的程度。机器学习算法和计算机领域的其他算法相比,有独特之处,如迭代性,模型的更新并非一次完成,需要循环迭代多次;容错性,即使在每个循环中产生一些错误,模型最终的收敛不受影响;参数收敛的非均匀性,模型中有些参数经过几个循环便不再改变,其他参数需要很长时间收敛。这些特点决定了机器学习系统的设计和其他计算系统的设计有很大不同,因此理想中的分布式机器学习任务,并不能随着机器的增加而能力线性提升,因为大量资源都会浪费在通讯、等待和协调,这些时间可能会占据大部分比例。因此减少分布式机器学习的通信时间将能够降低整体的训练时间,从而达到提升分布式机器学习的效果。
[0003]网络的拥塞控制对于通信时间会产生较大的影响,并且由于RDMA(Remote Direct Memory Access,远程直接数据存取)的运用,以及分布式机器学习的数据量非常巨大,对网络的冲击是一个挑战,当突然出现大量的传输后,网络有可能陷入拥塞转态,不仅会降低数据传输效率,还会引起丢包而导致传输数据的丢失,并且可能进一步扩大网络的拥塞范围,导致大规模的资源损耗、数据丢失。因此在当今的分布式机器学习的生产应用环境下,迫切需要良好的该环境下拥塞控制方案,来减少网络数据传输的排队时间,从而减少通信时间来获得整体机器学习训练时间的降低。除此之外,还能避免因为拥塞的扩散而导致的性能的持续下降。
[0004]虽然有技术通过拥塞控制实现网络优化,例如,基于速率和基于反馈的拥塞控制,但目前的拥塞控制方法在分布式机器学习的网络环境存在严重的分组丢失和超时的问题。

技术实现思路

[0005]本专利技术的目的在于克服现有技术之缺陷,提供了一种分布式机器学习的网络优化系统、方法、电子设备和存储介质,旨在解决目前分布式机器学习的网络环境存在严重的分组丢失和超时的技术问题。
[0006]本专利技术是这样实现的:
[0007]第一方面,本申请实施例提供了一种分布式机器学习的网络优化系统,所述系统包括交换机和分布式机器学习参数的发送端,其中
[0008]所述交换机,用于检测当前网络通讯状态;所述当前网络通讯状态包括队列长度;若所述队列长度超过预设拥塞阈值,则标记报文;若所述队列长度超过预设丢包阈值,生成第一类数据包;将所述第一类数据包发送到上游端口以阻止所述上游端口发送数据;
[0009]所述发送端,用于若收到所述报文对应的拥塞通知,则根据所述拥塞通知,调整发
送速率,以对分布式机器学习进行网络优化;获取数据包被发送时的时间戳,则基于所述时间戳生成延迟信号;根据所生成的延迟信号确定拥塞控制信号,并根据所确定的拥塞控制信号调整发送速率,以对分布式机器学习进行网络优化。
[0010]可选的,所述发送端根据所述拥塞通知,调整发送速率,具体为:
[0011]根据所述拥塞通知计算切割比,并根据所述切割比控制所述发送端的数据发送速率。
[0012]可选的,所述延迟信号包括数据包的往返时间;所述发送端根据所生成的延迟信号确定拥塞控制信号,具体为:
[0013]若所述往返时间在预设范围内,则将所述报文作为拥塞控制信号:
[0014]若所述往返时间不在预设范围内,则将所述延迟信号作为拥塞控制信号。
[0015]可选的,所述发送端根据所确定的拥塞控制信号调整发送速率,具体为:
[0016]在所述拥塞控制信号为所述报文的情况下,计算所述往返时间的梯度值,根据所述梯度值调整发送速率;
[0017]在所述拥塞控制信号为延迟信号的情况下,根据所述往返时间、上一代的发送速率、所述预设范围的上限值,调整发送速率。
[0018]可选的,所述发送端根据所述拥塞通知,调整发送速率,具体为:
[0019]在每个周期窗口,所述发送端的网卡根据所述拥塞通知更新拥塞程度参数,并根据拥塞程度参数调节发送速率。
[0020]第二方面,本申请实施例提供了一种分布式机器学习的网络优化方法,应用于分布式机器学习参数的发送端,所述方法包括:
[0021]若接收到拥塞通知,则根据所述拥塞通知,调整发送速率,以对分布式机器学习进行网络优化;
[0022]获取数据包被发送时的时间戳,基于所述时间戳生成延迟信号;根据所生成的延迟信号确定拥塞控制信号,并根据所确定的拥塞控制信号调整发送速率,以对分布式机器学习进行网络优化。
[0023]可选的,所述根据所述拥塞通知,调整发送速率,包括:
[0024]根据所述拥塞通知计算切割比,并根据所述切割比控制所述发送端的数据发送速率。
[0025]可选的,延迟信号包括数据包的往返时间;所述根据所生成的延迟信号确定拥塞控制信号,包括:
[0026]若所述往返时间在预设范围内,则将所述报文作为拥塞控制信号:
[0027]若所述往返时间不在预设范围内,则将所述延迟信号作为拥塞控制信号。
[0028]第三方面,本申请实施例提供了一种电子设备,包括前述的分布式机器学习参数的发送端,以及存储器和处理器;
[0029]其中,所述存储器与所述处理器连接,用于存储程序;
[0030]所述处理器用于通过运行所述存储器中存储的程序,实现前述应用于发送端的分布式机器学习的网络优化方法的步骤。
[0031]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行前述应用于发送端的分布式
机器学习的网络优化方法的步骤。
[0032]本专利技术具有以下有益效果:本申请实施例提供了一种分布式机器学习的网络优化系统、方法、电子设备和存储介质,所述系统包括交换机和分布式机器学习参数的发送端,所述交换机,用于检测当前网络通讯状态;所述当前网络通讯状态包括队列长度;若所述队列长度超过预设拥塞阈值,则标记报文;若所述队列长度超过预设丢包阈值,生成第一类数据包;将所述第一类数据包发送到上游端口以阻止所述上游端口发送数据;
[0033]所述发送端,用于若收到所述报文对应的拥塞通知,则根据所述拥塞通知,调整发送速率,以对分布式机器学习进行网络优化;获取数据包被发送时的时间戳,则基于所述时间戳生成延迟信号;根据所生成的延迟信号确定拥塞控制信号,并根据所确定的拥塞控制信号调整发送速率,以对分布式机器学习进行网络优化。可见,应用本专利技术实施例,通过拥塞通知或基于延迟信号确定拥塞控制信号调整发送速率,提供了新的拥塞控制方案,减小了在传输数据中因为网络拥塞的排队时间及丢包率,从而减少分布式机器学习的参数通讯时间,而减小总的训练时间,并且提高每一代参数更新的稳定性,从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式机器学习的网络优化系统,其特征在于,所述系统包括交换机和分布式机器学习参数的发送端,其中所述交换机,用于检测当前网络通讯状态;所述当前网络通讯状态包括队列长度;若所述队列长度超过预设拥塞阈值,则标记报文;若所述队列长度超过预设丢包阈值,生成第一类数据包;将所述第一类数据包发送到上游端口以阻止所述上游端口发送数据;所述发送端,用于若收到所述报文对应的拥塞通知,则根据所述拥塞通知,调整发送速率,以对分布式机器学习进行网络优化;获取数据包被发送时的时间戳,则基于所述时间戳生成延迟信号;根据所生成的延迟信号确定拥塞控制信号,并根据所确定的拥塞控制信号调整发送速率,以对分布式机器学习进行网络优化。2.根据权利要求1所述的网络优化系统,其特征在于,所述发送端根据所述拥塞通知,调整发送速率,具体为:根据所述拥塞通知计算切割比,并根据所述切割比控制所述发送端的数据发送速率。3.根据权利要求1所述的网络优化系统,其特征在于,所述延迟信号包括数据包的往返时间;所述发送端根据所生成的延迟信号确定拥塞控制信号,具体为:若所述往返时间在预设范围内,则将所述报文作为拥塞控制信号:若所述往返时间不在预设范围内,则将所述延迟信号作为拥塞控制信号。4.根据权利要求3所述的网络优化系统,其特征在于,所述发送端根据所确定的拥塞控制信号调整发送速率,具体为:在所述拥塞控制信号为所述报文的情况下,计算所述往返时间的梯度值,根据所述梯度值调整发送速率;在所述拥塞控制信号为延迟信号的情况下,根据所述往返时间、上一代的发送速率、所述预设范围的上限值,调整发送速率。5.根据权利要求...

【专利技术属性】
技术研发人员:陈俊宏高程希王洋须成忠叶可江
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1