一种分布式机器学习的网络优化系统、方法及电子设备技术方案

技术编号：37913606 阅读：7 留言：0更新日期：2023-06-21 22:36

本发明专利技术提供了一种分布式机器学习的网络优化系统、方法、电子设备和存储介质，系统包括交换机和分布式机器学习参数的发送端，交换机用于检测当前网络通讯状态；若队列长度超过预设拥塞阈值，则标记报文；若队列长度超过预设丢包阈值，生成第一类数据包并发送到上游端口；发送端用于若收到报文对应的拥塞通知，则根据拥塞通知，调整发送速率，以对分布式机器学习进行网络优化；获取数据包被发送时的时间戳，则基于时间戳生成延迟信号并根据延迟信号确定拥塞控制信号，并根据拥塞控制信号调整发送速率。应用本发明专利技术实施例，实现了优化当前网络环境下的分布式机器学习的效率及质量。络环境下的分布式机器学习的效率及质量。络环境下的分布式机器学习的效率及质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式机器学习的网络优化系统、方法及电子设备

[0001]本专利技术涉及机器学习
，尤其涉及一种分布式机器学习的网络优化系统、方法、电子设备和存储介质。

技术介绍

[0002]当前的机器学习系统依靠迭代分布式训练来解决模型和输入数据日益增加的复杂性。在这些通信量大的系统中，迭代时间取决于计算时间、通信时间以及计算和通信重叠的程度。机器学习算法和计算机领域的其他算法相比，有独特之处，如迭代性，模型的更新并非一次完成，需要循环迭代多次；容错性，即使在每个循环中产生一些错误，模型最终的收敛不受影响；参数收敛的非均匀性，模型中有些参数经过几个循环便不再改变，其他参数需要很长时间收敛。这些特点决定了机器学习系统的设计和其他计算系统的设计有很大不同，因此理想中的分布式机器学习任务，并不能随着机器的增加而能力线性提升，因为大量资源都会浪费在通讯、等待和协调，这些时间可能会占据大部分比例。因此减少分布式机器学习的通信时间将能够降低整体的训练时间，从而达到提升分布式机器学习的效果。
[0003]网络的拥塞控制对于通信时间会产生较大的影响，并且由于RDMA(Remote Direct Memory Access,远程直接数据存取)的运用，以及分布式机器学习的数据量非常巨大，对网络的冲击是一个挑战，当突然出现大量的传输后，网络有可能陷入拥塞转态，不仅会降低数据传输效率，还会引起丢包而导致传输数据的丢失，并且可能进一步扩大网络的拥塞范围，导致大规模的资源损耗、数据丢失。因此在当今的分布式机器学习的生产应用环境下，迫切需要良...

【技术保护点】

【技术特征摘要】
1.一种分布式机器学习的网络优化系统，其特征在于，所述系统包括交换机和分布式机器学习参数的发送端，其中所述交换机，用于检测当前网络通讯状态；所述当前网络通讯状态包括队列长度；若所述队列长度超过预设拥塞阈值，则标记报文；若所述队列长度超过预设丢包阈值，生成第一类数据包；将所述第一类数据包发送到上游端口以阻止所述上游端口发送数据；所述发送端，用于若收到所述报文对应的拥塞通知，则根据所述拥塞通知，调整发送速率，以对分布式机器学习进行网络优化；获取数据包被发送时的时间戳，则基于所述时间戳生成延迟信号；根据所生成的延迟信号确定拥塞控制信号，并根据所确定的拥塞控制信号调整发送速率，以对分布式机器学习进行网络优化。2.根据权利要求1所述的网络优化系统，其特征在于，所述发送端根据所述拥塞通知，调整发送速率，具体为：根据所述拥塞通知计算切割比，并根据所述切割比控制所述发送端的数据发送速率。3.根据权利要求1所述的网络优化系统，其特征在于，所述延迟信号包括数据包的往返时间；所述发送端根据所生成的延迟信号确定拥塞控制信号，具体为：若所述往返时间在预设范围内，则将所述报文作为拥塞控制信号：若所述往返时间不在预设范围内，则将所述延迟信号作为拥塞控制信号。4.根据权利要求3所述的网络优化系统，其特征在于，所述发送端根据所确定的拥塞控制信号调整发送速率，具体为：在所述拥塞控制信号为所述报文的情况下，计算所述往返时间的梯度值，根据所述梯度值调整发送速率；在所述拥塞控制信号为延迟信号的情况下，根据所述往返时间、上一代的发送速率、所述预设范围的上限值，调整发送速率。5.根据权利要求...

【专利技术属性】
技术研发人员：陈俊宏，高程希，王洋，须成忠，叶可江，
申请(专利权)人：中国科学院深圳先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人