【技术实现步骤摘要】
面向分布式机器学习的数据传输方法及系统
本专利技术涉及分布式计算
,尤其涉及一种面向分布式机器学习的数据传输方法及系统。
技术介绍
随着大数据和高效计算资源的出现,作为人工智能(ArtificialIntelligence,简称AI)发展迅速领域之一的机器学习在很多应用场景(如自然语言处理、图像识别、语音识别和机器翻译等)中都取得了重大突破。但是,随着任务复杂性的增加,数据和深度学习模型的规模变得日益庞大。简单的采用单机加GPU计算的方式已经不能满足大规模深度学习模型和大规模训练数据集所要求的计算能力和存储空间。为了提高深度学习模型的训练效率,研究人员采用分布式技术来执行大规模的训练任务,以达到高效地训练出性能优良的深度学习模型的目的。海量数据是AI的基础,算力是AI的必备条件,具备强大算力的数据中心正好切合深度学习模型进行分布式训练时对算力的需求。由于现有的数据中心网络的网络协议并不能很好地适应DML网络传输的数据流特征,因此对面向分布式机器学习(DistributedMachineLearning,以下简称为DML ...
【技术保护点】
1.一种面向分布式机器学习的数据传输方法,其特征在于,包括发送方服务器执行的如下步骤:/n获取待传输数据,基于所述待传输数据形成至少两个原始数据流,每一所述原始数据流包括至少两个原始数据包;/n基于数据中心网络拓扑结构,获取每一所述原始数据流对应的目标传输速率;/n基于每一所述原始数据流对应的目标传输速率,同步将至少两个所述原始数据流中的原始数据包通过交换机发送给对应的接收方服务器;/n实时监控预设时间段内,能否接收到接收方服务器通过交换机发送的拥塞通知包,获取拥塞监控结果;/n基于所述拥塞监控结果进行传输速率调节,更新每一所述原始数据流对应的目标传输速率,重复执行所述基于 ...
【技术特征摘要】 【专利技术属性】
1.一种面向分布式机器学习的数据传输方法,其特征在于,包括发送方服务器执行的如下步骤:
获取待传输数据,基于所述待传输数据形成至少两个原始数据流,每一所述原始数据流包括至少两个原始数据包;
基于数据中心网络拓扑结构,获取每一所述原始数据流对应的目标传输速率;
基于每一所述原始数据流对应的目标传输速率,同步将至少两个所述原始数据流中的原始数据包通过交换机发送给对应的接收方服务器;
实时监控预设时间段内,能否接收到接收方服务器通过交换机发送的拥塞通知包,获取拥塞监控结果;
基于所述拥塞监控结果进行传输速率调节,更新每一所述原始数据流对应的目标传输速率,重复执行所述基于每一所述原始数据流对应的目标传输速率,将至少两个所述原始数据流中的原始数据包同步发送给交换机的步骤。
2.如权利要求1所述的面向分布式机器学习的数据传输方法,其特征在于,所述基于数据中心网络拓扑结构,获取每一所述原始数据流对应的目标传输速率,包括:
基于数据中心网络拓扑结构和速率分配模型,获取每一所述原始数据流对应的目标传输速;
所述速率分配模型为f(ri)=ni×Si/ri,
其中,K为原始数据流的数量,i为原始数据流的序号,ri为分配给第i个原始数据流的目标传输速率,Si为第i个原始数据流的传输量,ni为第i个原始数据流在数据中心网络拓扑结构中最短传输路径的跳数,s.t.为约束条件,j为数据中心网络拓扑结构中链路的序号,aij为1或0的常数,aij=1表示第i个原始数据流使用第j个链路,aij=0表示第i个原始数据流没有使用第j个链路,Cj为第j个链路的带宽,s为数据中心网络拓扑结构中交换机的序号,Qs为交换机s的最大队列长度,Inq(s)为到达第s个交换机的数据包数量,Deq(s)为离开第s个交换机的数据包数量。
3.如权利要求1所述的面向分布式机器学习的数据传输方法,其特征在于,所述基于所述拥塞监控结果进行传输速率调节,更新每一所述原始数据流对应的目标传输速率,包括:
若所述拥塞监控结果为在预设时间段内接收到所述原始数据流对应的拥塞通知包,则基于所述拥塞通知包确定对应的目标数据流,将所述目标数据流对应的目标传输速率和预设调节速率的差值,更新为所述目标数据流对应的目标传输速率;
若所述拥塞监控结果为在预设时间段内未接收到所述原始数据流对应的拥塞通知包,则将所述目标传输速率和预设调节速率的和值,更新为所述原始数据流对应的目标传输速率。
4.一种面向分布式机器学习的数据传输方法,其特征在于,包括接收方服务器执行的如下步骤:
接收交换机发送的当前数据包,基于所述当前数据包确定对应的目标数据流和网络状态标识;
更新所述目标数据流对应的当前传输进度,获取所述接收方服务器上已接收数据流对应的平均传输进度;
若所述网络状态标识为携带拥塞通知标识且所述当前传输进度大于所述平均传输进度,则生成与所述目标数据流相对应的拥塞通知包,将所述拥塞通知包通过所述交换机发送给发送方服务器,更新所述接收方服务器上已接收数据流对应的平均传输进度。
技术研发人员:秦阳,杨伟宏,江祖凯,余智钦,
申请(专利权)人:哈尔滨工业大学深圳,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。