分布式深度学习流调度方法、系统、设备技术方案

技术编号:24103276 阅读:58 留言:0更新日期:2020-05-09 14:09
本发明专利技术公开了一种分布式深度学习流调度方法、系统、设备,涉及计算机技术领域。分布式深度学习流调度设备能够部署分布式深度学习流调度系统,并采用分布式深度学习流调度方法实现流调度。本发明专利技术方法从DDL训练的流特点出发,提出采用高精度改善优先的调度方式,对DDL训练任务进行数据流调度。本发明专利技术对DDL训练任务进行优先级划分,并周期性的更新DDL训练任务的优先级。其中通过DDL训练任务的历史数据预测该任务未来一个调度周期的精度改善情况,并以此进行排序进而确定DDL训练任务的优先级。同时,本发明专利技术考虑了网络优先级有限的情况,并通过全局优先级映射为本地优先级的方式,实现了少量优先级模拟无限优先级的可能。

Distributed deep learning flow scheduling method, system and equipment

【技术实现步骤摘要】
分布式深度学习流调度方法、系统、设备
本专利技术涉及计算机
,具体而言,涉及一种基于任务阶段感知的分布式深度学习流调度方法、系统、设备。
技术介绍
深度学习(DeepLearning,DL)作为机器学习(MachineLearning,ML)领域的重要分支掀起研究浪潮并在诸如计算机视觉、语音识别、自然语言处理等多个领域取得重大突破。深度学习通过设计神经网络模型对样本数据进行深层分析,通过长时间的迭代训练过程找到网络结构参数的最佳配置方案,从而提取数据更加高层、抽象化的特征,并将这些学习到的抽象特征应用于对新样本的分类问题及其它处理。为了寻找网络结构参数的最佳配置方案,深度学习往往需要设计多种不同的神经网络结构,每种不同的神经网络结构都需要按照某种算法进行多次迭代训练。这些算法中往往又含有若干人为设置的“超参数”,不同的“超参数”也会影响神经网络模型的性能。因此我们又需要采用多种不同的“超参数”配置方案,使用每一种“超参数”配置方案对模型进行训练并得到其对应的最佳模型参数配置方案。因此,即使同一个深度学习任务也可能包含许多训练任务,分别使用本文档来自技高网...

【技术保护点】
1.一种分布式深度学习流调度方法,其特征在于,包括以下步骤:/nS1、中心协调节点初始化

【技术特征摘要】
1.一种分布式深度学习流调度方法,其特征在于,包括以下步骤:
S1、中心协调节点初始化
S2、中心协调节点为每一个DDL任务随机选择一个计算节点,并加入到WorkerList中;
S3、对于WorkerList中的每个计算节点,中心协调节点向该计算节点所在代理节点发送精度改善预测请求;
S4、对于WorkerList中的每个计算节点,其所在代理节点对其进行DDL任务信息精度改善值的预测,并将精度改善预测值发送至中心协调节点;
S5、中心协调节点根据高精度改善优先原则对接收到的所有精度改善预测值进行排序,得到计算节点的全局序列;
S6、对于每个代理节点,中心协调节点根据计算节点的全局序列通过本地优先级序列生成算法获取其计算节点的本地序列;
S7、对于WorkerList中的每个计算节点,中心协调节点根据本地序列,通过入端口优先级序列生成算法,获取其入端口优先级规则;
S8、对于WorkerList中的每个计算节点,中心协调节点根据本地序列,通过出端口优先级序列生成算法,获取其出端口优先级规则;
S9、对于WorkerList中的每个计算节点,中心协调节点将其入端口优先级规则和出端口优先级规则发送至其所在代理节点,代理节点据此进行数据流的优先级设置,完成本次DDL流调度;
S10、等待时长t后,跳转至步骤S1。


2.根据权利要求1所述的方法,其特征在于,所述时长t指的是T-Scheduler时间长度。


3.根据权利要求1所述的方法,其特征在于,所述中心协调节点与代理节点之间通过Socket传输数据。


4.根据权利要求1所述的方法,其特征在于,所述步骤S4中,代理节点根据从本地读取的日志文件中的训练信息,对计算节点进行DDL任务信息精度改善值的预测,所述日志文件记录了其所在代理节点的所有计算节点的训练信息。


5.根据权利要求1所述的方法,其特征在于,所述步骤S6中,对于每个代理节点,其计算节点的本地序列的获取方法包括以下步骤:
a1、中心协调节点为其初始化DDL任务集合计算节点集合
a2、中心协调节点将与其IP地址相同的计算节点加入到其NodeSet中,所述NodeSet中的各计算节点按照所述全局序列进行排列,计算节点所属DDL任务的精度改善预测值越大,该计算节点在NodeSet中的排序越靠前;
a3、中心协调节点将其NodeSet中的各计算节点所属的DDL任务,加入至其JobSet中,所述JobSet中的各DDL任务按照所述全局序列进行排列,DDL任务的精度改善预测值越大,则在JobSet中的排序越靠前;
a4、初始化其计算节点的本地序列order=0;
a5、若其Node...

【专利技术属性】
技术研发人员:虞红芳孙罡周攀和新树
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1