一种支持用户QoS感知的深度学习任务调度方法技术

技术编号:24455038 阅读:31 留言:0更新日期:2020-06-10 15:18
本发明专利技术涉及一种支持用户QoS感知的深度学习任务调度方法。解决QoS资源配置之间冲突问题,提高资源利用率问题。本方法包括离线任务分析评估和在线实时任务调度两个部分。离线任务评估是对用户提交的深度学习模型进行评估和分析,通过分析任务的性能,并构建离线的性能预测模型。在线实时任务调度,基于性能预测模型,决定任务的执行顺序和放置策略,完成调度和执行的过程。本方法可以对深度学习任务进行轻量级的离线评估,在保证用户QoS的前提下,最大化提高数据中心集群的资源利用效率。

A deep learning task scheduling method supporting user QoS awareness

【技术实现步骤摘要】
一种支持用户QoS感知的深度学习任务调度方法
本专利技术涉及任务资源调度领域,具体涉及一种支持用户QoS感知的深度学习任务调度方法。
技术介绍
随着深度学习技术不断发展成熟,在越来越多的人工智能应用中发挥着重要作用。以谷歌、微软、阿里、腾讯等为首的国内外互联网公司纷纷对外公开宣布将人工智能作为下一个战略核心。而在这些公司面向用户提供大量的服务和应用背后,都是深度学习技术作为支撑。因此在各个公司内部,除了开发各自的深度学习工具之外,也需要自建的数据中心来为大量的模型训练和验证提供足够的硬件保障。为了保证多个深度学习任务的开发效率的同时,尽可能提高数据中心的利用效率对于任务调度来说是一个极大的挑战。现有的数据中心基本上都是采用CPU+GPU的异构架构,同时采用通用调度方法来进行资源和任务管理。通用调度方法的优点是通用性强,能够适应各种大数据任务,但是缺点是忽略了任务本身的领域特征,容易导致资源的过度分配而使得资源利用效率较低。尤其是在深度学习技术和应用研发过程中,用户往往会对QoS有更加严格的要求,任务调度方法还需要尽可能满足多个用户任务的QoS要求,减少资源分配之间的冲突。因此为了能够满足上述目标,本专利技术提出一种支持用户QoS感知的深度学习任务调度方法,需要解决以下几个问题:一是能够支持现有的以Tensorflow为代表的主流深度学习开发工具以及多种不同的集群环境。一方面方便开发者不需要修改代码,直接提交深度学习任务,另一方面也方便系统管理者不需要对集群环境做出调整来适应任务调度方法。二是能够实现深度学习任务的自动分析和优化配置选择。通过用户提交的网络模型,通过离线评估自动分析网络模型特征,并对不同的网络模型设计最优的任务划分策略和参数设置,将用户从繁琐的参数配置选择中解放出来。三是能够基于数据中心集群的现有资源状况进行在线的最优任务调度,实现用户QoS满意度和集群资源利用率的平衡。任务调度器在线接收任务提交,针对当前系统资源的负载情况,结合用户的QoS目标,设计最优的任务放置策略,实现系统资源的利用率最大化。
技术实现思路
为解决QoS资源配置之间冲突问题,提高资源利用率,本专利技术提出了一种支持用户QoS感知的深度学习任务调度方法,以实现在满足用户QoS的同时,最大化数据中心集群的资源利用率的目标。本专利技术包括离线任务分析评估和在线实时任务调度两个部分。离线任务评估是对用户提交的深度学习模型进行评估和分析,通过不同的应用参数配置、任务划分方法和任务放置策略来分析任务的性能,并构建离线的性能预测模型。在线实时任务调度,基于上述的性能预测模型,并实时监控系统当前的负载情况,结合用户提交的任务QoS,决定任务的执行顺序和放置策略,完成调度和执行的过程。具体的实现方案如下:A.与现有深度学习开发工具的兼容。用户保留现有的深度学习工具提交任务的形式不变,提交网络模型文件以及相关应用参数信息,由任务调度器进行分析和识别。计算出最优放置策略之后,由调度器直接将任务调度到指定节点和加速器上进行执行,不需要进行人工干预。B.离线评估与性能预测模型构建。对于第一次提交的深度网络模型,分别测试不同应用参数(批次大小、迭代次数等)和不同的划分放置策略(单卡、单机多卡、多机多卡)下的任务执行性能,并基于最小二乘法构建多项式拟合的性能预测模型。对于之前离线评估过的模型,可直接从已有的模型数据库中调用构建好的性能预测模型,不需要再进行离线过程。C.一种轻量级的离线评估策略。本专利技术设计了一种轻量级的评估策略,假定批次大小有A种选择,异构集群规模有B个节点,每个节点有C块GPU,则只需要A+B+C次离线评估实验即可获得足够的数据来拟合性能预测模型。该方法的优势一方面可以避免过多的冗余数据,另一方面可以降低离线评估开销。考虑到任务本身的迭代性,每次任务性能测试只需要迭代100-1000次即可。同时可以将离线评估后获得的性能模型加入到数据库中,以备有类似的任务提交可以直接调用。D.在线任务调度方法。在线任务调度采用事件驱动模式,每次有任务完成或新任务到达就执行一次任务调度。每次调度时需要遍历整个任务等待队列中的所有任务。对于每一个任务,结合自身的QoS和该任务的性能预测模型,选择最合适的任务放置策略并对所有任务进行重新排序。排序的原则是基于“最小等待余量优先”,该策略可以在保证用户满意度的同时,尽可能地提高集群资源的利用效率。最后基于当前系统的资源负载状况,按序将任务调度到集群上并执行,同时等待下一个调度点的时机,直至所有任务完成调度。本专利技术的优点在于:第一:本方法可以最大化兼容当前主流的深度学习开发工具,即用户不需要对提交任务的信息和方式进行更改,由调度器完成对任务放置策略的选择和调度执行;第二:本专利技术提出的调度方法可以对深度学习任务进行轻量级的离线评估,构建性能预测模型,并基于该性能预测模型完成任务在线调度,在保证用户QoS的前提下,最大化提高数据中心集群的资源利用效率。附图说明图1为本专利技术提出的支持用户QoS感知的深度学习任务调度方法完整示意图,图2为本专利技术的某一个调度点上的在线任务调度处理流程图。具体实施方式本专利技术的目的在于面向多种深度学习任务的场景,根据如何在保证用户QoS的前提下,尽可能提高集群资源的利用效率。而该专利技术的核心在于如何利用离线评估为每一种深度模型构建性能预测模型,并于在线调度时基于任务QoS选择最优的放置策略和执行顺序。本专利技术提出的支持用户QoS感知的深度学习任务调度方法如图1所示。该方法主要包括两个部分:离线评估模块和在线调度模块。离线评估模块主要对于提交的深度模型进行识别和分析,并构建性能预测模型。在线调度模块主要基于用户QoS和当前系统的负载情况,调度器为任务选择最优的放置策略并完成调度和执行。具体的实施方式包括以下几点内容:(1)任务的提交与分析。任务提交信息包括深度网络模型文件和相关应用参数信息。深度网络模型文件主要包括层数,每一层的类型,卷积核数,卷积核大小,特征图大小,层间的连接关系等等。相关应用参数包括批次大小,迭代次数,学习率,动量等等。本专利技术提出的调度方法可以最大化兼容目前主流的深度学习开发工具,即用户不需要修改任务提交的方式,而是由调度方法提供的脚本自动分析用户提交的模型文件和应用参数,并提取关键特征信息作为标识。(2)判断该任务类型是否之前进行过离线评估。任务提交之后分析提取的关键特征信息会被作为索引在模型数据库中搜索,如果有之前离线评估的记录,将直接调取数据库中保存的性能预测模型,直接用于在线调度的过程中。如果未检索到记录则需要将任务信息提交给轻量级评估器,对该任务类型进行离线评估。(3)轻量级离线评估策略及性能预测模型构建。轻量级评估器尽可能降低评估次数,来获取足够的数据拟合性能预测模型。假定每个深度学习任务用一个三元组表示,即T=<itype,ibatch,iiter>,其中itype,ibatch,i本文档来自技高网
...

【技术保护点】
1.一种支持用户QoS感知的深度学习任务调度方法,包括离线任务分析评估和在线实时任务调度两个部分,离线任务评估是对用户提交的深度学习模型进行评估和分析,通过分析任务的性能,构建离线的性能预测模型;在线实时任务调度,基于上述的性能预测模型,实时监控系统当前的负载情况,结合用户提交的任务QoS,决定任务的执行顺序和放置策略,完成调度和执行的过程,其特征在于,/n具体步骤如下:/nA.提交网络模型文件以及相关应用参数信息,由任务调度器进行分析和识别,计算出最优放置策略之后,由调度器直接将任务调度到指定节点和加速器上进行执行,不需要进行人工干预;/nB. 离线评估与性能预测模型构建,对于第一次提交的深度网络模型,分别测试不同应用参数和不同的划分放置策略下的任务执行性能,并构建多项式拟合的性能预测模型,对于之前离线评估过的模型,直接从已有的模型数据库中调用构建好的性能预测模型,不需要再进行离线过程;/nC.提出轻量级的评估策略,/nD. 在线实时任务调度。/n

【技术特征摘要】
1.一种支持用户QoS感知的深度学习任务调度方法,包括离线任务分析评估和在线实时任务调度两个部分,离线任务评估是对用户提交的深度学习模型进行评估和分析,通过分析任务的性能,构建离线的性能预测模型;在线实时任务调度,基于上述的性能预测模型,实时监控系统当前的负载情况,结合用户提交的任务QoS,决定任务的执行顺序和放置策略,完成调度和执行的过程,其特征在于,
具体步骤如下:
A.提交网络模型文件以及相关应用参数信息,由任务调度器进行分析和识别,计算出最优放置策略之后,由调度器直接将任务调度到指定节点和加速器上进行执行,不需要进行人工干预;
B.离线评估与性能预测模型构建,对于第一次提交的深度网络模型,分别测试不同应用参数和不同的划分放置策略下的任务执行性能,并构建多项式拟合的性能预测模型,对于之前离线评估过的模型,直接从已有的模型数据库中调用构建好的性能预测模型,不需要再进行离线过程;
C.提出轻量级的评估策略,
D.在线实时任务调度。

【专利技术属性】
技术研发人员:陈照云全巍罗磊文梅曹壮沈俊忠张春元
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1