一种基于强化学习的深度学习任务调度方法技术

技术编号:24455035 阅读:61 留言:0更新日期:2020-06-10 15:18
本发明专利技术涉及一种基于强化学习的深度学习任务调度方法。目的在于面向深度学习多任务调度场景,基于任务在线性能反馈,自适应学习并调整调度策略,尽可能提高任务完成效率和集群资源的利用效率。本方法基于深度学习任务在不同调度策略下的性能在线反馈进行自适应学习,并自适应更新调度决策,从而最大化任务执行效率和集群资源利用率。本发明专利技术的设计与实现均属于轻量级,不需要修改用户的编程方式和任务提交方式,同时对于运维人员友好,部署方便简洁。

A deep learning task scheduling method based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的深度学习任务调度方法
本专利技术涉及任务资源调度领域,具体涉及一种基于强化学习的深度学习任务调度方法。
技术介绍
随着以深度学习技术为核心的产品和服务逐渐融入我们的日常生活,工业界和学术界纷纷开始投入更大规模的人力、物力和财力支持该领域的研发。各个企业开始基于主流的CPU+GPU异构集群来构建自身的深度学习研发平台,同时处理多种不同的深度学习任务,从而满足多用户的研发需求。如何能够最大程度发挥异构集群平台的计算能力,提高整个集群资源利用率和任务完成效率,同时降低运维成本,是一个极具挑战的任务。当前数据中心的任务调度策略大多是基于启发式算法,不需要挖掘任务内在的性能特征,通常将任务当作一个黑盒子。这种调度算法虽然泛化能力较强,但是缺乏细粒度任务性能的挖掘。近年来也逐渐有一些基于预测的深度学习任务调度算法,但该类调度算法存在两个方面的不足:一方面预测精度很有限,该类算法往往基于任务自身迭代性或收敛性来进行预测,对于更加复杂的网络模型预测偏差较大;另一方面离线评估的开销过大,预测的基础在于离线评估,而离线评估需要大量的时间开本文档来自技高网...

【技术保护点】
1.一种基于强化学习的深度学习任务调度方法,包括场景建模和调度算法设计,其特征在于,具体包括:/nA. 状态空间设计,在多任务调度场景下,每个任务在不同策略下的性能通过一个Q值表进行记录,为每个深度学习任务构建一个独立的状态,状态空间就是所有深度学习任务集合,加入一种分组策略,降低状态空间的维度,提高整个强化学习Q值表的效率;/nB. 动作空间设计,动作空间包括任务平均划分到多个节点和多个GPU设备上,增加等待动作,即当前任务可以选择等待到下一个调度点进行调度策略选择,动作空间的选择依赖于贪心策略和Q值表,其中Q值表代表动作选择需要基于对已知信息的利用;/nC. 反馈函数设计,为每个任务选择调...

【技术特征摘要】
1.一种基于强化学习的深度学习任务调度方法,包括场景建模和调度算法设计,其特征在于,具体包括:
A.状态空间设计,在多任务调度场景下,每个任务在不同策略下的性能通过一个Q值表进行记录,为每个深度学习任务构建一个独立的状态,状态空间就是所有深度学习任务集合,加入一种分组策略,降低状态空间的维度,提高整个强化学习Q值表的效率;
B.动作空间设计,动作空间包括任务平均划分到多个节点和多个GPU设备上,增加等待动作,即当前任务可以选择等待到下一个调度点进行调度策略选择,动作空间的选择依赖于贪心策略和Q值表,其中Q值表代表动作选择需要基于对已知信息的利用;
C.反馈函数设计,为每个任务选择调度策略之后,通过在线任务执行性能获取一个反馈,而该反馈用于自身调度策略Q值表的更新,反馈越高的调度决策后续被选择的可能性也会增大,反之则会降低,反馈函数R表示为



其中t和s分别表示深度学习任务和放置策略,Process函数为任务的标准化执行性能,Cost函数为任务对资源的占用情况;
D.更新策略设计,基于任务性能反馈对Q值表进行更新,更新的方式依据Bellman最优方程,直到整个Q值表收敛并稳定;
E.自适应调度算法设计,整个调度算法基于事件驱动机制,在新任务提交或旧任务完成时会自...

【专利技术属性】
技术研发人员:陈照云全巍罗磊文梅曹壮沈俊忠张春元
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1