【技术实现步骤摘要】
一种基于强化学习的深度学习任务调度方法
本专利技术涉及任务资源调度领域,具体涉及一种基于强化学习的深度学习任务调度方法。
技术介绍
随着以深度学习技术为核心的产品和服务逐渐融入我们的日常生活,工业界和学术界纷纷开始投入更大规模的人力、物力和财力支持该领域的研发。各个企业开始基于主流的CPU+GPU异构集群来构建自身的深度学习研发平台,同时处理多种不同的深度学习任务,从而满足多用户的研发需求。如何能够最大程度发挥异构集群平台的计算能力,提高整个集群资源利用率和任务完成效率,同时降低运维成本,是一个极具挑战的任务。当前数据中心的任务调度策略大多是基于启发式算法,不需要挖掘任务内在的性能特征,通常将任务当作一个黑盒子。这种调度算法虽然泛化能力较强,但是缺乏细粒度任务性能的挖掘。近年来也逐渐有一些基于预测的深度学习任务调度算法,但该类调度算法存在两个方面的不足:一方面预测精度很有限,该类算法往往基于任务自身迭代性或收敛性来进行预测,对于更加复杂的网络模型预测偏差较大;另一方面离线评估的开销过大,预测的基础在于离线评估,而离线 ...
【技术保护点】
1.一种基于强化学习的深度学习任务调度方法,包括场景建模和调度算法设计,其特征在于,具体包括:/nA. 状态空间设计,在多任务调度场景下,每个任务在不同策略下的性能通过一个Q值表进行记录,为每个深度学习任务构建一个独立的状态,状态空间就是所有深度学习任务集合,加入一种分组策略,降低状态空间的维度,提高整个强化学习Q值表的效率;/nB. 动作空间设计,动作空间包括任务平均划分到多个节点和多个GPU设备上,增加等待动作,即当前任务可以选择等待到下一个调度点进行调度策略选择,动作空间的选择依赖于贪心策略和Q值表,其中Q值表代表动作选择需要基于对已知信息的利用;/nC. 反馈函数设 ...
【技术特征摘要】
1.一种基于强化学习的深度学习任务调度方法,包括场景建模和调度算法设计,其特征在于,具体包括:
A.状态空间设计,在多任务调度场景下,每个任务在不同策略下的性能通过一个Q值表进行记录,为每个深度学习任务构建一个独立的状态,状态空间就是所有深度学习任务集合,加入一种分组策略,降低状态空间的维度,提高整个强化学习Q值表的效率;
B.动作空间设计,动作空间包括任务平均划分到多个节点和多个GPU设备上,增加等待动作,即当前任务可以选择等待到下一个调度点进行调度策略选择,动作空间的选择依赖于贪心策略和Q值表,其中Q值表代表动作选择需要基于对已知信息的利用;
C.反馈函数设计,为每个任务选择调度策略之后,通过在线任务执行性能获取一个反馈,而该反馈用于自身调度策略Q值表的更新,反馈越高的调度决策后续被选择的可能性也会增大,反之则会降低,反馈函数R表示为
其中t和s分别表示深度学习任务和放置策略,Process函数为任务的标准化执行性能,Cost函数为任务对资源的占用情况;
D.更新策略设计,基于任务性能反馈对Q值表进行更新,更新的方式依据Bellman最优方程,直到整个Q值表收敛并稳定;
E.自适应调度算法设计,整个调度算法基于事件驱动机制,在新任务提交或旧任务完成时会自...
【专利技术属性】
技术研发人员:陈照云,全巍,罗磊,文梅,曹壮,沈俊忠,张春元,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。