基于深度增强学习的工作流调度方法技术

技术编号：14200581 阅读：469 留言：0更新日期：2016-12-17 14:15

本发明专利技术公开了基于深度增强学习的工作流调度方法，包括如下步骤：步骤A)收集实际执行环境中的任务执行DAG工作流有向无环图M张，作为样本池；步骤B)对每张DAG工作流有向无环图进行MDP马尔科夫决策过程建模，生成任务状态集合S；步骤C)根据神经网络的训练方法DQN，将M张DAG工作流有向无环图生成的任务状态集合S和对应的已知动作集合A作为输入，代入深度神经网络公式，求得神经网络参数矩阵的值。本发明专利技术通过上述方法，解决目前分布式环境下工作流调度方法执行时间长，泛化性差的缺陷，加速保证算法的时间效率，同时增加算法本身的泛化性能，让调度机器能够根据实际场景特征自主学习调度策略。

Workflow scheduling method based on depth enhanced learning

The invention discloses a depth enhanced workflow scheduling method based on learning, which comprises the following steps: step A) collection of actual execution environment in DAG workflow task execution directed acyclic graph M, as the sample pool; step B) directed acyclic graph MDP Markov decision process model for each DAG workflow, task status set S; step C) according to the training method of DQN neural network, the M DAG workflow has known movements directed acyclic graph generation task state set S and the corresponding set of A as input into the depth of the neural network obtained formula, neural network parameter values. The present invention by the above method, to solve the current workflow scheduling method under distributed environment long execution time, poor generalization defects, accelerate the guarantee time efficiency of the algorithm, while increasing the generalization performance of the algorithm itself, so scheduling machine can according to the actual characteristics of autonomous learning scene scheduling strategy.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机软件领域，具体地，涉及基于深度增强学习的工作流调度方法。
技术介绍
在分布式计算环境中，工作流调度问题(workflow scheduling)一直以来都是计算机领域内的优化问题之一。工作流调度问题实际上就是给出一个调度方案，将工作流上的任务按照一定的顺序调度到合适执行节点上执行，以达到最小执行代价。其数学模型如下：一个具体的计算应用可以由一个有向无环图(DAG)G(T,E)来表示，其中T是n个任务集合{t1,t2,...,tn
基于深度增强学习的工作流调度方法

【技术保护点】
基于深度增强学习的工作流调度方法，其特征在于，包括如下步骤：步骤A)收集实际执行环境中的任务执行DAG工作流有向无环图M张，作为样本池；步骤B)对每张DAG工作流有向无环图进行MDP马尔科夫决策过程建模，生成任务状态集合S；步骤C)根据神经网络的训练方法DQN，将M张DAG工作流有向无环图生成的任务状态集合S和对应的已知动作集合A作为输入，代入深度神经网络公式Q(s,a；θi)，求得执行任务i时的神经网络参数矩阵θi的值，Q为动作价值函数，s为任务状态集合S中的一个，a为动作集合A中的一个调度方案；步骤D)判断DAG工作流有向无环图生成的任务状态集合S是否全部依次代入神经网络的训练方法DQN，如果全部代入，则输出最终的神经网络参数矩阵θi的值，如果没有则继续执行神经网络的训练方法DQN；步骤E)对于新输入的DAG工作流有向无环任务，同样进行MDP马尔科夫决策过程建模，生成初始任务状态S0，代入步骤D)中的深度神经网络公式Q(s,a；θi)，其中θi的值为步骤D)中计算得到的值，即可获得最终的动作集合A中的一个调度方案a，并且将这次输入DAG工作流有向无环图的任务状态以及调度结果输入到样本池。...

【技术特征摘要】
1.基于深度增强学习的工作流调度方法，其特征在于，包括如下步骤：步骤A)收集实际执行环境中的任务执行DAG工作流有向无环图M张，作为样本池；步骤B)对每张DAG工作流有向无环图进行MDP马尔科夫决策过程建模，生成任务状态集合S；步骤C)根据神经网络的训练方法DQN，将M张DAG工作流有向无环图生成的任务状态集合S和对应的已知动作集合A作为输入，代入深度神经网络公式Q(s,a；θi)，求得执行任务i时的神经网络参数矩阵θi的值，Q为动作价值函数，s为任务状态集合S中的一个，a为动作集合A中的一个调度方案；步骤D)判断DAG工作流有向无环图生成的任务状态集合S是否全部依次代入神经网络的训练方法DQN，如果全部代入，则输出最终的神经网络参数矩阵θi的值，如果没有则继续执行神经网络的训练方法DQN；步骤E)对于新输入的DAG工作流有向无环任务，同样进行MDP马尔科夫决策过程建模，生成初始任务状态S0，代入步骤D)中的深度神经网络公式Q(s,a；θi)，其中θi的值为步骤D)中计算得到的值，即可获得最终的动作集合A中的一个调度方案a，并且将这次输入DAG工作流有向无环图的任务状态以及调度结果输入到样本池。2.根据权利要求1所述的基于深度增强学习的工作流调度方法，其特征在于，还包括步骤F)当样本池累积到一定程度之后，重复步骤C)对深度神经网络公式Q(s,a；θi)进行再计算，得到新的θi值和新的深度神经网络Q′(s,a；θi)用于后续输入的DAG工作流有向无环图调度计算。3.根据权利要求2所述的基于深度增强学习的工作流调度方法，其特征在于，样本池累计到一定程度是指样本池中累计增加的DAG工作流有向无环图的样本数量超过100，就启动一次步骤C)进行计算，训练样本会随机从样本池中取样100张DAG工作流有向无环图进行计算。4.根据权利要求2或3所述的基于深度增强学习的工作流调度方法，其特征在于，步骤C)中根据马尔科夫决策过程推出的神经网络的训练方法DQN步骤如下：步骤C1)对于每一个时间点t，有马尔科夫过程et＝(st,at,rt,st+1)，定义存储池D＝e1,e2…eN，初始化存储池...

【专利技术属性】
技术研发人员：段翰聪，闵革勇，张建，王瑾，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人