一种基于强化学习策略的多目标云工作流调度方法技术

技术编号:24252482 阅读:34 留言:0更新日期:2020-05-23 00:03
本发明专利技术公开了一种基于强化学习策略的多目标云工作流调度方法,通过利用指针网络对强化学习Agent进行改进形成改进后的深度强化学习算法构建基于强化学习策略的工作流调度模型,使得工作流调度模型能适用于不同大小、不同类型的云工作流调度问题,在保证较高时效性的同时,提升模型的泛化能力。

A multi-objective cloud workflow scheduling method based on reinforcement learning strategy

【技术实现步骤摘要】
一种基于强化学习策略的多目标云工作流调度方法
本专利技术属于云计算
,具体涉及一种基于强化学习策略的多目标云工作流调度方法。
技术介绍
近年来,越来越多的科学家使用工作流来构建他们的复杂应用并部署在云平台上执行。云计算是一种最新的分布式系统计算范例,其按使用付费与弹性资源模式为大规模科学工作流的快速、分布式高效执行提供了易于访问、灵活、可扩展的基础设施与部署环境,但这也给云环境下的工作流调度带来了很多挑战。一方面,其弹性资源模式使得调度求解空间大大增加。另一方面,云的按使用付费使得工作流调度需要同时考虑工作流执行时间与成本等,是一个典型的多目标优化问题,进一步增加了调度问题的难度。目前,多目标优化问题的求解主要采用启发式、元启发式或二者的混合的算法。启发式算法,首先采用一定的规则计算任务的优先级,然后根据优先级依次进行工作流任务调度。但是,启发式算法依赖于规则,对复杂调度问题很难找到最优解,且泛化能力不足。与启发式算法相比,元启发式算法的泛化能力有了很大改善,但通常需要进行很多次的迭代更新才能找到近似最优解。当问题规模变大时,算法寻优所需的时间开销较大,难以满足用户对调度的实时性要求。随着强化学习的发展及其在序列决策方面的突出优势,越来越多的研究者开始尝试利用强化学习求解调度问题。例如,有学者提出利用基于模拟退火的Q学习算法解决协同工作中的任务调度问题,以及利用基于DQN的多目标工作流调度算法解决云环境下的任务调度问题。然而,在面临过大规模的任务请求时,Q学习算法固有的Q值矩阵维数爆炸问题,需要大量的数据存储,导致很高的算法存储复杂性;基于DQN的算法,采用值函数逼近解决了Q学习的高维数据存储问题,但是由于采用固定维数的环境状态向量与单一类型的工作流来训练强化学习模型,其模型泛化能力具有较大的局限性,很难适应不同大小、不同类型的工作流调度需求。
技术实现思路
有鉴于此,本专利技术提供了一种基于强化学习策略的多目标云工作流调度方法,在适应多种类型工作流调度问题的情况下,实现工作流执行跨度时间和成本的同时最小化。本专利技术提供的一种基于强化学习策略的多目标云工作流调度方法,包括以下步骤:步骤1、采用强化学习算法(A3C)建立基于强化学习的工作流调度模型,所述基于强化学习的工作流调度模型包含时间优化子Agent和成本优化子Agent,所述时间优化子Agent和成本优化子Agent统称为子Agent,所述子Agent的策略模型的网络结构为以循环神经网络作为隐含层的指针网络;步骤2、计算资源池中的资源执行所述待调度云工作流中入口任务的时间优化目标值及成本优化目标值,所述时间优化目标值及成本优化目标值作为强化学习算法中的状态;步骤3、所述时间优化子Agent和成本优化子Agent分别以时间相关和成本相关的所述状态作为输入,对云工作流执行一次调度生成训练样本集,采用所述训练样本集完成时间优化子Agent和成本优化子Agent的训练;步骤4、调度应用时,将由所述步骤2计算得到的待调度工作流中任务的状态输入到所述工作流调度模型中分别得到时间优化选择概率和成本优化选择概率,从中确定工作流调度方案。进一步地,所述强化学习智能体的策略模型的网络结构为所述指针网络与长短期记忆网络(LSTM)的组合,所述指针网络的输出作为所述LSTM的输入。进一步地,所述工作流调度方案的确定方式为:将所述时间优化子Agent和成本优化子Agent输出的选择概率作为输入,采用帕累托(Pareto)准则确定最终的行为,将所述行为转换为工作流调度方案。进一步地,所述子Agent与环境交互的过程中,当所述工作流调度模型训练次数小于阈值时,采用随机选择策略与环境进行交互;当所述工作流调度模型训练次数大于或等于所述阈值时,依据网络输出概率与环境进行交互。有益效果:1、本专利技术通过利用指针网络对强化学习Agent进行改进形成改进后的深度强化学习算法构建基于强化学习策略的工作流调度模型,使得工作流调度模型能适用于不同大小、不同类型的云工作流调度问题,在保证较高时效性的同时,提升模型的泛化能力;2、本专利技术为指针网络引入外层LSTM结构,使强化学习Agent在模型训练和决策时,能够综合考虑已调度任务的决策历史时序信息对当前调度决策的影响,以产生更好的调度方案;3、本专利技术通过将强化学习Aagent决策与Pareto准则有机结合,建立了更为合理的决策行为选择准则,进一步提升了算法在多目标调度方面的性能。附图说明图1为本专利技术提供的一种基于强化学习策略的多目标云工作流调度方法的算法流程图。图2为本专利技术提供的一种基于强化学习策略的多目标云工作流调度方法的时序指针网络结构框图。图3为本专利技术提供的一种基于强化学习策略的多目标云工作流调度方法的工作流示例图。图4为本专利技术提供的一种基于强化学习策略的多目标云工作流调度方法的处理结果收敛性对比图。图5为本专利技术提供的一种基于强化学习策略的多目标云工作流调度方法的处理结果主导性对比图。图6为本专利技术提供的一种基于强化学习策略的多目标云工作流调度方法的处理结果时效性对比图。具体实施方式下面结合附图并举实施例,对本专利技术进行详细描述。现有技术中,标准的强化学习算法AC(Actor-CriticAlgorithm)包括智能体(Agent)及环境,其中,Agent作为学习系统由策略模型和价值模型构成。AC算法训练过程为:Agent获取外部环境的当前状态s,对环境采取试探性的动作a,并获取环境反馈的对该动作的回报r和新的状态s,当Agent的某动作a导致环境产生正的回报时,Agent以后产生这个动作的趋势便会加强;反之,Agent产生这个动作的趋势将减弱。在学习系统的控制行为与环境反馈的状态及评价的反复的交互作用中,以学习的方式不断修改从状态到动作的映射策略,以达到优化系统性能目的。深度强化学习算法A3C是将异步的思想用于标准的强化学习算法中,它包含多个局部网络和一个全局网络,利用多线程的方法,多个局部网络同时在多个线程里面分别和环境进行交互学习,每个线程都把训练得到的参数保存在全局网络中,并且定期从全局网络中下载参数指导后续与环境的学习交互。通过这种方法,A3C避免了经验回放相关性过强的问题,同时形成了异步并发的学习模型。本专利技术提出了一种基于强化学习策略的多目标云工作流调度方法,基本思想是:采用A3C算法建立基于强化学习的工作流调度模型,并采用时序融合指针网络对强化学习Agent进行优化,在适应多种类型工作流调度问题的情况下,实现工作流执行跨度时间和成本的同时最小化。本专利技术提出的一种基于强化学习策略的多目标云工作流调度方法,包括基于强化学习的工作流调度模型的构建、模型训练以及在工作流调度中的应用,如图1所示,具体包括如下步骤:步骤1、采用A3C算法建立基于强化学习的工作流调度模型,基于强化学习的工作流调度模型包含时间优化子Agent和成本优化子Agent,时间优化子Agent和成本本文档来自技高网
...

【技术保护点】
1.一种基于强化学习策略的多目标云工作流调度方法,其特征在于,包括以下步骤:/n步骤1、采用强化学习算法(A3C)建立基于强化学习的工作流调度模型,所述基于强化学习的工作流调度模型包含时间优化子Agent和成本优化子Agent,所述时间优化子Agent和成本优化子Agent统称为子Agent,所述子Agent的策略模型的网络结构为以循环神经网络作为隐含层的指针网络;/n步骤2、计算资源池中的资源执行所述待调度云工作流中入口任务的时间优化目标值及成本优化目标值,所述时间优化目标值及成本优化目标值作为强化学习算法中的状态;/n步骤3、所述时间优化子Agent和成本优化子Agent分别以时间相关和成本相关的所述状态作为输入,对云工作流执行一次调度生成训练样本集,采用所述训练样本集完成时间优化子Agent和成本优化子Agent的训练;/n步骤4、调度应用时,将由所述步骤2计算得到的待调度工作流中任务的状态输入到所述工作流调度模型中分别得到时间优化选择概率和成本优化选择概率,从中确定工作流调度方案。/n

【技术特征摘要】
1.一种基于强化学习策略的多目标云工作流调度方法,其特征在于,包括以下步骤:
步骤1、采用强化学习算法(A3C)建立基于强化学习的工作流调度模型,所述基于强化学习的工作流调度模型包含时间优化子Agent和成本优化子Agent,所述时间优化子Agent和成本优化子Agent统称为子Agent,所述子Agent的策略模型的网络结构为以循环神经网络作为隐含层的指针网络;
步骤2、计算资源池中的资源执行所述待调度云工作流中入口任务的时间优化目标值及成本优化目标值,所述时间优化目标值及成本优化目标值作为强化学习算法中的状态;
步骤3、所述时间优化子Agent和成本优化子Agent分别以时间相关和成本相关的所述状态作为输入,对云工作流执行一次调度生成训练样本集,采用所述训练样本集完成时间优化子Agent和成本优化子Agent的训练;
步骤4、调度应用时,将由所述步骤2计算得到的待调度工...

【专利技术属性】
技术研发人员:王彬阳李慧芳袁艳邹伟东柴森春夏元清
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1