一种基于深度强化学习的任务调度方法、系统、装置及介质制造方法及图纸

技术编号:35311606 阅读:13 留言:0更新日期:2022-10-22 13:03
本发明专利技术公开了一种基于深度强化学习的任务调度方法、系统、装置及介质,包括:采集用户的行为数据,并形成数据集;对数据集中的行为数据进行读取,生成任务,并将任务信息按照任务到达的先后顺序以队列的形式进行存储;对任务进行识别、聚类和处理,将任务划分成不同的类型;基于任务信息和基于深度强化学习的任务分配策略,选取对应类型的任务,调度任务信息,满足用户需要。本发明专利技术能够对任务资源进行调度,提高资源利用率,降低运维成本。降低运维成本。降低运维成本。

【技术实现步骤摘要】
一种基于深度强化学习的任务调度方法、系统、装置及介质


[0001]本专利技术属于深度学习领域,涉及一种基于深度强化学习的任务调度方法、系统、装置及介质。

技术介绍

[0002]云计算作为一种大规模的异构服务器集群,允许用户通过互联网以低廉的价格租用高性能的服务,云端处理大量应用的同时对云计算平台任务调度的性能要求也急剧加升,一方面,大量终端用户提交的任务具有动态不确定性,任务到达时间及任务所需资源未知,另一方面异构性在云环境中很常见,首先,用户提交的大规模请求是异构的,如计算密集型和I/O密集型,其次,云环境下部署的不同服务器的硬件配置是异构的,动态工作负载会导致同处虚拟机之间的资源竞争,因此,如何实现大规模动态异构任务与虚拟机实例之间的映射,同时保证虚拟机实例之间的负载均衡,是学术界和研究的热点。
[0003]为了应对上述挑战,现有的方法大多侧重于运用排队论、控制论等理论研究,将调度系统建立为数学模型,对作业调度方案进行理论分析。但是,由于这些解决方案对时间和资源非常敏感,因此它们不适用于动态负载,此外,启发式调度算法将任务分配视为NP问题,在静态环境下进行任务调度,忽略了云环境的动态性。

技术实现思路

[0004]本专利技术的目的在于解决现有技术中的问题,提供一种基于深度强化学习的任务调度方法、系统、装置及介质,能够对任务资源进行调度,提高资源利用率,降低运维成本。
[0005]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0006]一种基于深度强化学习的任务调度方法,包括:
[0007]采集用户的行为数据,并形成数据集;
[0008]对数据集中的行为数据进行读取,生成任务,并将任务信息按照任务到达的先后顺序以队列的形式进行存储;
[0009]对任务进行识别、聚类和处理,将任务划分成不同的类型;
[0010]基于任务信息和基于深度强化学习的任务分配策略,选取对应类型的任务,调度任务信息,满足用户需要。
[0011]本专利技术的进一步改进在于:
[0012]任务信息包括:任务的输入参数、任务复杂度和数据量大小;行为数据包括:用户提交的任务数据和资源的使用情况。
[0013]对任务进行识别、聚类和处理,将任务划分成不同的类型,具体为:
[0014]基于K

means算法进行聚类分析,将任务划分为三个任务类型,分别为计算需求型、内存需求型和宽带需求型;再选取不同类型信息的任务进行提交。
[0015]选取不同类型信息的任务进行提交,具体为:不同的任务在提交时会附带自身的任务信息,其中类型信息作为一个字段存储在任务信息中,表明任务类型的归属。
[0016]基于深度强化学习的任务分配策略,具体为:
[0017]初始化Q表中的所有元素为0;
[0018]使用Q

learning算法对任务进行排序,将任务作为Q

learning中的状态和动作,从当前任务到下一个任务的排序过程作为智能体在当前状态选择一个可执行动作后转移到下一个状态的过程;
[0019]将每个任务的Upward Rank值作为该任务对应状态的立即奖励值,通过迭代更新Q表,直到Q表的值收敛;
[0020]根据收敛的Q表;使用最大Q值优先原则对任务进行排序,即每次都选择符合任务依赖关系中的Q值最大的任务作为下一个执行任务,直到所有任务都完成排序过程;
[0021]获取任务的执行顺序后,基于分配策略将每个任务映射到响应的虚拟机上进行执行;具体的分配策略为将任务在每个虚拟机上的最早完成时间和虚拟机的消耗成本通过线性加权的方式进行综合考虑,每次将任务分配到加权和最小的虚拟机上进行执行,使得在任务的完成时间最小并且同时做到虚拟机总成本下降的多目标优化的目的。
[0022]一种基于深度强化学习的任务调度系统,包括:任务生成器、聚类器、任务调度模块、数据采集器和虚拟机;
[0023]数据采集器用于采集用户的行为数据,并形成数据集;
[0024]任务生成器用于对数据集中的行为数据进行读取,生成任务,并将任务信息按照任务到达的先后顺序以队列的形式进行存储至虚拟机中;
[0025]聚类器用于对存储的任务进行识别、聚类和处理,将任务划分成不同的类型;
[0026]任务调度模块基于任务信息和基于深度强化学习的任务分配策略,选取对应类型的任务,对虚拟机中的任务数据进行调度,满足用户要求。
[0027]任务调度模块包括监测器和任务调度器;监测器负责获取所有状态信息,包括虚拟机状态和任务状态,其中,状态监视器用于观察智能体周围的环境,即监测每个虚拟机中任务的执行情况,虚拟机资源的使用情况以及任务调度器中的任务队列;任务状态分为就绪、等待、运行和暂停;状态信息作为输入发送到任务调度器中;
[0028]任务调度器把任务分配给虚拟机,虚拟机接收所分配的任务,并根据所分配的任务进行仿真,观察得到的奖励和下一个状态,并将这一时刻的环境状态、动作、奖励进行存储。
[0029]基于深度强化学习的任务分配策略,具体为:
[0030]初始化Q表中的所有元素为0;
[0031]使用Q

learning算法对任务进行排序,将任务看作Q

learning中的状态和动作,从当前任务到下一个任务的排序过程看作智能体在当前状态选择一个可执行动作后转移到下一个状态的过程;
[0032]将每个任务的Upward Rank值作为该任务对应状态的立即奖励值,通过迭代更新Q表,直到Q表的值收敛;
[0033]根据收敛的Q表;使用最大Q值优先原则对任务进行排序,即每次都选择符合任务依赖关系中的Q值最大的任务作为下一个执行任务,直到所有任务均完成排序过程;
[0034]获取任务的执行顺序后,基于分配策略将每个任务映射到响应的虚拟机上进行执行;具体的分配策略为将任务在每个虚拟机上的最早完成时间和虚拟机的消耗成本通过线
性加权的方式进行综合考虑,每次将任务分配到加权和最小的虚拟机上进行执行,使得在任务的完成时间最小并且同时做到虚拟机总成本下降的多目标优化的目的。
[0035]一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0036]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0037]与现有技术相比,本专利技术具有以下有益效果:
[0038]本专利技术通过对用户的行为数据进行采集、读取和处理,获取所有数据的状态信息,并基于任务分配策略,对数据进行调度,并判断调度结果是否满足用户需要,若不满足,重新进行调度,直到满足用户需要为止。本专利技术基于深度强化学习模型对任务资源进行调度,提高资源利用率,降低运维成本,在任务平均耗时,最小完工本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的任务调度方法,其特征在于,包括:采集用户的行为数据,并形成数据集;对数据集中的行为数据进行读取,生成任务,并将任务信息按照任务到达的先后顺序以队列的形式进行存储;对任务进行识别、聚类和处理,将任务划分成不同的类型;基于任务信息和基于深度强化学习的任务分配策略,选取对应类型的任务,调度任务信息,满足用户需要。2.根据权利要求1所述的基于深度强化学习的任务调度方法,其特征在于,所述任务信息包括:任务的输入参数、任务复杂度和数据量大小;所述行为数据包括:用户提交的任务数据和资源的使用情况。3.根据权利要求1所述的基于深度强化学习的任务调度方法,其特征在于,所述对任务进行识别、聚类和处理,将任务划分成不同的类型,具体为:基于K

means算法进行聚类分析,将任务划分为三个任务类型,分别为计算需求型、内存需求型和宽带需求型;再选取不同类型信息的任务进行提交。4.根据权利要求3所述的基于深度强化学习的任务调度方法,其特征在于,所述选取不同类型信息的任务进行提交,具体为:不同的任务在提交时会附带自身的任务信息,其中类型信息作为一个字段存储在任务信息中,表明任务类型的归属。5.根据权利要求1所述的基于深度强化学习的任务调度方法,其特征在于,所述基于深度强化学习的任务分配策略,具体为:初始化Q表中的所有元素为0;使用Q

learning算法对任务进行排序,将任务作为Q

learning中的状态和动作,从当前任务到下一个任务的排序过程作为智能体在当前状态选择一个可执行动作后转移到下一个状态的过程;将每个任务的Upward Rank值作为该任务对应状态的立即奖励值,通过迭代更新Q表,直到Q表的值收敛;根据收敛的Q表;使用最大Q值优先原则对任务进行排序,即每次都选择符合任务依赖关系中的Q值最大的任务作为下一个执行任务,直到所有任务都完成排序过程;获取任务的执行顺序后,基于分配策略将每个任务映射到响应的虚拟机上进行执行;具体的分配策略为将任务在每个虚拟机上的最早完成时间和虚拟机的消耗成本通过线性加权的方式进行综合考虑,每次将任务分配到加权和最小的虚拟机上进行执行,使得在任务的完成时间最小并且同时做到虚拟机总成本下降的多目标优化的目的。6.一种基于深度强化学习的任务调度系统,其特征在于,包括:任务生成器、聚类器、任务调度模块、数据采集器和虚拟机;所述数据采集器用于采集用户的行为数据,并形成数据集;所述任务生成器用于对数据集中的...

【专利技术属性】
技术研发人员:闫乐之赵加坤孙琨皇志富
申请(专利权)人:江苏至信信用评估咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1