一种基于强化学习的云平台任务调度方法及装置制造方法及图纸

技术编号：41223229 阅读：6 留言：0更新日期：2024-05-09 23:42

本发明专利技术公开了一种基于强化学习的云平台任务调度方法及装置，涉及强化学习技术领域；通过获取任务执行轨迹中的有效轨迹生成目标矩阵，从而能够更准确地预测任务的执行时间和结果，并通过生成目标矩阵和优化处理，能够快速找到最优的调度策略，避免了多任务情况下直接对每个任务调度产生的方案进行奖励设计，不会占用大量系统资源，并且根据各个任务的占比率按照预设规则对所述目标矩阵横轴中各个任务进行优化处理，其计算量也会随着优化处理越来越小，提高任务调度的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于强化学习，具体涉及一种基于强化学习的云平台任务调度方法及装置。

技术介绍

1、任务调度是指系统为了自动完成特定的任务，在约定的特点时间去执行任务的过程，解放人力需要做的事情。任务调度可以基于给定时间点、给定时间间隔或者给定执行次数自动执行任务。

2、强化学习(reinforcement learning，rl)是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。

3、目前强化学习主流方向都是基于奖励的，强化学习优化目标是长期的累计奖励，而如何设置一个好的奖励函数通常需要大量专业领域知识，并且需要考虑提出的奖励函数是否会影响学习过程，因此如何设计奖励比较困难，而目前解决方法则是通过制定规则去采集样本，或通过给的案例进行模仿学习，但是在有些场景也并不是能够很好地去定义出这样一个奖励，如在任务调度方面，任务调度大多都是多任务进行，随着任务的增加，任务调度产生的方案也成指数增加，而如果针对每个方案都进行奖励设计，那么这个设计过程计算量将非常大，不仅会占用大量系统资源，还会导致云平台任务调度变得卡顿，还会使得云平台任务调度效率低下。

技术实现思路

1、本专利技术的目的就在于解决如果针对每个方案都进行奖励设计，那么这个设计过程计算量将非常大，不仅会大量占用系统资源，还会导致云平台任务调度变得卡顿，还会使得云平

2、在本专利技术实施的第一方面，首先提出一种基于强化学习的云平台任务调度方法，所述方法包括:

3、判断预设数据库中是否存在调度等级任务集，若所述预设数据库中不存在该调度等级任务集，则将该调度任务集内的任务进行随机排序得到各个任务在不同情况下的任务执行轨迹；所述调度等级任务集为根据任务等级对云平台中的任务进行分类后的任务集合；

4、获取该任务执行轨迹中的有效轨迹生成目标矩阵；所述有效轨迹是指该轨迹下所有任务都能在任务的开始时间时开始执行，并在任务的结束时间之前结束任务；所述目标矩阵纵轴为一条有效轨迹中各个任务的执行顺序；所述目标矩阵横轴为各个有效轨迹在同一位置中所对应的任务；

5、获取所述目标矩阵横轴中各个任务的占比率，根据各个任务的占比率按照预设规则对所述目标矩阵横轴中各个任务进行优化处理，得到所述目标矩阵中各个横轴对应的调度策略；

6、根据该调度策略，对该调度任务集里各个任务进行任务调度。

7、可选的，判断预设数据库中是否存在调度等级任务集具体包括：

8、获取所述预设数据库中与调度等级任务集相同等级的任务集集合，根据调度等级任务集的总任务处理时间片查找所述任务集集合中与所述总任务处理时间片相同时间间隔的任务集；所述调度等级任务集的总任务处理时间片由该调度等级任务集中各个任务的开始时间和结束时间确定；

9、若存在所述任务集，则遍历所述任务集内的任务与该调度等级任务集进行任务比对；所述任务比对根据任务的开始时间和结束时间确定；

10、若该调度等级任务集中所有任务均能在所述任务集中比对成功，且不重复，则判定所述预设数据库中存在与该调度等级任务集相同的任务集；

11、否则，所述预设数据库中不存在该调度等级任务集；

12、其中，所述预设数据库用于保存已经完成任务调度的任务集，包括任务集的任务等级、完成时间、各个调度任务的开始时间和结束时间及其各个调度任务对应的任务调度策略。

13、可选的，若所述预设数据库中存在与该调度等级任务集相同的任务集，则根据所述任务集中各个任务的任务调度策略进行任务调度。

14、可选的，获取所述目标矩阵横轴中各个任务的占比率，根据各个任务的占比率按照预设规则对所述目标矩阵横轴中各个任务进行优化处理，其中所述预设规则具体包括：

15、获取所述目标矩阵横轴中各个任务的占比率，得到当前横轴中各个任务占比率最大的任务记为预处理任务；

16、根据所述目标矩阵纵轴中各个预处理任务的占比率最大值，得到目标任务；

17、若所述目标任务在当前位置的占比率大于其它位置总和，则将当前位置记为所述目标任务的调度策略，并将所述目标任务对应的横轴进行锁定；所述锁定用于将当前横轴中的目标任务进行位置固定。

18、可选的，根据所述目标矩阵纵轴中各个预处理任务的占比率最大值，得到目标任务之后还包括：

19、若所述目标任务在当前位置的占比值小于其它位置总和，则以所述目标任务对应的占比概率对当前横轴中非所述目标任务的位置进行目标位置替换；所述目标位置替换为将当前横轴中非所述目标任务与所述非目标任务对应的纵轴中的目标任务进行替换；

20、若替换后所述目标任务对应的执行路径依旧为有效路径则将其保存；

21、重复上述步骤，直至所述目标任务在所述目标矩阵当前的横轴中占比率大于其它位置总和，则将当前位置记为所述目标任务的调度策略；

22、根据所述目标矩阵横轴中各个预处理任务的占比率，按从大到小依次对执行任务进行位置替换。

23、可选的，以所述目标任务对应的占比概率对当前横轴中非所述目标任务的位置进行目标位置替换之后还包括：

24、若替换后所述目标任务对应的执行路径为非有效路径，则将所述替换后的路径还原，并删除所述目标任务在所述目标矩阵纵轴中的位置；所述非有效路径为在该轨迹下存在任务不能在任务的开始时间时开始执行，或无法在任务的结束时间之前结束任务。

25、在本专利技术实施的第二方面，提出一种基于强化学习的云平台任务调度装置，包括：预处理模块、任务矩阵模块、调度策略分配模块和任务调度模块：

26、所述预处理模块，用于判断预设数据库中是否存在调度等级任务集，若所述预设数据库中不存在该调度等级任务集，则将该调度任务集内的任务进行随机排序得到各个任务在不同情况下的任务执行轨迹；所述调度等级任务集为根据任务等级对云平台中的任务进行分类后的任务集合；

27、所述任务矩阵模块，用于获取该任务执行轨迹中的有效轨迹生成目标矩阵；所述有效轨迹是指该轨迹下所有任务都能在任务的开始时间时开始执行，并在任务的结束时间之前结束任务；所述目标矩阵纵轴为一条有效轨迹中各个任务的执行顺序；所述目标矩阵横轴为各个有效轨迹在同一位置中所对应的任务；

28、所述调度策略分配模块，用于获取所述目标矩阵横轴中各个任务的占比率，根据各个任务的占比率按照预设规则对所述目标矩阵横轴中各个任务进行优化处理，得到所述目标矩阵中各个横轴对应的调度策略；

29、所述任务调度模块，用于根据该调度策略，对该调度任务集里各个任务进行任务调度。

30、本专利技术的有益效果：

31、本专利技术提出了一种基于强化学习的云平台任本文档来自技高网...

【技术保护点】

1.一种基于强化学习的云平台任务调度方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于强化学习的云平台任务调度方法，其特征在于，判断预设数据库中是否存在调度等级任务集具体包括：

3.根据权利要求2所述的一种基于强化学习的云平台任务调度方法，其特征在于，若所述预设数据库中存在与该调度等级任务集相同的任务集，则根据所述任务集中各个任务的任务调度策略进行任务调度。

4.根据权利要求1所述的一种基于强化学习的云平台任务调度方法，其特征在于，获取所述目标矩阵横轴中各个任务的占比率，根据各个任务的占比率按照预设规则对所述目标矩阵横轴中各个任务进行优化处理，其中所述预设规则具体包括：

5.根据权利要求4所述的一种基于强化学习的云平台任务调度方法，其特征在于，根据所述目标矩阵纵轴中各个预处理任务的占比率最大值，得到目标任务之后还包括：

6.根据权利要求5所述的一种基于强化学习的云平台任务调度方法，其特征在于，以所述目标任务对应的占比概率对当前横轴中非所述目标任务的位置进行目标位置替换之后还包括：

7.一种基于

...

【技术特征摘要】

1.一种基于强化学习的云平台任务调度方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于强化学习的云平台任务调度方法，其特征在于，判断预设数据库中是否存在调度等级任务集具体包括：

4.根据权利要求1所述的一种基于强化学习的云平台任务调度方法，其特征在于，获取所述目标矩阵横轴中各个任务的占比率，根据各个任务的占比率按照预...

【专利技术属性】
技术研发人员：王月虎，刘军，谭仲春，丁军军，邱明灏，包祥文，韩峰，陶军，郑翔，王超，
申请(专利权)人：南京财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人