一种多资源调度方法、系统、存储介质及终端技术方案

技术编号:38822493 阅读:19 留言:0更新日期:2023-09-15 20:01
本发明专利技术实施例公开了一种多资源调度方法、系统、存储介质及终端,方法包括:获取多资源训练数据;配置价值网络和策略网络的多资源调度模型训练条件;根据多资源调度模型训练条件使价值网络和策略网络与环境进行交互,获取优化序列;根据优化序列分别获取价值网络和策略网络的损失函数,进行价值网络参数和策略网络参数更新,并通过随机选择策略从优化序列中分别获取价值网络和策略网络的优化函数;根据损失函数确定模型误差并根据优化函数使模型误差最小化,获得最优多资源调度模型;通过最优多资源调度模型从多资源训练数据中选择最优的节点,并向节点分配任务。通过结合价值网络的决策能力和策略网络的感知能力,提高多资源调度方法的收敛性。度方法的收敛性。度方法的收敛性。

【技术实现步骤摘要】
一种多资源调度方法、系统、存储介质及终端


[0001]本专利技术涉及资源调度
,尤其涉及一种多资源调度方法、系统、存储介质及终端。

技术介绍

[0002]随着互联网技术的快速发展,云计算技术也正在成为信息技术产业发展的战略重点,逐步走入人们的生活。云计算技术通过互联网将遍布世界各地数据中心的各种IT(Internet Technology,互联网技术)资源(计算、存储等)提供给用户使用,较大规模的数据中心目前已有数十万台服务器,而对如此大规模数据中心的资源进行有效管理就需要采用云计算技术中的资源调度技术。资源调度技术是云计算技术中最关键的一部分,它能够帮助云计算解决资源和信息的大规模处理,从而实现更好的资源分配。
[0003]现有的资源调度算法采用启发式算法或遗传算法,其存在固有缺陷:一是收敛性慢、实时性较差;二是不能保证调度分配的整体最优解,表现不稳定,计算精度差。

技术实现思路

[0004]基于此,有必要针对上述问题,提出了一种多资源调度方法、系统、存储介质及终端。
[0005]一种多资源调度方法,所述方法包括:
[0006]获取多资源训练数据,所述多资源训练数据包括节点集群信息和任务信息。
[0007]配置价值网络和策略网络的多资源调度模型训练条件。
[0008]根据所述多资源调度模型训练条件使所述价值网络和策略网络与环境进行交互,获取优化序列,所述优化序列包括状态、动作、回报。
[0009]根据所述优化序列分别获取所述价值网络和策略网络的损失函数,进行价值网络参数和策略网络参数更新,并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数。
[0010]根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化,获得最优多资源调度模型。
[0011]通过所述最优多资源调度模型从所述多资源训练数据中选择最优的节点,并向所述节点分配任务。
[0012]其中,所述配置价值网络和策略网络的多资源调度模型训练条件,具体包括:
[0013]对所述价值网络和所述策略网络进行初始化,设置选代最大回合和最大样本数,重置环境并设置回报等于零。
[0014]其中,所述根据所述优化序列分别获取所述价值网络和策略网络的损失函数,进行价值网络参数和策略网络参数更新,并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数,具体包括:
[0015]根据所述优化序列中的状态和回报获取价值网络的损失函数并进行价值网络参
数更新。
[0016]通过随机选择策略从所述优化序列中获取价值网络在不同输入下的优化函数,优化所述价值网络的损失函数。
[0017]根据所述优化序列中的状态和回报获取策略网络的损失函数并进行策略网络参数更新。
[0018]通过随机选择策略从所述优化序列中获取策略网络的优化函数,优化所述策略网络的损失函数。
[0019]重复上述步骤,直到达到所述最大样本数,继续下一个回合选代。
[0020]其中,所述根据所述优化序列分别获取所述价值网络和策略网络的损失函数,进行价值网络参数和策略网络参数更新,并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数,具体包括:
[0021]所述随机选择策略由G
t
=R
t+1
+γR
t+2
+...+γ
n
‑1R
t+n

n
Q(S
t+n
,a
t+n
)确定,其中,R
t+n
表示t时刻下第n步的回报,S
t+n
表示t时刻下第n步的状态,a
t+n
表示t时刻下第n步的动作。
[0022]其中,所述通过随机选择策略从所述优化序列中获取价值网络在不同输入下的优化函数,优化所述价值网络的损失函数,具体包括:
[0023]当环境输入到价值网络的是状态时,价值网络的优化函数由确定,其中,L
critic
为价值网络的优化函数,N为轨迹长度,V
St
为t时刻状态的价值网络输出的当前状态价值。
[0024]当环境输入到价值网络的是状态和动作时,所述价值网络的优化函数由确定,其中,Q(s
t
,a
t
)为t时刻状态的价值网络输出的当前状态下采取动作的价值。
[0025]其中,所述通过随机选择策略从所述优化序列中获取策略网络的优化函数,优化所述策略网络的损失函数,具体包括:
[0026]策略网络的优化函数由确定,其中,π*为最优策略。
[0027]其中,所述根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化,获得最优多资源调度模型,具体包括:
[0028]根据所述优化函数进行至少一次回合迭代使所述损失函数最小化,所述损失函数包括模型误差,直到回合迭代至所述迭代最大回合数,获得最优多资源调度模型。
[0029]一种资源调度系统,所述系统包括:
[0030]多资源训练数据获取模块,用于获取多资源训练数据,所述多资源训练数据包括节点集群信息和任务信息。
[0031]配置模块,用于配置价值网络和策略网络的多资源调度模型训练条件。
[0032]优化序列获取模块,用于根据所述多资源调度模型训练条件使所述价值网络和策略网络与环境进行交互,获取优化序列,所述优化序列包括状态、动作、回报。
[0033]更新模块,用于根据所述优化序列分别获取所述价值网络和策略网络的损失函
数,进行价值网络参数和策略网络参数更新,并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数。
[0034]最优多资源调度模型获取模块,用于根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化,获得最优多资源调度模型。
[0035]任务分配模块,用于通过所述最优多资源调度模型从多资源训练数据中选择最优的节点,并向所述节点分配任务。
[0036]一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上所述方法的步骤。
[0037]一种终端,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述方法的步骤。
[0038]采用本专利技术实施例,具有如下有益效果:
[0039]本专利技术基于深度强化学习中的价值网络和策略网络提供了一种多资源调度方法,通过结合价值网络的决策能力和策略网络的感知能力,提高多资源调度方法的收敛性,能应对准实时场景,只需要通过对模型训练就可以获得最优多资源调度模型,进而得到多资源调度分配的整体最优解,计算精度高,并且采用随机选择策略,增强了最优多资源调度模型的泛化能力和鲁棒性,确保其表现稳定。
附图说明
...

【技术保护点】

【技术特征摘要】
1.一种多资源调度方法,其特征在于,所述方法包括:获取多资源训练数据,所述多资源训练数据包括节点集群信息和任务信息;配置价值网络和策略网络的多资源调度模型训练条件;根据所述多资源调度模型训练条件使所述价值网络和策略网络与环境进行交互,获取优化序列,所述优化序列包括状态、动作、回报;根据所述优化序列分别获取所述价值网络和策略网络的损失函数,进行价值网络参数和策略网络参数更新,并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数;根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化,获得最优多资源调度模型;通过所述最优多资源调度模型从所述多资源训练数据中选择最优的节点,并向所述节点分配任务。2.根据权利要求1所述的一种多资源调度方法,其特征在于,所述配置价值网络和策略网络的多资源调度模型训练条件,具体包括:对所述价值网络和所述策略网络进行初始化,设置选代最大回合数和最大样本数,重置环境并设置回报等于零。3.根据权利要求2所述的一种多资源调度方法,其特征在于,所述根据所述优化序列分别获取所述价值网络和策略网络的损失函数,进行价值网络参数和策略网络参数更新,并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数,具体包括:根据所述优化序列中的状态和回报获取价值网络的损失函数并进行价值网络参数更新;通过随机选择策略从所述优化序列中获取价值网络在不同输入下的优化函数,优化所述价值网络的损失函数;根据所述优化序列中的状态和回报获取策略网络的损失函数并进行策略网络参数更新;通过随机选择策略从所述优化序列中获取策略网络的优化函数,优化所述策略网络的损失函数;重复上述步骤,直到达到所述最大样本数,继续下一个回合选代。4.根据权利要求3所述的一种多资源调度方法,其特征在于,所述根据所述优化序列分别获取所述价值网络和策略网络的损失函数,进行价值网络参数和策略网络参数更新,并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数,具体包括:所述随机选择策略由G
t
=R
t+1
+γR
t+2
+...+γ
n
‑1R
t+n

n
Q(S
t+n
,a
t+n
)确定,其中,R
t+n
表示t时刻下第n步的回报,S
t+n
表示t时刻下第n步的状态,a
t+n

【专利技术属性】
技术研发人员:尹光荣谢晓宾郑小华陈友徐凯黄志明
申请(专利权)人:深圳天源迪科信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1