【技术实现步骤摘要】
多智能体协同计算资源调度方法、装置及系统
[0001]本专利技术涉及边缘计算
,具体地讲,是涉及一种多智能体协同计算资源调度方法、装置及系统。
技术介绍
[0002]Chat GPT的流行表明AI正在往“大模型,大数据”的方向发展,而往往能够支撑大型模型训练的硬件资源却十分有限。为了实现大型模型的训练和应用,边缘计算技术成为一个备受关注的领域。边缘计算目前在现有的学术界和工业界计算框架下不断普及,并且用户更倾向于共享大型硬件平台,所以有限硬件资源的动态分配与平衡是边缘计算目前面临的主要问题。
[0003]边缘集群环境的动态工作负载给前端应用程序的服务请求带来了很高的挑战性,当请求到达时,如何在边缘节点和云之间优化分配计算资源是一个复杂的科学问题。
[0004]在现有工作中,存在多种用于解决任务卸载与资源优化分配的解决方案,如元启发算法、动态规划、强化学习能够在一定程度上解决资源分配的问题。但是上述方案在完成周期性任务调度时难以捕捉到任务的周期性,从而无法达到最佳的调度效果。在边缘场景中,如何考虑服务请求 ...
【技术保护点】
【技术特征摘要】
1.一种多智能体协同计算资源调度方法,其特征在于,应用于边缘集群的管理者,包括以下步骤:S10、接收距离最近的终端设备发送的任务请求,并添加到任务请求队列中;S20、获取边缘集群的历史运行状态序列,输入到多层叠加的LSTM神经网络中,输出具有时序特征的系统状态矩阵;S30、将该具有时序特征的系统状态矩阵输入到边缘集群配置的Actor
‑
Critic网络中进行多智能体强化学习,通过计算获得边缘集群的状态价值;该Actor
‑
Critic网络包括部署在不同的边缘集群中的actor网络和部署在云端的critic网络,所有智能体共享同一个回报函数;S40、根据获得的状态价值从对应的边缘集群中选择合适的节点来处理任务请求队列中的下一个任务,完成资源调度;S50、在边缘集群的节点处理当前任务中根据回报函数计算当前集群的任务回报,并根据任务回报计算损失函数和梯度来更新Actor
‑
Critic网络参数。2.根据权利要求1所述的多智能体协同计算资源调度方法,其特征在于,所述步骤S20中多层叠加的LSTM神经网络包含多个LSTM层,每一层LSTM层接收前一层的隐藏状态作为输入,最后一层LSTM层的输出为具有时序特征的系统状态矩阵。3.根据权利要求2所述的多智能体协同计算资源调度方法,其特征在于,所述LSTM层表示为:待输入的历史运行状态序列s=[s
i
,s
i+k
,s
i+2k
,...,s
i+ck
],遗忘门f
i
=σ(W
gf
s
i
+b
jf
+W
hf
H
(i
‑
k)
+b
hf
),更新门I
i
=σ(W
gj
s
i
+b
jj
+W
hj
H
(i
‑
k)
+b
hj
)g
i
=tanh(W
jg
s
i
+b
jg
+W
hg
H
(i
‑
k)
+b
hg
)C
i
=f
i
C
(i
‑
k)
+I
i
g
i
输出门o
i
=σ(W
go
s
i
+b
jo
+W
ho
H
(i
‑
k)
+b
ho
),隐藏门H
i
=o
i
tanh(C
i
),上式中,s
i
表示在时刻i的系统状态,k表示时间步长,c表示细胞个数,W
gf
和W
hf
、W
gj
和W
hj
、W
jg
和W
hg
、W
go
和W
ho
分别对应于状态输入s
i
和隐藏状态输入H
(i
‑
k)
的权重参数,b
jf
和b
hf
、b
jj
和b
hj
、b
jg
和b
hg
、b
jo
和b
ho
分别表示状态输入和隐藏状态输入过后的偏移量,σ表示sigma激活函数,tanh表示正切函数。4.根据权利要求3所述的多智能体协同计算资源调度方法,其特征在于,所述步骤S30中进行多智能体强化学习通过配置基于系统吞吐率平衡和集群负载均衡的回报函数,来使各智能体学习到任务分配策略,其中回报函数表示为:r1=e
μ
,μ∈[0,1]R=r1r2上式中,r1表示系统吞吐率函数,r1的取值范围为[e
‑1,1],μ表示在时间[λt,λ(t+1)],λ=1,2,...
【专利技术属性】
技术研发人员:王瑞锦,张凤荔,周世杰,陈政,张扬,赖金山,张杰,周潼,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。