多智能体协同学习的异构融合网络资源调度方法和装置制造方法及图纸

技术编号:38637593 阅读:17 留言:0更新日期:2023-08-31 18:33
本发明专利技术提供一种多智能体协同学习的异构融合网络资源调度方法和装置,该方法包括:根据多个智能体各自对应的状态观测信息和任务执行动作信息,确定各智能体对应的任务执行动作价值信息;针对各任务执行动作价值信息,根据所述任务执行动作价值信息,确定所述任务执行动作价值信息对应的智能体执行的多个任务中各任务对应的贡献信息;根据所有贡献信息中目标贡献信息对应的目标任务,生成任务执行指令,所述任务执行指令用于指示所述智能体执行所述目标任务;将多个任务执行指令发送至对应的智能体。该方法可利用各智能体执行的多个任务中各任务对应的贡献信息,对该各智能体对应的任务进行有效且合理的调度和分配,以提高多智能体的任务完成率。智能体的任务完成率。智能体的任务完成率。

【技术实现步骤摘要】
多智能体协同学习的异构融合网络资源调度方法和装置


[0001]本专利技术涉及通信
,尤其涉及一种多智能体协同学习的异构融合网络资源调度方法和装置。

技术介绍

[0002]近年来,随着先进通讯技术的迅速发展和移动应用生态环境的不断完善,智能体愈发呈现出延迟敏感、资源密集和数据量大的发展趋势。同时,物联网的快速发展也使得越来越多的智能体被大规模部署在各种生活场景,并源源不断地执行相应任务,例如采集图像和/或视频等环境信息。然而,由于智能体的电池储能、计算能力和传输能力有限,容易导致该智能体所能提供的计算服务能力无法满足大量的计算需求和及时响应要求。这样一来,服务设备可将各种网络资源进行合理的调度和分配,以实现网络资源的最大化利用和智能体性能的最优化。
[0003]现有的网络资源调度方法往往采用深度强化学习算法或强化学习模型,然而由于该深度强化学习算法和该强化学习模型具有一定的局限制,导致服务设备无法对多智能体对应的网络资源进行有效调度和分配。

技术实现思路

[0004]本专利技术提供一种多智能体协同学习的异构融合网络资源调度方法和装置,可利用各智能体执行的多个任务中各任务对应的贡献信息,对该各智能体对应的任务进行有效且合理的调度和分配,即可对多智能体对应的异构融合网络资源进行有效且合理的调度和分配,以提高多智能体的任务完成率。
[0005]本专利技术提供一种多智能体协同学习的异构融合网络资源调度发方法,包括:
[0006]根据多个智能体各自对应的状态观测信息和任务执行动作信息,确定各智能体对应的任务执行动作价值信息;
[0007]针对各任务执行动作价值信息,根据该任务执行动作价值信息,确定该任务执行动作价值信息对应的智能体执行的多个任务中各任务对应的贡献信息;
[0008]根据所有贡献信息中目标贡献信息对应的目标任务,生成任务执行指令,该任务执行指令用于指示该智能体执行该目标任务;
[0009]将多个任务执行指令发送至对应的智能体
[0010]根据本专利技术提供的一种多智能体协同学习的异构融合网络资源调度方法,该根据多个智能体各自对应的状态观测信息和任务执行动作信息,确定各智能体对应的任务执行动作价值信息,包括:针对该各智能体,获取该智能体执行该多个任务时对应的指标属性、该智能体对应的相关状态信息和任务执行动作信息;根据该指标属性对应的网络空间状态信息及该相关状态信息,确定该智能体对应的状态观测信息;根据该状态观测信息和该任务执行动作信息,确定该智能体对应的任务执行动作价值信息。
[0011]根据本专利技术提供的一种多智能体协同学习的异构融合网络资源调度方法,该根据
该状态观测信息和该任务执行动作信息,确定该智能体对应的任务执行动作价值信息,包括:根据该状态观测信息和该任务执行动作信息,确定该智能体对应的第一卷积嵌入结果;确定该多个智能体中除该智能体以外的其它智能体,对于该智能体执行该多个任务时产生的影响参数;根据该第一卷积嵌入结果和该影响参数,确定该智能体对应的任务执行动作价值信息。
[0012]根据本专利技术提供的一种多智能体协同学习的异构融合网络资源调度方法,该确定该多个智能体中除该智能体以外的其它智能体,对于该智能体执行该多个任务时产生的影响参数,包括:确定该多个智能体中除该智能体以外的其它智能体,各自对应的第二卷积嵌入结果;针对各其它智能体,利用激活函数,对该其它智能体对应的第二卷积嵌入结果进行线性变换,得到目标嵌入结果;根据所有目标嵌入结果及该所有目标嵌入结果各自对应的权重矩阵,确定所有其它智能体对于该智能体执行该多个任务时产生的影响参数。
[0013]根据本专利技术提供的一种多智能体协同学习的异构融合网络资源调度方法,该根据该任务执行动作价值信息,确定该任务执行动作价值信息对应的智能体执行的多个任务中各任务对应的贡献信息,包括:针对各任务,确定该智能体对于该任务的选择概率;根据该选择概率和该任务执行动作价值信息,确定该任务执行动作价值信息对应的智能体执行的多个任务中各任务对应的贡献信息。
[0014]根据本专利技术提供的一种多智能体协同学习的异构融合网络资源调度方法,该确定该智能体对于该任务的选择概率,包括:基于该智能体与其它智能体之间的影响关系,确定该智能体与该其它智能体对应的第三卷积嵌入结果;根据该智能体对应的第一卷积嵌入结果和该第三卷积嵌入结果,确定相互作用信息;对该状态观测信息的分布进行归一化,得到分配信息;根据该相互作用信息和该分配信息,确定该智能体对于该任务的选择概率。
[0015]根据本专利技术提供的一种多智能体协同学习的异构融合网络资源调度方法,该根据所有贡献信息中目标贡献信息对应的目标任务,生成任务执行指令,包括:将该所有贡献信息中最大贡献信息确定为该目标贡献信息;或,将该所有贡献信息中大于预设贡献阈值的贡献信息确定为该目标贡献信息;根据该目标贡献信息对应的目标任务,生成该任务执行指令。
[0016]本专利技术还提供一种多智能体协同学习的异构融合网络资源调度装置,包括:
[0017]处理模块,用于根据多个智能体各自对应的状态观测信息和任务执行动作信息,确定各智能体对应的任务执行动作价值信息;针对各任务执行动作价值信息,根据该任务执行动作价值信息,确定该任务执行动作价值信息对应的智能体执行的多个任务中各任务对应的贡献信息;根据所有贡献信息中目标贡献信息对应的目标任务,生成任务执行指令,该任务执行指令用于指示该智能体执行该目标任务;
[0018]收发模块,用于将多个任务执行指令发送至对应的智能体。
[0019]本专利技术还提供一种服务设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多智能体协同学习的异构融合网络资源调度方法。
[0020]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多智能体协同学习的异构融合网络资源调度方法。
[0021]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述多智能体协同学习的异构融合网络资源调度方法。
[0022]本专利技术提供的多智能体协同学习的异构融合网络资源调度方法和装置,通过根据多个智能体各自对应的状态观测信息和任务执行动作信息,确定各智能体对应的任务执行动作价值信息;针对各任务执行动作价值信息,根据所述任务执行动作价值信息,确定所述任务执行动作价值信息对应的智能体执行的多个任务中各任务对应的贡献信息;根据所有贡献信息中目标贡献信息对应的目标任务,生成任务执行指令,所述任务执行指令用于指示所述智能体执行所述目标任务;将多个任务执行指令发送至对应的智能体。该方法可利用各智能体执行的多个任务中各任务对应的贡献信息,对该各智能体对应的任务进行有效且合理的调度和分配,即可对多智能体对应的异构融合网络资源进行有效且合理的调度和分配,以提高多智能体的任务完成率并实现网络资源的最大化利用和智能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体协同学习的异构融合网络资源调度方法,其特征在于,包括:根据多个智能体各自对应的状态观测信息和任务执行动作信息,确定各智能体对应的任务执行动作价值信息;针对各任务执行动作价值信息,根据所述任务执行动作价值信息,确定所述任务执行动作价值信息对应的智能体执行的多个任务中各任务对应的贡献信息;根据所有贡献信息中目标贡献信息对应的目标任务,生成任务执行指令,所述任务执行指令用于指示所述智能体执行所述目标任务;将多个任务执行指令发送至对应的智能体。2.根据权利要求1所述的方法,其特征在于,所述根据多个智能体各自对应的状态观测信息和任务执行动作信息,确定各智能体对应的任务执行动作价值信息,包括:针对所述各智能体,获取所述智能体执行所述多个任务时对应的指标属性、所述智能体对应的相关状态信息和任务执行动作信息;根据所述指标属性对应的网络空间状态信息及所述相关状态信息,确定所述智能体对应的状态观测信息;根据所述状态观测信息和所述任务执行动作信息,确定所述智能体对应的任务执行动作价值信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述状态观测信息和所述任务执行动作信息,确定所述智能体对应的任务执行动作价值信息,包括:根据所述状态观测信息和所述任务执行动作信息,确定所述智能体对应的第一卷积嵌入结果;确定所述多个智能体中除所述智能体以外的其它智能体,对于所述智能体执行所述多个任务时产生的影响参数;根据所述第一卷积嵌入结果和所述影响参数,确定所述智能体对应的任务执行动作价值信息。4.根据权利要求3所述的方法,其特征在于,所述确定所述多个智能体中除所述智能体以外的其它智能体,对于所述智能体执行所述多个任务时产生的影响参数,包括:确定所述多个智能体中除所述智能体以外的其它智能体,各自对应的第二卷积嵌入结果;针对各其它智能体,利用激活函数,对所述其它智能体对应的第二卷积嵌入结果进行线性变换,得到目标嵌入结果;根据所有目标嵌入结果及所述所有目标嵌入结果各自对应的权重矩阵,确定所有其它智能体对于所述智能体执行所述多个任务时产生的影响参数。5.根据权利要求1

4任一项所述的方法,其特征在于,所述根据所述任务执行动作价值信息,确...

【专利技术属性】
技术研发人员:杨杨龚兴乐高志鹏孙雅婷陈绍银范成文何晔辰郭延鹏黄若妍王澳
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1