【技术实现步骤摘要】
多智能体协同学习的异构融合网络资源调度方法和装置
[0001]本专利技术涉及通信
,尤其涉及一种多智能体协同学习的异构融合网络资源调度方法和装置。
技术介绍
[0002]近年来,随着先进通讯技术的迅速发展和移动应用生态环境的不断完善,智能体愈发呈现出延迟敏感、资源密集和数据量大的发展趋势。同时,物联网的快速发展也使得越来越多的智能体被大规模部署在各种生活场景,并源源不断地执行相应任务,例如采集图像和/或视频等环境信息。然而,由于智能体的电池储能、计算能力和传输能力有限,容易导致该智能体所能提供的计算服务能力无法满足大量的计算需求和及时响应要求。这样一来,服务设备可将各种网络资源进行合理的调度和分配,以实现网络资源的最大化利用和智能体性能的最优化。
[0003]现有的网络资源调度方法往往采用深度强化学习算法或强化学习模型,然而由于该深度强化学习算法和该强化学习模型具有一定的局限制,导致服务设备无法对多智能体对应的网络资源进行有效调度和分配。
技术实现思路
[0004]本专利技术提供一种多智能体协同 ...
【技术保护点】
【技术特征摘要】
1.一种多智能体协同学习的异构融合网络资源调度方法,其特征在于,包括:根据多个智能体各自对应的状态观测信息和任务执行动作信息,确定各智能体对应的任务执行动作价值信息;针对各任务执行动作价值信息,根据所述任务执行动作价值信息,确定所述任务执行动作价值信息对应的智能体执行的多个任务中各任务对应的贡献信息;根据所有贡献信息中目标贡献信息对应的目标任务,生成任务执行指令,所述任务执行指令用于指示所述智能体执行所述目标任务;将多个任务执行指令发送至对应的智能体。2.根据权利要求1所述的方法,其特征在于,所述根据多个智能体各自对应的状态观测信息和任务执行动作信息,确定各智能体对应的任务执行动作价值信息,包括:针对所述各智能体,获取所述智能体执行所述多个任务时对应的指标属性、所述智能体对应的相关状态信息和任务执行动作信息;根据所述指标属性对应的网络空间状态信息及所述相关状态信息,确定所述智能体对应的状态观测信息;根据所述状态观测信息和所述任务执行动作信息,确定所述智能体对应的任务执行动作价值信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述状态观测信息和所述任务执行动作信息,确定所述智能体对应的任务执行动作价值信息,包括:根据所述状态观测信息和所述任务执行动作信息,确定所述智能体对应的第一卷积嵌入结果;确定所述多个智能体中除所述智能体以外的其它智能体,对于所述智能体执行所述多个任务时产生的影响参数;根据所述第一卷积嵌入结果和所述影响参数,确定所述智能体对应的任务执行动作价值信息。4.根据权利要求3所述的方法,其特征在于,所述确定所述多个智能体中除所述智能体以外的其它智能体,对于所述智能体执行所述多个任务时产生的影响参数,包括:确定所述多个智能体中除所述智能体以外的其它智能体,各自对应的第二卷积嵌入结果;针对各其它智能体,利用激活函数,对所述其它智能体对应的第二卷积嵌入结果进行线性变换,得到目标嵌入结果;根据所有目标嵌入结果及所述所有目标嵌入结果各自对应的权重矩阵,确定所有其它智能体对于所述智能体执行所述多个任务时产生的影响参数。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述根据所述任务执行动作价值信息,确...
【专利技术属性】
技术研发人员:杨杨,龚兴乐,高志鹏,孙雅婷,陈绍银,范成文,何晔辰,郭延鹏,黄若妍,王澳,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。