当前位置: 首页 > 专利查询>清华大学专利>正文

基于多智能体的边缘云可扩展任务卸载方法技术

技术编号:29132567 阅读:196 留言:0更新日期:2021-07-02 22:27
本申请公开了一种基于多智能体强化学习的边缘云可扩展任务卸载方法,包括以下步骤:初始化每个Agent的网络结构,每个Agent根据自己观测的状态与移动边缘网络环境进行交互,将输入状态与输出行为保存至经验回放池;每个智能体对经验回放池中的数据进行采样,训练自己的actor和critic网络并优化参数;在模型收敛至满足迭代条件时生成卸载策略,并根据卸载策略进行卸载决策。本申请实施例为基于多智能体强化学习的移动边缘计算卸载方法,不但更符合真实的应用场景,更考虑了当有新的用户设备加入时系统的进一步调整和训练,避免了新智能体从零开始训练,保证了任务卸载策略的可扩展性。

【技术实现步骤摘要】
基于多智能体的边缘云可扩展任务卸载方法
本申请涉及多智能体强化学习
,特别涉及一种基于多智能体的边缘云可扩展的任务卸载方法。
技术介绍
随着5G移动网络和物联网的快速发展,大量延迟敏感的计算密集型应用任务在用户设备端产生,如增强现实和虚拟现实等新型视频应用,监控设备和自动驾驶等实时视频流服务。由于本地设备的计算能力难以满足这类任务的需求,而传统的将任务上传到远端云服务器去处理,会产生较大的传输延迟,还会造成回程网络负载过大。为解决这些问题,移动边缘计算(MobileEdgeComputing,MEC)作为一种新的计算模式被提出,它将计算资源部署在核心网络的边缘,从而更靠近任务生成的移动设备端,为用户端提供服务环境和计算能力。用户设备可以通过将一部分任务卸载到边缘服务节点进行处理,从而提供低任务延迟、减少网络通信和降低整体能耗的解决方案。其中,如何制定任务卸载策略是移动边缘计算的关键问题,不同的卸载决策导致不同的计算和通信成本。相关技术中,在移动边缘计算环境中进行边缘云任务卸载的算法还存在很多不足,例如:1)坐标下降法、线性放松近似法,博弈论以及凸优化等传统数学算法,能够保证得到最优解,但是大量的迭代计算在NP-hard问题上无法在有限时间内得到最优解,因此不适合“多任务-多用户”的复杂的移动边缘计算场景;2)基于DQN(DeepQ-Learning,深度强化学习)或A3C的计算卸载算法可以在有限时间内得到次优解,但是随着网络状态和卸载决策数量的增多,会导致强化学习的状态和行为空间呈指数增长。同时此类算法需要根据全局的环境信息来做下一步的决策,集中式的决策策略也导致算法的灵活性较差;申请内容本申请提供一种边缘云可扩展的任务卸载方法,以解决多个移动用户设备决策本设备上的某个任务,在本地执行还是卸载到边缘计算节点或者远端云上去执行的问题。包括如何构建基于“计算-通信-能耗”多维模型来优化目标函数、如何对已有的系统调度环境中新加入的用户设备进行参数设置,以及如何进一步的更新环境设置,开始新一轮的调度策略训练和生成等内容。本申请第一方面实施例提供一种边缘云可扩展任务卸载方法,包括以下步骤:在创建环境并初始化多个智能体的模型参数后,初始化每个Agent的网络结构,定义状态S,行为A和奖励函数R,定义目标值函数Q,每个Agent根据自己观测的状态与移动边缘网络环境进行交互,将输入状态与输出行为保存至经验回放池;每个智能体对所述经验回放池中的数据进行采样,训练自己的actor和critic网络并优化参数;在模型收敛至满足迭代条件后生成卸载策略,并根据所述卸载策略进行卸载决策。可选地,在本申请的一个实施例中,还包括:检测是否加入新设备,在检测到加入所述新设备后,重置环境,设置新的智能体网络参数,以使得所述每个智能体进行采样和进行卸载决策。可选地,在本申请的一个实施例中,还包括:根据由智能体网络结构、交互环境和多用户设备间的关系生成的多任务-多用户-边缘云模式构建系统模型。可选地,在本申请的一个实施例中,所述将输入状态与输出行为保存至经验回放池,包括:每个actor根据自己观测的状态与移动边缘网络环境进行交互,并基于critic的值函数指导下一步行为;根据预先设置的经验回放池大小,收集所述输入状态与输出行为,存放到所述经验回放池。基于多智能体强化学习的移动边缘计算卸载算法,将决策权下发到每个用户设备,不同于DQN,A3C等集中式决策方法,MADDPG采取分散式决策方法使得每个智能体做决策时只需要了解本地的信息,更符合真实的应用场景,也有效的避免了维度爆炸,并且考虑了对于新的移动设备加入的处理方法。本申请实施例的基于多智能体强化学习的任务卸载策略提供了用户设备数量的可扩展性,提高系统的整体调度性能。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本申请实施例提供的一种基于多智能体的边缘云可扩展任务卸载方法的流程图;图2为根据本申请一个具体实施例的基于多智能体的边缘云可扩展任务卸载方法的流程图;图3为根据本申请实施例的基于多智能体的边缘云可扩展任务卸载策略的训练和执行流程图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的基于多智能体的边缘云可扩展的任务卸载方法。针对上述
技术介绍
中心提到的多个移动用户设备可以自己决定本设备上的某个任务是在本地执行还是卸载到边缘计算节点或者远端云上执行、如何构建基于“计算-通信-能耗”多维模型来优化目标函数、如何对已有的系统环境中新加入的用户设备进行参数设置,以及如何进一步的更新环境的问题。本申请提供了一种边缘云可扩展的任务卸载方法,在该方法中,基于多智能体强化学习的任务卸载算法,将决策权下发到每个用户设备,从集中式决策到分散式决策,使得每个智能体做决策时只需要了解本地的信息,更符合真实的应用场景。并且对于新的移动设备的加入提供了解决思路,避免新加入的智能体从零开始训练,实现了卸载策略在用户设备数量上的可扩展性。总之,解决了多个移动用户设备决定本设备上的某个任务是在本地执行还是卸载到边缘云执行、如何构建基于“计算-通信-能耗”多维模型来优化目标函数、如何对已有的系统环境中新加入的用户设备进行参数设置,以及如何进一步的更新环境,进行新一轮训练等问题。具体而言,图1为本申请实施例所提供的一种边缘云可扩展任务卸载方法的流程示意图。如图1所示,该基于多智能体的边缘云可扩展任务卸载方法包括以下步骤:在步骤S101中,在创建环境并初始化多个智能体的模型参数后,初始化每个Agent的网络结构,定义状态S,A和奖励函数R,定义目标值函数Q,每个Agent根据自己观测的状态与移动边缘网络环境进行交互,将输入状态与输出行为保存至经验回放池。其中,在本申请的一个实施例中,将输入状态与输出行为保存至经验回放池,包括:每个actor根据自己观测的状态与移动边缘网络环境进行交互,并基于critic的值函数指导下一步行为;根据预先设置的经验回放池大小,收集输入状态与输出行为,存放到经验回放池。具体地,如图2所示,创建环境包括:创建环境中的n个用户设备(即n个智能体),设置系统里的网络通信状态,以及每个智能体的网络结构和算法流程参数。步骤1.1:创建环境包括创建环境中的n个用户设备。即n个Agent(每个Agent表示一个用户设备),每个Agent上到达的m个任务,每个任务上传数据量和下载数据量用Xnm表示第n个用户设备上的m个任务是否卸载到边缘云上执行,Xnm是值为0或1的本文档来自技高网
...

【技术保护点】
1.一种基于多智能体的边缘云可扩展任务卸载方法,其特征在于,包括以下步骤:/n在创建环境并初始化多个智能体的模型参数后,初始化每个Agent的网络结构,定义状态S,行为A和奖励函数R,定义目标值函数Q,每个Agent根据自己观测的状态与移动边缘网络环境进行交互,将输入状态与输出行为保存至经验回放池;/n每个智能体对所述经验回放池中的数据进行采样,训练自己的actor和critic网络并优化参数;以及/n在模型收敛至满足迭代条件后生成卸载策略,并根据所述卸载策略进行卸载决策。/n

【技术特征摘要】
1.一种基于多智能体的边缘云可扩展任务卸载方法,其特征在于,包括以下步骤:
在创建环境并初始化多个智能体的模型参数后,初始化每个Agent的网络结构,定义状态S,行为A和奖励函数R,定义目标值函数Q,每个Agent根据自己观测的状态与移动边缘网络环境进行交互,将输入状态与输出行为保存至经验回放池;
每个智能体对所述经验回放池中的数据进行采样,训练自己的actor和critic网络并优化参数;以及
在模型收敛至满足迭代条件后生成卸载策略,并根据所述卸载策略进行卸载决策。


2.根据权利要求1所述的方法,其特征在于,还包括:
检测是否加入新设备

【专利技术属性】
技术研发人员:孙立峰姜丽丽黄天驰张睿霄
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1