移动边缘计算系统中基于多智能体强化学习的资源分配方法技术方案

技术编号：22471773 阅读：72 留言：0更新日期：2019-11-06 13:09

本发明专利技术公开了移动边缘计算系统中基于多智能体强化学习的资源分配方法，包括：（1）将无线信道划分成若干个子载波，每个用户仅仅可以选择一个子载波；（2）每个用户随机选择信道以及计算资源，然后计算用户卸载产生的时延和能耗；（3）将用户在本地计算产生的时延能耗和卸载到边缘云的进行对比，判断卸载是否成功；（4）通过多智能体强化学习得到当前卸载动作的奖励值，并计算价值函数；（5）用户根据策略函数进行动作选择；（6）改变用户的学习速率进行策略更新，得到最优动作集合。本发明专利技术基于可变速率的多智能体强化学习，充分利用移动边缘服务器的计算资源和无线资源，在考虑了用户卸载的必要性的同时，得到各智能终端效用函数的最大值。

Resource allocation method based on Multi-Agent Reinforcement Learning in mobile edge computing system

全部详细技术资料下载

【技术实现步骤摘要】
移动边缘计算系统中基于多智能体强化学习的资源分配方法
本专利技术涉及移动边缘计算技术，尤其涉及一种移动边缘云计算系统(MobileEdgeComputing,MEC)中基于多智能体强化学习的资源分配方法。
技术介绍
随着互联网的发展，移动智能终端越来越普及，它所具备的功能也越来越强大，人脸识别，图像识别，增强现实等新的应用不断涌现。然而，这些新兴应用程序需要移动设备具备一定的计算资源，存储资源和电池容量有限，并且对延时有着高要求，因此，需要高性能的计算设备代替智能终端完成计算任务。移动云计算(MCC，MobileCloudComputing)可以较好的满足其需求。自2005年左右提出以来，云计算已经极大地改变了人们的学习、工作以及生活方式。移动云计算作为云计算的一个延伸，采用移动终端设备取代传统的PC机，一方面终端设备不再是固定不动的，而具备了移动性，另一方面，终端设备也具有了一定的感知能力、存储能力。移动云计算是移动互联网技术和云计算技术自然结合的产物，基于异构无线通信网络基础设施，并拥有共享的云资源池，向移动终端设备提供计算、存储等网络资源，提供云服务，终端无...

【技术保护点】
1.一种移动边缘计算系统中基于多智能体强化学习的资源分配方法，其特征在于包括如下步骤：(1)移动边缘云计算系统环境下将无线信道划分成K个子载波，假设每个子载波之间是正交的，选择不同子载波的用户之间互不干扰，并且每个用户只能选择一个子信道；(2)移动边缘云计算系统中的终端随机选择子信道以及云服务器中计算资源，并建立终端的任务卸载开销函数；其中该任务卸载开销函数包含能耗开销和时延开销，能耗开销是终端进行任务卸载时消耗的能量，时延开销是终端进行任务卸载过程中上传到服务器的时延以及计算的时延；(3)计算用户在本地计算产生的开销，其中该开销函数包括本地计算所需要的时延开销和本地计算所产生的能量开销；将本...

【技术特征摘要】
1.一种移动边缘计算系统中基于多智能体强化学习的资源分配方法，其特征在于包括如下步骤：(1)移动边缘云计算系统环境下将无线信道划分成K个子载波，假设每个子载波之间是正交的，选择不同子载波的用户之间互不干扰，并且每个用户只能选择一个子信道；(2)移动边缘云计算系统中的终端随机选择子信道以及云服务器中计算资源，并建立终端的任务卸载开销函数；其中该任务卸载开销函数包含能耗开销和时延开销，能耗开销是终端进行任务卸载时消耗的能量，时延开销是终端进行任务卸载过程中上传到服务器的时延以及计算的时延；(3)计算用户在本地计算产生的开销，其中该开销函数包括本地计算所需要的时延开销和本地计算所产生的能量开销；将本地开销和卸载到云服务器的开销进行对比，由此来判断本次卸载是否有必要性，只有当卸载的开销小于本地计算开销时本次卸载才算是成功的；(4)通过多智能体强化学习算法，计算当前智能体在无线资源和计算资源选择后的奖励值，然后计算当前状态下的动作价值函数；(5)用户采取策略ε-贪心重新选择无线资源和计算资源，每当智能体进行一次动作选择后，该智能体的动作价值函数就会变化，总体上时向着动作价值函数更大的方向进行动作选择；(6)通过当前策略的预期价值和平均策略价值进行比较，改变用户的学习速率，进行策略更新，从而得到最优动作集合，即各个终端获得的边缘云服务器的计算资源和无线资源。2.根据权利要求1所述的移动边缘计算系统中基于多智能体强化学习的资源分配方法，其特征在于：步骤(2)中所述的能耗开销和时延开销，可以对能耗开销和时延开销占据的比例进行动态调节，两者影响因子之和为1。3.根据权利要求1所述的移动边缘计算系统中基于多智能体强化学习的资源分配方法，其特征在于：步骤(4)中多智能体强化学习的描述具体如下：状态空间：每个智能体的状态空间可以用用户的满意度来表示，s(t)＝{s1(t),s2(t),...,sN(t)}，其中si(t)＝{0,1}，当si(t)＝0时，表示用户的卸载开销太高，超过了本地计算的情况，本次卸载是没必要...

【专利技术属性】
技术研发人员：夏玮玮，张雅雯，燕锋，成华清，胡静，宋铁成，沈连丰，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人