基于多智能体强化学习的边缘计算卸载和资源分配方法组成比例

技术编号:37990569 阅读:11 留言:0更新日期:2023-06-30 10:05
本发明专利技术公开了基于多智能体强化学习的边缘计算卸载和资源分配方法包括:根据多移动用户、多边缘服务器的复杂场景构建移动边缘计算卸载和资源分配模型,并基于系统开销设定优化问题的目标函数和约束条件;将优化问题建模成马尔科夫决策过程,并设置深度强化学习中的状态空间、动作空间和奖励函数;采用基于多智能体深度强化学习的方法为各移动用户寻找最优卸载策略和资源分配策略,并对目标函数进行优化,同时采用NoisyNet方法将高斯噪声添加到Actor网络的输出层,提高网络模型探索效率,提升优化效果;本发明专利技术公开的方法融合了多智能体DDPG和NoisyNet,可以有效降低系统总开销,提升优化效果,提高了系统内用户的整体体验。提高了系统内用户的整体体验。提高了系统内用户的整体体验。

【技术实现步骤摘要】
基于多智能体强化学习的边缘计算卸载和资源分配方法


[0001]本专利技术涉及无线通信网络、移动边缘计算
,具体为基于多智能体强化学习的边缘计算卸载和资源分配方法。

技术介绍

[0002]近些年来随着物联网和5G的飞速发展,低时延、高速率的万物互联成为可能,一系列新兴交互式应用应运而生,例如虚拟现实、增强显示、人脸识别、智能服务、自动驾驶等。由于物联网设备或者移动智能设备计算的局限性,一些计算任务不得不卸载到具有足够计算能力的云服务器,这就促使了移动云计算的发展;然而云计算的服务器是集中式的,其计算资源和带宽有限,在面对大量网络接入设备时,极易导致数据处理不及时,难以满足所有用户设备的需求,甚至容易造成系统故障,且距离用户较远,导致传播时延较高,难以满足对时延要求较高的任务的有效处理。
[0003]移动边缘计算(MEC)的提出可以有效弥补这些缺点,在MEC系统中,MEC服务器可以提供比本地设备更加强大的计算能力,虽然还不如云服务器,但是它更接近设备,同时MEC服务器的分布式结构使核心网络的流量不会出现拥塞;移动边缘计算是通过收获大量分布在网络边缘上的闲置计算能力和存储空间,将这些资源用于移动设备上,来处理移动设备所产生的对时延敏感或计算较为复杂的任务。在MEC的相关问题中,计算卸载的决策和资源的分配是决定MEC是否可以发挥出好的效果的关键技术,因此计算卸载和资源分配研究是提高MEC性能的迫切要求,具有非常重要的研究意义。
[0004]目前的研究工作中,边缘计算卸载场景主要分为单用户单边缘服务器、多用户单边缘服务器、多用户多边缘服务器三种;目前针对移动边缘计算卸载和资源分配方法主要以最小化能耗或最小化延迟或最小化两者的加权和为目标,以用户终端的能量、计算资源、边缘服务器的计算资源、任务最大允许时延等为约束条件建立优化问题并求解,从而获得最优策略;然而这种优化问题通常是NP

hard问题,尤其当网络规模较大时,即使通过例如遗传算法、粒子群算法等启发式算法仍然需要较长时间开销来获取最优策略;此外,网络的动态变化需要中心节点不断去求解复杂的优化问题,且难以自适应地跟踪网络动态变化。
[0005]近年来,随着人工智能技术的迅速发展,强化学习算法受到广泛关注;智能体和环境不断交互获得奖励指导行为,从而使智能体随着时间的推进做出较好的动作决策,获得较大的奖励,即近似最优;由于强化学习是对动作进行评价并根据反馈修正动作选择,所以不需要依赖先验知识,能够自适应地跟踪环境变化,适合解决较为复杂的场景下的决策优化问题;因此可以借助强化学习算法进行边缘计算卸载和资源分配决策优化,实现系统的开销最小,改善用户体验,本专利技术在传统的强化学习算法DDPG上进行改进,以适应更加复杂的场景。

技术实现思路

[0006]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施
例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0007]鉴于上述存在的问题,提出了本专利技术。
[0008]因此,本专利技术解决的技术问题是:在移动边缘计算卸载和资源分配场景中传统的强化学习方法开销大以及复杂场景下模型难以快速收敛的问题。
[0009]为解决上述技术问题,本专利技术提供如下技术方案:基于多智能体强化学习的边缘计算卸载和资源分配方法,包括:根据多移动用户、多边缘服务器的复杂场景构建移动边缘计算卸载和资源分配模型,并设置所述模型的参数;基于所述模型计算的移动边缘计算卸载和资源分配的系统开销,设定优化问题的目标函数和约束条件;将所述优化问题建模成马尔科夫决策过程,并设置深度强化学习中的状态空间、动作空间和奖励函数;采用基于多智能体深度强化学习的方法为各移动用户寻找最优卸载策略和资源分配策略,并对所述目标函数进行优化,同时采用NoisyNet方法将高斯噪声添加到Actor网络的输出层,提高网络模型探索效率,提升优化效果。
[0010]作为本专利技术所述的基于多智能体强化学习的边缘计算卸载和资源分配方法的一种优选方案,其中:所述移动边缘计算卸载和资源分配模型包括系统模型、任务模型、移动性模型和计算模型;
[0011]所述系统模型包括M个边缘服务器和N个移动用户设备,所述边缘服务器部署在无线接入点旁,每个无线接入点独立覆盖一片小区,所述移动用户设备可通过该小区的无线接入点向该小区的边缘服务器卸载计算任务,请求计算资源,所述无线接入点之间通过基站连接和传输数据;
[0012]所述任务模型包括每个移动用户设备在每个时刻随机生成一个计算任务,生成的计算任务属性用一个三元组A
n
表示,即其中,L
n
表示任务的数据量,X
n
表示计算任务所需的CPU循环数,表示完成任务所需的最大允许时延;
[0013]所述移动性模型包括采用离散随机跳跃对用户移动性进行建模,用平均驻留时间表示跳跃之间的强度;
[0014]所述平均驻留时间的概率密度函数的计算包括,
[0015][0016]其中,β
n
表示移动用户n的平均驻留时间,表示用户实际驻留时间。
[0017]作为本专利技术所述的基于多智能体强化学习的边缘计算卸载和资源分配方法的一种优选方案,其中:还包括,
[0018]所述计算模型包括移动用户设备在不同卸载决策和资源分配策略下的总开销,所述总开销包括时延、能耗和资源成本;
[0019]所述移动用户设备总开销Q
n
的计算包括,
[0020][0021]其中,表示没有发生任务迁移时移动用户设备的总开销,表示发生任务迁移时移动用户设备的总开销,ω1表示时延系数,ω2表示能耗系数,ω3表示资源成本系数,表示本地计算和边缘计算的最大时延,表示本地计算和边缘计算加上额外迁移时延的最大时延,E
n
表示本地计算和边缘计算的能耗,f
m

n
表示边缘服务器m给用户n分配的计算资源,P
βn
表示事件发生的概率,T
mn
表示边缘处理任务的总时延;
[0022]利用开销期望来衡量系统的性能,所述移动用户设备总开销的期望的计算包括,
[0023][0024]其中,表示时延、能耗以及计算资源的平均开销。
[0025]作为本专利技术所述的基于多智能体强化学习的边缘计算卸载和资源分配方法的一种优选方案,其中:所述优化问题的目标函数的计算包括,
[0026][0027]其中,γ
n
表示任务卸载比例,I(x
n
)表示指示函数,x
n
表示用户的初始位置索引。
[0028]作为本专利技术所述的基于多智能体强化学习的边缘计算卸载和资源分配方法的一种优选方案,其中:所述优化问题的约束条件的设定包括,
[0029][0030][0031本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多智能体强化学习的边缘计算卸载和资源分配方法,其特征在于,包括:根据多移动用户、多边缘服务器的复杂场景构建移动边缘计算卸载和资源分配模型,并设置所述模型的参数;基于所述模型计算的移动边缘计算卸载和资源分配的系统开销,设定优化问题的目标函数和约束条件;将所述优化问题建模成马尔科夫决策过程,并设置深度强化学习中的状态空间、动作空间和奖励函数;采用基于多智能体深度强化学习的方法为各移动用户寻找最优卸载策略和资源分配策略,并对所述目标函数进行优化,同时采用NoisyNet方法将高斯噪声添加到Actor网络的输出层,提高网络模型探索效率,提升优化效果。2.如权利要求1所述的基于多智能体强化学习的边缘计算卸载和资源分配方法,其特征在于:所述移动边缘计算卸载和资源分配模型包括系统模型、任务模型、移动性模型和计算模型;所述系统模型包括M个边缘服务器和N个移动用户设备,所述边缘服务器部署在无线接入点旁,每个无线接入点独立覆盖一片小区,所述移动用户设备可通过该小区的无线接入点向该小区的边缘服务器卸载计算任务,请求计算资源,所述无线接入点之间通过基站连接和传输数据;所述任务模型包括每个移动用户设备在每个时刻随机生成一个计算任务,生成的计算任务属性用一个三元组A
n
表示,即其中,L
n
表示任务的数据量,X
n
表示计算任务所需的CPU循环数,表示完成任务所需的最大允许时延;所述移动性模型包括采用离散随机跳跃对用户移动性进行建模,用平均驻留时间表示跳跃之间的强度;所述平均驻留时间的概率密度函数的计算包括,其中,β
n
表示移动用户n的平均驻留时间,表示用户实际驻留时间。3.如权利要求2所述的基于多智能体强化学习的边缘计算卸载和资源分配方法,其特征在于:还包括,所述计算模型包括移动用户设备在不同卸载决策和资源分配策略下的总开销,所述总开销包括时延、能耗和资源成本;所述移动用户设备总开销Q
n
的计算包括,其中,表示没有发生任务迁移时移动用户设备的总开销,表示发生任务迁移时移动用户设备的总开销,ω1表示时延系数,ω2表示能耗系数,ω3表示资源成本系数,表示
本地计算和边缘计算的最大时延,表示本地计算和边缘计算加上额外迁移时延的最大时延,E
n
表示本地计算和边缘计算的能耗,f
m

n
表示边缘服务器m给用户n分配的计算资源,表示事件发生的概率,T
mn
表示边缘处理任务的总时延;利用开销期望来衡量系统的性能,所述移动用户设备总开销的期望的计算包括,其中,表示时延、能耗以及计算资源的平均开销。4.如权利要求3所述的基于多智能体强化学习的边缘计算卸载和资源分配方法,其特征在于:所述优化问题的目标函数的计算包括,其中,γ
n
表示任务卸载比例,I(x
n
)表示指示函数,x
n
表示用户的初始位置索引。5.如权利要求4所述的基于多智能体强化学习的边缘计算卸载和资源分配方法,其特征在于:所述优化问题的约束条件的设定包括,征在于:所述优化问题的约束条件的设定包括,征在于:所述优化问题的约束条件的设定包括,征在于:所述优化问题的约束条件的设定包括,征在于:所述优化问题的约束条件的设定包括,其中,U
m
表示能接入边缘服务器一侧的无线接入点的用户设备集合,表示每个边缘服务器的计算资源总量,T
n
表示任务处理的总时延,表示任务的最大允许时延,C1表示用户初始位置范围的约束,C2表示任务卸载比例的约束,C3表示保证边缘服务器分配给移动用户的计算资源是非负的,C4表示保证分配给每个任务的计算资源总和不会超过边缘服务器的全部计算资源,C5表示规定任务的最大允许时延。6.如权利要求5所述的基于多智能体强化学习的边缘计算卸载和资源分配方法,其特征在于:所述状态空间的设置包...

【专利技术属性】
技术研发人员:刘旭朱绍恩杨龙祥朱洪波
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1