MEC环境下基于强化学习的多接口自适应数据卸载方法技术

技术编号:33205761 阅读:12 留言:0更新日期:2022-04-24 00:51
本发明专利技术公开了一种MEC环境下基于强化学习的多接口自适应数据卸载方法,包括以下步骤:将多个用户设备、边缘基站、服务器数据传输策略构成的环境,建模为一个有限状态的马尔科夫决策模型;基于马尔科夫决策模型构建奖励函数,使用多智能体深度强化学习算法对神经网络进行训练,获得最优决策动作,确定数据卸载的传输方式。强化学习可以实现无模型的状态到动作的高维映射关系的自学习,发明专利技术中基于强化学习获得多接口自适应数据卸载方法,有效的缓解服务器端的压力,提升网络资源利用率,达到缓解网络拥堵、降低端到端时延以及减少数据卸载传输能耗的目标。传输能耗的目标。传输能耗的目标。

【技术实现步骤摘要】
MEC环境下基于强化学习的多接口自适应数据卸载方法


[0001]本专利技术涉及网络中数据传输
,更具体的说是涉及一种MEC环境下基于强化学习的多接口自适应数据卸载方法。

技术介绍

[0002]在移动互联网技术飞速发展的今天,越来越多的智能设备进入了人们的生活,一些对时间延迟要求较高的应用如移动高清视频、AR/VR等在使用过程中创造了大量的移动网络数据流量。呈爆炸式速度增长的数据流量给移动网络带来的压力和挑战是巨大的,其影响表现在:(1)巨大的回传网链路压力;(2)无线覆盖率低和能量效率低;(3)端到端的时间延迟较大。
[0003]随着技术的发展,云计算中心的服务能力也在不断提升,但联网的用户设备数量的增长速度呈几何级别,这使得传统的云计算模式无法很好地满足用户对低时延、高速率的需求,寻找一种比传统云计算模式更为高效的方式是解决当前问题的唯一途径。移动边缘计算(Mobile Edge Computing,MEC)模式的提出能够有效弥补传统云计算模式的不足。MEC是指在移动网络的边缘(即基站或终端)引入计算和存储资源,边缘与云计算中心合作为无线接入网络提供所需资源和计算服务。云计算中心的网络业务可以被移动边缘计算技术“下沉”到边缘,通过边缘侧来达到更接近用户的目的,不但减轻了云计算中心的负担,让一部分业务和数据能够在边缘端进行计算存储,而且还能降低数据传输时延,缓解网络拥堵。
[0004]另一方面,为了满足容量需求,内容服务供应商需要部署大量的基站,这无疑会消耗更多的基础设施成本。与此同时,通过蜂窝网络下载内容会产生相应的成本,所产生的成本只能由用户或内容服务供应商承担。为了解决上述问题,利用各种高容量、低成本的互补网络进行数据卸载,数据卸载是指使用互补的网络技术(例如:Wi

Fi 6、Femtocell(微蜂窝)等技术)来卸载原本传输在蜂窝网络(4G、5G通信网络)上的数据流量,缓解核心网传输压力和网络拥塞,提升网络吞吐量、网络传输效率及服务质量(Quality ofService,QoS),降低端到端延时。由于网络的时变性、传输时延、传输能耗等因素,在多网络接口数据卸载中获得一个有效的数据卸载策略仍然是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种MEC环境下基于强化学习的多接口自适应数据卸载方法,应对边缘环境中网络环境变化时,基于静态调度的卸载策略存在实时性差的问题,同时基于边缘侧的卸载策略存在卸载失败率高的问题,从而导致工作流的调度产生时间延迟和能量消耗。强化学习可以实现无模型的、状态到动作的高维映射关系的自学习,接近人类的学习过程。专利技术中基于强化学习获得多接口自适应数据卸载方法,有效的缓解服务器端的压力,提升网络资源利用率,达到缓解网络拥堵、降低端到端时延以及减少数据卸载传输能耗的目标。
[0006]为实现上述目的,本专利技术采用如下技术方案:
[0007]一种MEC环境下基于强化学习的多接口自适应数据卸载方法,包括以下步骤:
[0008]将多个用户设备、边缘基站和服务器之间的数据传输策略构成的环境建模为一个有限状态的马尔科夫决策模型;
[0009]根据优化目标和网络信息确定当前系统状态;
[0010]根据奖励函数对所述马尔科夫决策模型的神经网络进行训练;
[0011]基于多智能体深度强化学习算法对当前系统状态下的所述马尔科夫决策模型进行求解;
[0012]选择使得奖励函数期望值最小的动作作为最优决策动作,确定数据卸载的传输方式。
[0013]进一步的,所述马尔科夫决策模型包括状态函数和动作函数;状态函数表示如下:
[0014]s={Rbs
i
,Rmd
i
,B
i
,T
i
};
[0015]其中,rbs
i
∈Rbs
i
表示边缘基站i的可用资源;rmd
i
∈Rmd
i
表示用户设备i的可用资源;表示用户设备i需要卸载的数据量大小,其中,B为总数据大小;T
i
表示智能体i需要将数据B
i
传输完的时间约束,超过时间约束,数据将会失效;
[0016]动作函数表示如下:
[0017]a={idle,WiFi,4G,5G};
[0018]上式表示智能体可以选择的动作,用户设备在每个决策阶段的动作a是选择通过WiFi或4G或5G网络传输模式进行数据传输,或是保持空闲状态idle。
[0019]所述奖励函数包括时延函数和能耗函数;
[0020]T
i,t
(s,a)=D/V
tran

[0021]其中,D表示需要卸载的数据量,V
tran
表示数据的传输速度;
[0022]所述能耗函数具体表示如下:
[0023]δ
i,t
(s,a)=ε
tran
(l,a)*D/V
tran

[0024]其中,ε
tran
(l,a)表示在单位时间内的传输能量消耗。
[0025]进一步的,基于多智能体深度强化学习算法对当前系统状态下的马尔科夫决策模型进行求解的过程为:
[0026]每个智能体随机获得一个初始动作Q值;
[0027]基于各智能体的局部状态获得决策动作;
[0028]执行当前状态下的决策动作,环境到达下一个状态,使用深度强化学习算法对动作Q值进行迭代更新,得到一个最优策略;
[0029]利用所述最优策略减少约束时间内的预期总成本;所述预期总成本包括时间延迟和能量消耗。
[0030]进一步的,利用下式得到最优策略
[0031]A表示智能体可以选择的动作集合;Q
*
(s,a)表示在状态s执行动作a获得的状态动作值;
[0032]迭代学习Q
*
(s,a),表达式如下:
[0033][0034]其中,π=(π1,...,π
i
),π
i
表示用户设备i的策略,每个用户设备的目标是减小预期总成本;表示智能体i在时刻t+1基于策略π获得的动作值函数,x
t
=(s1,...,s
i
)表示在时刻t所有智能体局部状态的集合;a
n
表示智能体n选择的动作;α
t
∈(0,1]表示学习率;∈(0,1]表示学习率;r
i,t
(s,a)表示智能体i在状态s执行动作a获得的奖励;λ表示折扣因子;a

n
表示智能体n在s

的动作,s

表示所有智能体在状态s执行相应动作后环境到达的下一个状态;x

t
表示在时间t所有智能体局部环境的集合。
...

【技术保护点】

【技术特征摘要】
1.一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,包括以下步骤:将多个用户设备、边缘基站和服务器之间的数据传输策略构成的环境建模为一个有限状态的马尔科夫决策模型;根据优化目标和网络信息确定当前系统状态;根据奖励函数对所述马尔科夫决策模型的神经网络进行训练;基于多智能体深度强化学习算法对当前系统状态下的马尔科夫决策模型进行求解;选择使得奖励函数期望值最小的动作作为最优决策动作,确定数据卸载的传输方式。2.根据权利要求1所述的一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,所述马尔科夫决策模型包括状态函数和动作函数;状态函数表示如下:s={Rbs
i
,Rmd
i
,B
i
,T
i
};其中,rbs
i
∈Rbs
i
表示边缘基站i的可用资源;rmd
i
∈Rmd
i
表示用户设备i的可用资源;表示用户设备i需要卸载的数据量大小,其中,B为总数据大小;T
i
表示智能体i需要将数据B
i
传输完的时间约束,超过时间约束,数据将会失效;动作函数表示如下:a={idle,WiFi,4G,5G};上式表示智能体可以选择的动作,用户设备在每个决策阶段的动作a是选择通过WiFi或4G或5G网络传输模式进行数据传输,或者是保持空闲状态idle。3.根据权利要求1所述的一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,所述奖励函数包括时延函数和能耗函数;所述时延函数具体表示如下:T
i,t
(s,a)=D/V
tran
;其中,D表示需要卸载的数据量,V
tran
表示数据的传输速度;所述能耗函数具体表示如下:δ
i,t
(s,a)=ε
tran
(l,a)*D/V
tran
...

【专利技术属性】
技术研发人员:韩龙哲敖晨晨赵嘉张翼英何业慎欧清海李胜梁琨刘柱武延年
申请(专利权)人:南昌工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1