【技术实现步骤摘要】
超密集网络中基于深度强化学习的边缘计算任务卸载方法
[0001]本专利技术涉及移动边缘计算(Mobile Edge Computing,MEC)的
,尤其涉及一种超密集网络中基于深度强化学习的边缘计算任务卸载方法。
技术介绍
[0002]智能设备和以5G为代表的网络通信技术的快速发展,催生了一大批时延敏感型和计算密集型应用的诞生,包括AR和VR技术、无人驾驶、智慧医疗等。这类应用不仅对用户设备计算能力和存储空间要求更高,同时对网络时延要求更加苛刻。移动边缘计算(Mobile Edge Computing)通过在更加靠近用户设备位置部署边缘服务器,将云计算的存储和计算能力边缘化,可以有效降低用户感知时延和设备能耗。此外,相比于远程云的数据传输,在更加靠近用户的位置进行数据处理,可以有效降低服务延迟,避免了远程数据传输可能带来的通信安全性,保证用户体验质量(QoE)。在超密集网络环境中,多个配备高性能服务器的小型蜂窝基站密集部署,这些服务器充当服务节点,提供存储和计算服务。然而,由于边缘服务器的可用资源有限,因此需要结合设 ...
【技术保护点】
【技术特征摘要】
1.一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,其步骤如下:步骤一:构建超密集网络边缘计算模型的本地计算模型和边缘计算模型,根据边缘计算模型构建在线计算卸载问题;步骤二:将在线计算卸载问题描述为马尔科夫决策过程,转化为求解最优计算卸载控制策略的问题;步骤三:初始化深度强化学习模型的当前网络和目标网络、经验池大小以及优先级;步骤四:利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型;步骤五:获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,利用训练好的深度强化学习模型,得到每个时隙的任务卸载决策。2.根据权利要求1所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述步骤一种的本地计算模型的计算延迟为:本地计算模型的能耗为:其中,u是移动设备的有效开关电容,表示移动设备的CPU频率,C
t
为完成任务所需要的CPU周期数;所述边缘计算模型包括设备上t时隙生成的任务ω
t
的计算延迟L
t
、t时隙内的能量消耗E
t
和设备剩余能量且任务ω
t
的计算延迟为:其中,g{ξ}是一个指标函数,如果ξ得到满足,则g{ξ}=1,否则g{ξ}=0;且t时隙内卸载决策且t时隙内卸载决策为时隙t内可用的通信基站的集合;N={1,2,3,
…
n}为通信基站的集合,n表示通信基站的总数;且为传输任务ω
t
的输入数据到第i个通信基站产生的延迟,I
t
表示任务ω
t
的输入数据大小,为设备与第i个通信基站之间的上行链路传输速率;且为第i个通信基站执行任务ω
t
产生的延迟;i∈{1,2,3,
…
n},f
i
表示在通信基站i附近配置的边缘服务器最大的CPU频率;能量消耗为:其中,为设备传输任务ω
t
的输入数据到第i个通信基站产生的能量消耗;剩余能量的更新公式为:
其中,表示t时隙内设备剩余能量,表示t+1时隙内设备剩余电量,E
t
表示t时隙内的能量消耗。3.根据权利要求2所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述设备与第i个通信基站之间的上行链路传输速率其中,W
i
表示信道带宽,表示t时隙上第i个通信基站的平均干扰功率,表示移动设备与通信基站BS
i
间的信道增益,为设备的发射功率;所述设备传输任务ω
t
的输入数据到通信基站BS
i
产生的能量消耗4.根据权利要求2或3所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述线计算卸载问题为:法,其特征在于,所述线计算卸载问题为:法,其特征在于,所述线计算卸载问题为:法,其特征在于,所述线计算卸载问题为:其中,T表示总的时隙数,F表示可选择的本地设备CPU频率的集合。5.根据权利要求4所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述步骤二中最优计算卸载控制策略的问题为:将计算卸载控制策略π:S
→
A定义为从状态S
t
到动作a
t
的映射,即π(S
t
)=a
t
;在状态S
t
∈S下,根据给定的计算卸载控制策略π选择执行的动作获得一个最优计算卸载控制策略π
*
,以最大化设备移动过程中获得的长期累积奖励:动过程中获得的长期累积奖励:动过程中获得的长期累积奖励:且即时奖励r
t
=ω1L
t
+ω2E
t
;其中,ω1,ω2分别为计算时延和能量消耗的权重系数;动作空间A
t
=({0}*F∪k
t
*{0});γ表示奖励折损因子且γ∈{0,1}。6.根据权利要求3或5所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述深度强化学习模型的训练方法为:步骤1:根据当前时隙的系统状态,结合当前深度神经网络参数并使用ε
‑
greedy贪婪策略决策出系统动作,并计算当前状态下采取决策的系统动作获得的即时奖励;步骤2:将获得的当前时隙的系统状态、系统动作、即时奖励和下一时隙的系统状态以最大优先级存储于经验池;步骤3:基于概率p(j)从求和树SumTree中采样样本,计算采样样本的TD误差和权重系数;
步骤4:根据TD误差和权重系数计算累积权重变化,迭代结束...
【专利技术属性】
技术研发人员:张茜,戚续博,张聪,崔勇,王洪格,
申请(专利权)人:中原工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。