【技术实现步骤摘要】
一种基于深度强化学习的计算卸载和资源分配方法
[0001]本专利技术属于无线网络通信领域,尤其涉及一种基于深度强化学习的计算卸载和资源分配方法。
技术介绍
[0002]随着无线网络技术的发展,尤其是5G的发展和6G的产生,在无线网络通信中,如何满足更高的通信和计算的服务质量(QoS)变得越来越重要。尽管无线设备(WD)的计算能力随着其处理器和制造工艺标准的提高而取得了长足进步,但是面对大量计算密集型或时延敏感型计算任务时,其处理能力仍不足以满足QoS。随着WD产生的计算数据呈指数级增长且具有严格的截止时间限制,WD的电池容量和资源限制仍然是瓶颈。因此,如何满足计算需求是一个关键挑战。在早期,利用具有大量计算资源的云计算技术是一种解决方案。早期,存在云计算中有一些关于计算任务卸载和资源分配的工作。但是,云计算服务器覆盖的区域很大,并且其位置与WD相距遥远,需要处理计算任务。这样,如何提高计算数据的传输时间和回程时间是一个亟待解决的难题。新兴的移动边缘计算(MEC)技术是云计算和雾计算的结合。通常,MEC位于更靠近WD的位置,并 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的计算卸载和资源分配方法,其特征在于,包括以下步骤:步骤1、初始化计算卸载模型,将周期e和时隙t设置为0;其中,所述计算卸载模型由多个无线设备、基站和移动边缘服务器组成,无线设备在每个时隙t内随机产生任务,将所述任务通过基站卸载到移动边缘服务器上执行;步骤2、初始化主神经网络参数θ和目标神经网络参数θ
’
,初始化状态s;其中,所述状态s包括:每个时隙t内,每个无线设备与基站之间的时变通道状态、每个无线设备与基站之间的信噪比和无线设备产生的任务;步骤3、智能体与环境做互动,根据贪婪策略执行动作a,获得奖励r,并收集下一状态s
’
;步骤4、如果样本缓冲池溢出,则将四元组<s,a,r,s
’
>顺序存放入样本缓冲池M;否则,将<s,a,r,s
’
>随机存放入样本缓冲池,替换样本;步骤5、随机从样本池中采样m个样本,进行训练;同时计算目标函数和损失函数;步骤6、利用梯度下降法更新主网络参数θ,同时到达预设周期进行参数复制,即θ
’←
θ;步骤7、如果得到最优策略且当前周期e小于最大周期E
max
,则返回步骤1,并设置e
←
e+1;如果没有得到最优策略,则返回步骤2,并设置t
←
t+1。2.如权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤2中,所述时变通道状态H
m,w
(t)采用如下公式表示:其中,ρ
c
为正则化的相关系数,t
’
为时间间隔,e
c
(t)为错误变量,服从均值为0的复高斯分布。3.如权利要求2所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤2中,信噪比ζ
w
(t)采用如下公式表示:其中,P
m,w
为无线设备与基站之间的传输功率,a
w
和h
m,w
分别是矩阵A和H的第w列,H是M
×
W通道矩阵,A是与H相关的迫零线性检测器矩阵。4.如权利要求3所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤2中,WD产生的任务表示为:A
w
(t)≡(ts
w
(t),c
w
(t),T
w,max
(t))其...
【专利技术属性】
技术研发人员:柯洪昌,王慧,佘向飞,于萍,孔德刚,陈洋,
申请(专利权)人:长春工程学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。