基于TD3算法的计算卸载分配方法和装置制造方法及图纸

技术编号:27944138 阅读:23 留言:0更新日期:2021-04-02 14:26
本发明专利技术公开了一种基于TD3算法的计算卸载分配方法和装置,包括步骤:获取计算卸载系统状态,将计算卸载系统状态输入预先训练好的计算卸载TD3网络的演员当前网络,得到计算卸载比例和计算卸载发射功率;所述计算卸载系统状态包括:物联网设备到边缘服务器的信道增益、物联网设备的电池电量和可收集的可再生能源能量。本发明专利技术通过深度强化学习方法,确定设备最优卸载策略,并且利用能量收集降低智能设备能耗。

【技术实现步骤摘要】
基于TD3算法的计算卸载分配方法和装置
本专利技术属于移动通信与深度强化学习领域,具体涉及一种基于TD3算法的计算卸载分配方法和装置。
技术介绍
在过去的几年里,计算机视觉、自然语言处理、增强现实等新兴的技术的出现,都要求大量的计算任务和尽可能低的时延,这往往超过了现有IoT(物联网)设备的计算能力。计算卸载被认为是解决这一问题的有效方法之一。计算卸载是指将计算任务卸载到边缘网络的高性能服务器上处理,再把处理结果从代理服务器上取回,从而达到降低计算时延的方法。其次,对于IoT设备的电量供应问题,特别是在偏远地区和危险地区提供可靠和稳定的电网电力供应成本极高,甚至不可行。但是随着新能源收集技术的发展,从热、风能、太阳能等可再生能源中获取电能被视为该领域边缘系统的主要甚至唯一的电能供应。强化学习作为机器学习的一个重要分支,其中智能代理与环境进行交互,可通过环境控制到获得最大奖励值来优化动作。计算卸载模型通常可以描述为马尔科夫过程(MDP,MarkovDecisionProcesses),使用强化学习处理计算卸载具有广泛的应用前景。相比深度学习对高维信息具有较强的感知能力,强化学习对高维信息感知能力较差。因此,深度强化学习将深度学习与强化学习结合起来为解决复杂的决策感知问题提供了有效方案。目前基于深度强化学习的计算卸载方法存在通信时延和能量消耗过大问题,这是因为文献中的深度强化学习对状态动作值的过高估计导致计算卸载决策不合理以及算法不稳定,例如卸载比例、执行卸载的发射功率不合理。双延迟深度确定性策略梯度算法(TD3,TwinDelayedDeepDeterministicpolicygradientalgorithm)是在深度确定性策略梯度算法(DDPG,DeepDeterministicpolicygradient)基础上提出的优化算法。TD3算法是一种面向连续动作空间基于演员—批评家架构的深度强化学习算法。演员网络根据系统状态做出动作决策,批评家网络估计这一状态动作对的价值,价值指导动作决策,不断迭代优化这一过程。但在其他深度强化学习算法包括DDPG中,批评家网络会过高地估计动作状态值,导致动作决策次优等问题。TD3算法中采用两套批评家网络—批评家网络1和批评家网络2,最终的状态动作价值采取两者的较小值,从而抑制过估计,实现最优动作决策。在这一过程中,通过更新演员网络和批评家网络的参数,演员网络不断迭代,优化不同状态下的动作决策,批评家网络也不断迭代,完善每个状态下选择每一个动作的价值。
技术实现思路
本专利技术目的:本专利技术提供了一种基于TD3算法的计算卸载分配方法和装置,解决了现有计算卸载存在的卸载比例、执行卸载的发射功率不合理问题。本专利技术提供的技术方案如下:一种基于TD3算法的计算卸载分配方法,包括步骤:获取计算卸载系统状态,将计算卸载系统状态输入预先训练好的计算卸载TD3网络的演员当前网络,得到计算卸载比例和计算卸载发射功率;所述计算卸载系统状态包括:物联网设备到边缘服务器的信道增益、物联网设备的电池电量和可收集的可再生能源能量。进一步的,在t+1时隙,物联网设备的电池电量bt+1表达为:为本地物联网设备执行计算任务需要的能量消耗,为:Et1为t时隙将卸载任务从本地物联网设备发送到边缘服务器需要的功率为卸载执行功耗,为:其中,k为物联网设备芯片的电容有效系数,bt表示t时隙物联网设备的电池电量;B为物联网设备到边缘服务器的带宽,pt为t时隙物联网设备的计算卸载发送功率,σ为噪声功率,ht为t时隙物联网设备用户的信道增益;xt为计算任务卸载比例;Ct为计算任务的计算量;本地IoT设备CPU的频率为f,N为CPU处理1bit数据所需的周期数;et为t时隙可收集的可再生能源能量。进一步的,计算卸载TD3网络训练步骤包括:1)初始化TD3网络;2)初始化计算卸载系统状态,设置批评家当前网络参数更新次数为0,将计算卸载系统状态st输入TD3网络,得到计算卸载系统动作决策;构建训练样本;3)每次训练从经验池中抽取M个样本训练TD3网络,更新批评家当前网络参数;批评家当前网络参数更新次数每更新指定次数后,则对演员当前网络参数通过损失梯度更新,以及使用软更新方式更新演员目标网络参数和批评家目标网络参数;若批评家当前网络参数更新大于训练总次数,则本回合训练结束,回合更新数加1;若回合更新数没有达到指定回合更新总次数则继续执行步骤2),进行下一回合训练,否则执行步骤4);4)保存训练好的TD3网络中的演员当前网络参数。进一步的,训练样本构建步骤包括:初始化TD3网络;初始化计算卸载系统状态st;将计算卸载系统状态st输入TD3网络中的演员当前网络,演员当前网络根据策略函数做出动作决策,得到t时隙的计算卸载系统动作at;物联网设备根据t时隙的计算卸载系统动作at执行计算任务,得到下一时隙t+1的计算卸载系统状态st+1,并计算得到t时隙奖励值Rt;将样本[st,at,Rt,st+1]保存到经验池中,如果样本经验池中样本没有达到经验池容量W,则将下一时隙的计算卸载系统状态st+1输入到演员当前网络,生成下一时隙的计算卸载系统动作at+1,直到样本经验池满;计算卸载系统动作at表示为:at=[xt,pt]其中,计算卸载比例xt∈[0,1],pt∈[0,pmax],pmax为物联网设备发射功率最大值;t时隙奖励值Rt:其中,表示t时隙的计算任务的本地执行时延,T1t表示t时隙的计算任务的卸载传输时延,表示t时隙计算任务完全本地执行的时延;I(bt+1≤0)表示任务丢弃指示函数,为任务丢弃权重,Et1为t时隙卸载执行功耗,为本地IoT设备执行计算任务需要的能量消耗。进一步的,所述更新批评家当前网络参数方法为:计算均方误差损失函数,通过最小化均方误差损失函数来更新批评家当前网络1参数w1、批评家当前网络2的参数w2:均方误差损失函数表达式为:表示样本j的第i个批评家目标网络的现实收获,表示样本j的第i个批评家当前网络状态动作值,通过将当前时隙的状态动作对(st,at)输入批评家当前网络得到;单一样本的批评家目标网络的现实收获表达式为:为:将下一时隙状态st+1和目标动作a-t+1分别输入两个批评家目标网络得到的目标状态动作值;a-t+1获取过程为:取出各样本中的下一个时隙状态st+1输入演员目标网络得到下一时隙目标动作a-t+1;wi为批评家当前网络参数,i=1或2;w'i为两个批评家目标网络参数w'1或w'2;所述损失梯度公式为:Q(st,at)为目标状态动作值中较小的值;是对Q(st,at)中的a求导,表示对演员当前网络策略函数πθ(st)中的θ求导;所述软更新公式为:w'i←τwi+(1-τ)w'i|i=本文档来自技高网
...

【技术保护点】
1.一种基于TD3算法的计算卸载分配方法,其特征在于,包括步骤:/n获取计算卸载系统状态,将计算卸载系统状态输入预先训练好的计算卸载TD3网络的演员当前网络,得到计算卸载比例和计算卸载发射功率;/n所述计算卸载系统状态包括:物联网设备到边缘服务器的信道增益、物联网设备的电池电量和可收集的可再生能源能量。/n

【技术特征摘要】
1.一种基于TD3算法的计算卸载分配方法,其特征在于,包括步骤:
获取计算卸载系统状态,将计算卸载系统状态输入预先训练好的计算卸载TD3网络的演员当前网络,得到计算卸载比例和计算卸载发射功率;
所述计算卸载系统状态包括:物联网设备到边缘服务器的信道增益、物联网设备的电池电量和可收集的可再生能源能量。


2.根据权利要求1所述的一种基于TD3算法的计算卸载分配方法,其特征在于,
在t+1时隙,物联网设备的电池电量bt+1表达为:




为本地物联网设备执行计算任务需要的能量消耗,为:



Et1为t时隙将卸载任务从本地物联网设备发送到边缘服务器需要的功率为卸载执行功耗,为:






其中,k为物联网设备芯片的电容有效系数,bt表示t时隙物联网设备的电池电量;B为物联网设备到边缘服务器的带宽,pt为t时隙物联网设备的计算卸载发送功率,σ为噪声功率,ht为t时隙物联网设备用户的信道增益;xt为计算任务卸载比例;Ct为计算任务的计算量;本地IoT设备CPU的频率为f,N为CPU处理1bit数据所需的周期数;et为t时隙可收集的可再生能源能量。


3.根据权利要求1所述的一种基于TD3算法的计算卸载分配方法,其特征在于,计算卸载TD3网络训练步骤包括:
1)初始化TD3网络;
2)初始化计算卸载系统状态,设置批评家当前网络参数更新次数为0,将计算卸载系统状态st输入TD3网络,得到计算卸载系统动作决策;构建训练样本;
3)每次训练从经验池中抽取M个样本训练TD3网络,更新批评家当前网络参数;批评家当前网络参数更新次数每更新指定次数后,则对演员当前网络参数通过损失梯度更新,以及使用软更新方式更新演员目标网络参数和批评家目标网络参数;若批评家当前网络参数更新大于训练总次数,则本回合训练结束,回合更新数加1;若回合更新数没有达到指定回合更新总次数则继续执行步骤2),进行下一回合训练,否则执行步骤4);
4)保存训练好的TD3网络中的演员当前网络参数。


4.根据权利要求3所述的一种基于TD3算法的计算卸载分配方法,其特征在于,训练样本构建步骤包括:
初始化TD3网络;
初始化计算卸载系统状态st;
将计算卸载系统状态st输入TD3网络中的演员当前网络,演员当前网络根据策略函数做出动作决策,得到t时隙的计算卸载系统动作at;
物联网设备根据t时隙的计算卸载系统动作at执行计算任务,得到下一时隙t+1的计算卸载系统状态st+1,并计算得到t时隙奖励值Rt;将样本[st,at,Rt,st+1]保存到经验池中,如果样本经验池中样本没有达到经验池容量W,则将下一时隙的计算卸载系统状态st+1输入到演员当前网络,生成下一时隙的计算卸载系统动作at+1,直到样本经验池满;
计算卸载系统动作at表示为:
at=[xt,pt]
其中,计算卸载比例xt∈[0,1],pt∈[0,pmax],pmax为物联网设备发射功率最大值;
t时隙奖励值Rt:



其中,表示t时隙的计算任务的本地执行时延,T1t表示t时隙的计算任务的卸载传输时延,表示t时隙计算任务完全本地执行的时延;I(bt+1≤0)表示任务丢弃指示函数,为任务丢弃权重,Et1为t时隙卸载执行功耗,为本地IoT设备执行计算任务需要的能量消耗。


5.根据权利要求4所述的一种基于TD3算法的计算卸载分配方法,其特征在于,
所述更新批评家当前网络参数方法为:计算均方误差损失函数,通过最小化均方误差损失函数来更新批评家当前网络1参数w1、批评家当前网络2的参数w2:均方误差损失函数表达式为:




表示样本j的第i个批评家目标网络的现实收获,表示样本j的第i个批评家当前网络状态动作值,通过将当前时隙的状态动作对(st,at)输入批评家当前网络得到;
单一样本的批评家目标网络的现实收获表达式为:




为:将下一时隙状态st+1和目标动作a-t+1分别输入两个批评家目标网络得到的目标状态动作值;a-t+1获取过程为:取出各样本中的下一个时隙状态st+1输入演员目标网络得到下一时隙目标动作a-t+1;wi为批评家当前网络参数,i=1或2;w'i为两个批评家目标网络参数w'1或w'2;
所述损失梯度公式为:



Q(st,at)为目标状态动作值中较小的值;是对Q(st,at)中的a求导,表示对演员当前网络策略函数πθ(st)中的θ求导;
所述软更新公式为:
w'i←τwi+(1-τ)w'i|i=1,2
θ'←τθ+(1-τ)θ'
θ'为演员目标网络参数,w'i为批评家目标网络i的参数,θ为演员当前网络参数。


6.一种基于TD3算法的计算...

【专利技术属性】
技术研发人员:赵莎莎秦立丹张登银孙晨辉周晓宇朱子洁何培源
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1