一种基于联邦强化学习的移动边缘计算卸载方法和平台技术

技术编号:36796347 阅读:23 留言:0更新日期:2023-03-08 23:09
本发明专利技术提供一种基于联邦强化学习的移动边缘计算卸载方法和平台,在MEC系统目前的分布式DRL架构上引入联邦学习架构,使得卸载策略计算具备高度智能化、鲁棒性、数据安全等特性。在移动边缘计算场景中,使用该发明专利技术训练得到的智能体可以实时感知移动设备和边缘服务器的计算资源和通信资源状况,实现对这些资源的统一调度,MEC系统在调度决策的基础上可以处理移动设备的计算卸载请求。本发明专利技术提供的方法和平台考虑了在现有的分布式DRL架构下引入联邦学习策略,在指导MEC系统进行智能化的计算卸载的同时,提升模型的鲁棒性并保护数据隐私,在提升QoE的同时获得最大的系统收益。在提升QoE的同时获得最大的系统收益。在提升QoE的同时获得最大的系统收益。

【技术实现步骤摘要】
一种基于联邦强化学习的移动边缘计算卸载方法和平台


[0001]本专利技术涉及移动边缘计算
,尤其涉及一种基于联邦强化学习的移动边缘计算卸载方法和平台。

技术介绍

[0002]移动边缘计算(Mobile Edge Computing,MEC)的计算卸载通过将移动设备的计算任务卸载到距离移动设备更近的边缘服务器上运行,既可以有效减轻移动设备的计算压力,降低与云计算的集中式数据中心交互的频率,还可以规避从移动设备到远程云计算基础设施传输数据引起的长传播延迟,早已成为了MEC的重要研究问题。
[0003]在基于凸优化、博弈论等的假设环境下,一些研究工作取得了相当好的结果。但是这些MEC系统资源配置优化存在的最大问题是智能程度低。近些年,使用深度学习智能算法来进行移动边缘计算的研究已大量涌现,例如Alam等《Autonomic computation offloading in mobile edge for IoT applications》,Qiu X等《Online deep reinforcement learning for computation offloading in blockchain

empowered mobile edge computing》,Zhang C等《Task migration for mobile edge computing using deep reinforcement learning》,Wang T等《An intelligent dynamic offloading from cloud to edge for smart iot systems with big data》,其中有大量地研究使用了(深度)强化学习算法(Deep Reinforcement Learning,DRL)。

技术实现思路

[0004]本专利技术的实施例提供了一种基于联邦强化学习的移动边缘计算卸载方法和平台,用于解决现有技术中存在的技术问题。
[0005]为了实现上述目的,本专利技术采取了如下技术方案。
[0006]一种基于联邦强化学习的移动边缘计算卸载方法,包括:
[0007]获取用于认知计算所需的观测数据;
[0008]基于观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型,并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略;
[0009]通过移动边缘计算卸载策略,处理移动设备的边缘计算卸载请求,进行通信资源和计算资源的调度。
[0010]优选地,观测数据包括:网络状态S,迭代轮数T,状态特征维度n,动作集合A,步长α,衰减因子γ,探索概率ε,当前的Q网络Q,目标Q网络Q

,批量梯度下降的样本数m,Q

网络参数的更新频率C,学习率η;
[0011]基于观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型包括:
[0012]初始化模型参数θ0;
[0013]通过如下过程对t从1到T进行迭代;
[0014]初始化网络状态S为当前状态序列的第一个状态,获得与网络状态S对应的特征向量φ(S);
[0015]在网络Q中使用φ(S)作为输入,得到网络Q的所有动作对应的Q值输出,利用ε

greedy策略在当前Q值输出中选择对应的动作集合A;
[0016]在网络状态S执行当前动作集合A,获得新的网络状态S

、与新的网络状态S

对应的特征向量φ(S

)以及奖励R;奖励R通过计算即时效用函数式获得,式中,t
e
表示计算任务的执行延迟,t
p
表示计算任务的排队延迟,R
Ni
表示移动设备N
i
的资源消耗量,C表示计算任务丢弃或失败的次数;
[0017]基于当前动作集合A,获得新的网络状态S

、与新的网络状态S

对应的特征向量φ(S

)、奖励R,加入是否终止状态is_end获得五元组{φ(S),A,R,φ(S

),is_end},并存入经验回放集合D中;
[0018]令S=S


[0019]从经验回放集合D中采样获得{φ(S
j
),A
j
,R
j
,φ(S
j

),is_end
j
},j=1,...,m,从{φ(S
j
),A
j
,R
j
,φ(S
j

),is_end
j
},j=1,...,m中得到m个样本,通过式
[0020][0021]计算当前目标Q值y
j

[0022]使用均方差损失函数并通过神经网络的梯度反向传播来更新Q网络的所有参数θ;
[0023]如果i%C=1,则更新Q

网络参数θ

=θ;
[0024]如果S

是终止状态,则当前轮迭代终止,进行联邦参数更新,输出移动边缘计算卸载策略否则,返回执行上述第二个子步骤;式中,π
c
(S)用于决定移动设备的选择其中,c=0表示移动设备选择在本地执行计算卸载任务,c∈M表示移动设备选择通过某个无线信道M
i
来将计算卸载任务分配到边缘节点,π
e
(S)表示通过π
c
(S)选择分配的计算卸载任务c∈M或选择本地计算卸载任务c=0所需的资源量。
[0025]优选地,最后一个子步骤中进行联邦参数更新的过程包括:
[0026]在每一轮的迭代的步骤t中,边缘节点发送当前全局模型参数θ
t
给移动设备
[0027]对移动设备进行随机抽样,获得抽样子集
[0028]对于不属于中的移动设备,根据θ
t
,通过随机梯度下降式更新模型参数;式中,η为学习率,l为优化目标;
[0029]对于属于中的移动设备,根据θ
t
,通过随机梯度下降式更新模型参数,然后通过式将上传至边缘节点进行平均形成新的全局模型
参数θ
t+1
;式中,t表示迭代次数。
[0030]第二方面,本专利技术提供一种基于联邦强化学习的移动边缘计算卸载平台,包括DDQN智能体、MEC系统,MEC系统包括多个边缘设备和边缘节点;
[0031]DDQN智能体用于从MEC系统中获取用于认知计算所需的观测数据;
[0032]MEC系统基于观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦强化学习的移动边缘计算卸载方法,其特征在于,包括:获取用于认知计算所需的观测数据;基于所述观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型,并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略;通过所述移动边缘计算卸载策略,处理移动设备的边缘计算卸载请求,进行通信资源和计算资源的调度。2.根据权利要求1所述的方法,其特征在于,所述观测数据包括:网络状态迭代轮数T,状态特征维度n,动作集合A,步长α,衰减因子γ,探索概率ε,当前的Q网络Q,目标Q网络Q

,批量梯度下降的样本数m,Q

网络参数的更新频率C,学习率η;所述的基于所述观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型包括:初始化模型参数θ0;通过如下过程对t从1到T进行迭代;初始化网络状态S为当前状态序列的第一个状态,获得与网络状态S对应的特征向量φ(S);在网络Q中使用φ(S)作为输入,得到网络Q的所有动作对应的Q值输出,利用ε

greedy策略在当前Q值输出中选择对应的动作集合A;在网络状态S执行当前动作集合A,获得新的网络状态S

、与所述新的网络状态S

对应的特征向量φ(S

)以及奖励R;所述奖励R通过计算即时效用函数式获得,式中,t
e
表示计算任务的执行延迟,t
p
表示计算任务的排队延迟,表示移动设备N
i
的资源消耗量,C表示计算任务丢弃或失败的次数;基于当前动作集合A,获得新的网络状态S

、与所述新的网络状态S

对应的特征向量φ(S

)、奖励R,加入是否终止状态is_end获得五元组{φ(S),A,R,φ(S

),is_end},并存入经验回放集合D中;令S=S

;从经验回放集合D中采样获得{φ(S
j
),A
j
,R
j
,φ(S
j

),is_end
j
},j=1,...,m,从{φ(S
j
),A
j
,R
j
,φ(S
j

),is_end
j
},j=1,...,m中得到m个样本,通过式计算当前目标Q值y
j
;使用均方差损失函数并通过神经网络的梯度反向传播来更新Q网络的所有参数θ;如果i%C=1,则更新Q

网络参数θ

=θ;如果S

是终止状态,则当前轮迭代终止,进行联邦参数更新,输出移动边缘计算卸载策
略否则,返回执行上述第二个子步骤;式中,π
c
(S)用于决定移动设备的选择其中,c=0表示移动设备选择在本地执行计算卸载任务,c∈M表示移动设备选择通过某个无线信道M
i
来将计算卸载任务分配到边缘节点,π
e
(S)表示通过π
c
(S)选择分配的计算卸载任务c∈M或选择本地计算卸载任务c=0所需的资源量。3.根据权利要求2所述的方法,其特征在于,最后一个子步骤中所述的进行联邦参数更新的过程包括:在每一轮的迭代的步骤t中,边缘节点发送当前全局模型参数θ
t
给移动设备对移动设备进行随机抽样,获得抽样子集对于不属于中的移动设备,根据θ
t
,通过随机梯度下降式更新模型参数;式中,η为学习率,l为优化目标;对于属于中的移动设备,根据θ
t
,通过随机梯度下降式更新模型参数...

【专利技术属性】
技术研发人员:张鑫云任爽
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1