当前位置: 首页 > 专利查询>广西大学专利>正文

基于经验共享深度强化学习的无服务器边缘任务卸载方法技术

技术编号:36028877 阅读:40 留言:0更新日期:2022-12-21 10:29
本发明专利技术公开了一种基于经验共享深度强化学习的无服务器边缘任务卸载方法;所述方法包括:对任务卸载性能优化问题进行建模,通过基于经验共享深度强化学习生成无服务器边缘任务卸载方法;本发明专利技术首先将在各个无服务器边缘计算环境下的任务卸载优化问题建模为马尔可夫决策过程,并采用改进的演员评判家Actor

【技术实现步骤摘要】
基于经验共享深度强化学习的无服务器边缘任务卸载方法


[0001]本专利技术属于计算机
,更具体地,涉及一种基于经验共享深度强化学习的无服务器边缘任务卸载方法。

技术介绍

[0002]随着无服务器边缘计算的智能IoT应用和其数据的增加,资源匮乏的IoT(Internet of Things,物联网)设备难以保障延迟敏感的任务性能。由于在IoT设备和云服务器之间的低带宽和高通信延迟,通过将任务卸载到云的传统云卸载方法无法满足延迟敏感的IoT应用的性能需求。边缘计算作为解决上述问题的可行方案之一,采用任务卸载技术,IoT设备可将计算任务卸载至边缘执行,缩短任务响应延迟和避免网络拥塞,并且满足安全、隐私、应用智能等多方面需求。为优化边缘计算性能和方便事件驱动的边缘智能IoT应用的开发与部署,无服务器计算从云计算扩展到边缘计算,产生无服务器边缘计算。一些云服务提供商也为边缘IoT环境边缘服务器中提供了函数执行的边缘FaaS平台(Edge FaaS,简称EFaaS;FaaS为Function as a Service,即“函数即服务”),吸引了IoT本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于经验共享深度强化学习的无服务器边缘任务卸载方法,其特征在于,包括如下步骤:(1)基于经验共享深度强化学习的分布式任务卸载方法ES

DRL采用改进的Actor

Critic框架的深度强化学习对任务卸载优化问题求解:在无服务器边缘计算的有状态和无状态结合的执行模型场景中,将多任务卸载问题转为联合优化问题,并且将任务卸载决策过程的性能优化问题建模为马尔可夫决策过程MDP;利用深度强化学习DRL的优点,采用在目标Actor策略的输出动作中加入策略噪声来平滑期望长期回报Q值、在Critic网络中通过学习两个Q值函数来避免Q值的过估计以及利用延迟策略更新以获得更小方差的Q值函数估计的改进Actor

Critic框架的DRL算法进行求解;(2)利用基于经验共享深度强化学习的分布式任务卸载方法ES

DRL优化卸载性能:为提高样本多样性和样本效率,基于经验共享深度强化学习的分布式任务卸载方法ES

DRL采用经验共享分布式学习架构,该架构中具有多个无服务器计算环境,每个环境内部署DRL智能体用于任务卸载决策和环境交互;每个环境的智能体将经验数据上传至云回放缓存进行共享,并从中随机抽取批量经验数据进行学习并设计一种基于种群指导的策略搜索方法,通过共享种群最佳个体信息,指导种群进化学习,优化个体网络以提高DRL智能体的收敛速度,降低探索成本。2.如权利要求1所述的基于经验共享深度强化学习的无服务器边缘任务卸载方法,其特征在于,所述步骤(1)中,在无服务器边缘计算的有状态和无状态结合的执行模型场景中,将多任务卸载问题转为联合优化问题,并且将任务卸载决策过程的性能优化问题建模为马尔可夫决策过程,具体包括:基于MDP的任务卸载优化问题建模:将任务卸载问题转为联合优化问题;延迟成本定义为全部任务的处理延迟成本之和如式(1):其中,a
i
={0,1},0表示任务o
i
在物联网(Internet of Things,IoT)本地设备处理,1表示任务o
i
卸载至边缘服务器中EFaaS处理;L
l
表示任务卸载至IoT设备处理的延迟,L
e
表示任务卸载至EFaaS处理的延迟;将时间离散化为多个时间段,称为时间步在MDP中,策略π(A
t
|S
t
)在状态下采取某个动作与环境交互,环境返回奖励R
t
和下一个状态S
t+1
,并定义SEC环境系统的MDP状态、动作和奖励如下:1)状态:定义系统状态S={F,G,H,U,q
e
},其中表示任务信息集合,表示IoT设备的状态信息集合,H={i,j,σ2}表示信道增益和背景噪声方差的集合,表示EFaaS的函数实例计算能力集合q
e
表示任务o
i
在EFaaS任务执行队列的队列延迟,q
i
表示任务o
i
在本地任务执行队列的队列延迟,u
i
为IoT设备o
i
或者EFaaS中处理任务o
i
的函数实例的计算能力;2)动作:是基于系统状态做出的任务卸载决策,每个任务决策是一个二进制选择,动作空间定义为a
i
∈{0,1},其中0表示任务在IoT设备执行,1表示任务卸载到EFaaS执行;
3)奖励:为最小化SEC系统延迟成本,因此定义奖励为系统成本的负值,即

L
sys
,反映在时间步t采取动作A
t
时的系统性能。3.如权利要求1所述的基于经验共享深度强化学习的无服务器边缘任务卸载方法,其特征在于,所述步骤(1)中,利用DRL的优点,采用在目标Actor策略的输出动作中加入策略噪声来平滑期望长期回报Q值、在Critic网络中通过学习两个Q值函数来避免Q值的过估计以及利用延迟策略更新以获得更小方差的Q值函数估计的改进Actor

Critic框架的DRL算法进行求解,具体包括:利用改进Actor

Critic框架的DRL算法求解关于任务卸载的联合优化问题:在Actor

Critic框架中为鼓励DRL智能体探索,Actor输出任务卸载动作A
t
后添加探索噪声,探索噪声采用高斯噪声;添加探索噪声后的噪声动作A
t
作用于SEC环境,环境将向DRL智能体反馈即时奖励R
t
和下一个系统状态S
t+1
,其中即时奖励R
t
等于负的系统延迟成本值,即

L
sys
;经过与环境的一次交互,得到一条经验数据元组(S
t
,A
t
,R
t
,S
t+1
)并用于随后网络参数的更新;将目标策略平滑集成到Actor

Critic框架;在目标Actor策略的输出动作中加入策略噪声,平滑地计算Q值,以避免过拟合,如式(2):Critic网络在当前策略π下以状态动作对(S
t
,A
t
)作为输入,并输出对应的期望长期回报,即Q值,表示如式(3):Q

【专利技术属性】
技术研发人员:陈宁江姚旭艺曾浩洋
申请(专利权)人:广西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1