一种基于深度强化学习策略的雾计算资源分配方法组成比例

技术编号:39817979 阅读:7 留言:0更新日期:2023-12-22 19:37
一种基于深度强化学习策略的雾计算资源分配方法,属于物联网领域

【技术实现步骤摘要】
一种基于深度强化学习策略的雾计算资源分配方法


[0001]本专利技术属于物联网领域,具体涉及一种基于深度强化学习策略的雾计算资源分配方法


技术介绍

[0002]近年来,智能移动设备的普及促进了大量新的移动应用程序的普及

然而,一般来说,移动设备的计算能力和供电有限,直接影响了计算性能和用户体验

物联网设备产生的任务是动态的

随机的

多变的,需要立即响应

云计算是一种集中式计算范式,可以处理和存储终端设备产生的海量数据,并为终端设备提供可靠的服务

但是,终端设备消耗大量的网络带宽,给云数据中心带来负担,造成通信延迟

因此,许多计算密集型任务和延迟敏感型任务无法通过云计算进行处理和快速响应

[0003]通过使用雾计算的概念,可以将任务卸载到具有计算资源的其他地方

可以在这些计算资源空闲时使用它们,并将任务卸载到这些资源空闲的地方,从而为对延迟敏感的应用提供低延迟

移动性和位置感知的支持,减轻网络中心的压力,提高用户的在线体验感

但是,计算卸载需要从多个方面进行考虑,对于计算密集型和延迟敏感型应用,如何分配带宽并减少应用程序的响应时间,需要根据系统状态分配每个节点的通信和计算资源

如果使用移动设备作为边缘服务器,还需要考虑设备的移动性

设备的分布以及设备之间的协作,因此如何进行合理的计算卸载是一个值得研究的问题

[0004]尽管如此,即使使用移动边缘计算的优点,满足具有高性能需求的不同用户请求也是一项重要的任务,最大的挑战在于计算资源和网络资源的分配

最近强化学习
(Reinforcement Learning,RL)
的突破提供了一种有前途的方法,旨在学习最优策略并最大化长期奖励,而无需事先了解系统模型
。RL
作为一个
agent
,根据与环境的历史交互来优化策略

此外,深度强化学习
(Deep Reinforcement Learning,DRL)
利用强大的深度神经网络
(Deep Neural Network,DNN)
使
RL
能够处理大的状态空间

大量研究证明了其有效性


技术实现思路

[0005]目前,许多物联网设备还存在许多问题,例如无线传感器节点的能量和通信能力有限,因此针对多台移动设备网络边缘效用和任务处理相结合的优化问题,本专利技术提出了一种基于二进制多元宇宙优化算法的方法
(a channel resource allocation methodbased onbinary multiverse optimization algorithm,CRA_BMVO)
,并在此基础上提出了一种基于
DRL
的近端策略优化方法
(an offloading strategy algorithm for mobiledevice cooperation based on proximal policy optimization,MDCO_PPO)
用来优化信道选择和卸载决策

目的是在确保分配的无线信道最优的情况下保证计算资源的分配是最优的

[0006]本专利技术的一种基于深度强化学习策略的雾计算资源分配方法,其主要包括如下步骤:
[0007]第
1、
系统模型
[0008]第
1.1、
通信模型;
[0009]第
1.2、
计算模型;
[0010]第
1.3、
问题公式化;
[0011]第
2、
基于深度强化学习策略的雾计算资源分配方法设计
[0012]第
2.1、
将混合整数规划问题
P
转化为简单易求解的问题;
[0013]第
2.2、
基于二进制多元宇宙算法的信道分配优化;
[0014]第
2.2.1、
多元宇宙算法;
[0015]第
2.2.2、CRA_BMVO
方法;
[0016]第
3、
基于
RL
的最佳卸载决策方法
[0017]第
3.1、
卸载决策;
[0018]第
3.2、
近端策略优化算法;
[0019]第
3.3、MDCO_PPO
方法;
[0020]进一步的,步骤第1中建立了系统模型,即雾计算卸载模型与信道分配模型

考虑系统由雾计算节点
(FogNodes,FN)
和一组通过基站
(Base Station,BS)
连接到节点的移动设备
(Mobile Devices,MD)
组成

在系统中,记
N

{1,2,...,N}
表示基站通信范围内所有移动设备
MD
的集合,
M

{1,2,...,M}
表示无线信道
(Wireless Channel,WC)
的集合,通过这些信道,可以将移动设备
MD
产生的任务卸载到
FN
或是其他移动设备上进行处理

本专利技术将移动设备
MD i(i∈N)
产生的任务用
U
i

(D
i
,C
i
,T
imax
)
来表示,其中,
D
i
表示任务的数据量大小,
C
i
表示执行任务所需的总计算资源
(

CPU
周期数
)

T
imax
表示执行完任务所容忍的最大时延,即任务需要在
[0,T
imax
]时间内完成

如上所述,对于每一个
U
i
都有
(N+1)
个候选模式,表示为
K

{1,2,...,N,N+1}。
本专利技术假设所有移动设备
MD i(i∈N)
都可以视为雾节点,并且愿意彼此共享计算资源

因此,任务
U
i
可以有三种执行模式,即在本地设备执行

在设备间执行或在基站的
FN
上执行
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习策略的雾计算资源分配方法,其特征是包括如下步骤:第
1、
系统模型第
1.1、
通信模型;第
1.2、
计算模型;第
1.3、
问题公式化;第
2、
基于深度强化学习策略的雾计算资源分配方法设计第
2.1、
将混合整数规划问题
P
转化为简单易求解的问题;第
2.2、
基于二进制多元宇宙算法的信道分配优化;第
2.2.1、
多元宇宙算法;第
2.2.2、CRA_BMVO
方法;第
3、
基于
RL
的最佳卸载决策方法第
3.1、
卸载决策;第
3.2、
近端策略优化算法;第
3.3、MDCO_PPO
方法
。2.
如权利要求1所述的一种基于深度强化学习策略的雾计算资源分配方法,其特征在于,步骤第
1.1
中建立通信模型的方法如下,对于将任务
U
i
发送到
FN
或其他设备执行的模型,移动设备
MD i(i∈N)
首先需要将执行任务
U
i
所需的数据上传到
FN
或其他设备,然后将计算结果通过下行链路返回给生成任务
U
i
的设备,数据传输时的通信速率表示为:的设备,数据传输时的通信速率表示为:其中,
B
是信道宽度,
p
i
为移动设备
MD i(i∈N)
的发射功率,表示设备将任务
U
i
以模式
j
进行卸载的信道增益,其中,
p
l
为路径损耗,
d
ij
是设备与卸载目的地之间距离,
w
i
为背景噪声功率,为同一信道不同移动设备之间的干扰
。3.
如权利要求1所述的一种基于深度强化学习策略的雾计算资源分配方法,其特征在于,步骤第
1.2
中建立计算模型的方法如下:对于本地执行,移动设备
MD i(i∈N)
将生成的任务
U
i
发送到本地计算单元,所产生的时间开销主要由本地设备的计算能力
R
i

执行任务所需的
CPU

C
i
以及排队延迟
q
i
决定,在本地的时间延迟表示为:其中,
R
i
表示任务
U
i
生成设备的计算能力,
q
i
为本地排队延迟,另外,所产生的本地执行能耗表示为:其中,
k
>0,表示有效电容系数;
(1)
任务在设备间执行若设备将任务
U
i
卸载到其他设备上执行,所产生的时间开销主要由传输延迟

计算延迟和排队延迟组成,而传输延迟表示为:相应的,计算延迟表示为:其中,
R
o
表示任务
U
i
在其他空闲移动设备处理的计算能力,因此,任务卸载到其他设备进行执行的总时间延迟表示为:
T
io

T
io,tr
+T
io,com
+q
o
ꢀꢀꢀꢀ
(6)
其中,
q
o
表示所产生的任务在其他设备进行处理的排队延迟,同理,所产生的能耗主要也由传输能耗和计算能耗所决定,传输能耗表示为:相应的,计算能耗表示为:因此,任务卸载到其他设备进行执行的总能耗表示为:
(2)
任务在
FN
上执行若将任务卸载到
FN
进行执行所产生的时间开销主要由传输延迟

计算延迟和排队延迟决定,传输延迟表示为:相应的,计算延迟表示为:其中,
R
f
表示任务
U
i

FN
上处理的计算能力,因此,任务卸载到
FN
进行执行的总时间延迟表示为:
T
if

T
if,tr
+T
if,com
+q
f
ꢀꢀꢀꢀ
(12)
其中,
q
f
表示任务
U
i

FN
上的排队延迟;另外,由于在
FN
上执行所消耗的计算能耗与移动设备
MD
的能耗无关,因此,任务卸载到
FN
进行执行所产生的能耗主要由传输能耗决定,表示为:所有移动设备的总时延
T
i
和总能耗
E
i
可以分别表示为:
其中,约束条件
C1
的作用是保证每个移动设备
MD i(i∈N)
所产生的任务都被顺利执行
。4.
如权利要求1所述的一种基于深度强化学习策略的雾计算资源分配方法,其特征在于,步骤
1.3
中将问题公式化,即由于系统目标是实现所有移动设备
MD i(i∈N)
的低时延和低能耗,时延因子和能耗因子分别为
α

β
,并且
α
+
β
=1,
α

β
,问题公式化为:
P

5.
如权利要求1所述的基于雾计算的多移动设备无线信道选择和计算卸载移动边缘计算框架,其特征在于,步骤
2.1
中将信道资源分配的优劣用任务
U
i
的数据传输速率
S
ij
来衡量,即求解最优信道资源分配的问题转化为如下表达式:
P1
:将卸载决策的优劣用系统总开销
Cost
来衡量,其中,
Cost
表示如下:其中,
Cost
是基于
P1
问题求得最优解的情况下所得的最优解,即卸载决策问题转化为如下所示:
P2

s.t.C2:P1
根据问题表达式看出
P2
问题的最优解即为整个系统的优化目标
P。6.
如权利要求1所述的一种基于深度强化学习策略的雾计算资源分配方法,其特征在于,步骤
2.2
中,即基于二进制多元宇宙算法的信道分配优化,采用改进的二进制多元宇宙优化算法
CRA_BMVO
来解决最优信道资源分配问题,在信道资源分配最优的前提下,进行任务的卸载决策,对于最佳卸载决策问题,采用基于深度强化学习
DRL
的近端策略优化
MDCO_PPO
进行求解;其中,步骤
2.2.1
中,多元宇宙优化算法
MVO
的主要思想是基于多元宇宙理论的三个主要概念,即白洞

黑洞和虫洞,建立一个模型,
MVO
算法分为以下几个步骤:
1)
建立一个由
n
个宇宙组成的组,在
d
维目标空间中搜索,并初始化,
2)
为了建立白黑洞之间的数学模型,交换宇宙中的物体,采用了轮盘赌机制,在每次迭
代中,根据宇宙的膨胀率对宇宙进行排序,此外,轮盘赌是用来选择一个白洞,其中,表示第
i
个宇宙的第
j
个物体,
NI(X
i
)
表示第
i
个宇宙的归一化膨胀率,
r1是介于
[0,1]
之间的随机数,表示经过轮盘赌机制选择出的第
k
个宇宙的第
j
个物体;
3)
在迭代过程中,多元宇宙空间中的虫洞存在概率
WEP
呈线性增加,物体朝着当前最优宇宙的行进步长速率
TDR
不断减小,因此,在得到的全局最优范围内进行更精确的局部搜索,两个系数的自适应公式为式
(19)
和式
(20)
::其中,
WEP
max

WEP
的最小值,
WEP
min

WEP
的最大值,
l
为当前迭代次数,
L
为最大迭代次数,
p
表示迭代过程中的开发精度,
p
值越高,本地搜索速度越快;
4)
更新宇宙位置,找到最优个体,其中,
x
j
表示当前形成的最佳宇宙的第
j
个物体,
ub
j

lb
j
分别代表了参数
j
的取值上界和取值下界,
r2、r3、r...

【专利技术属性】
技术研发人员:张德干曹亚辉张捷张婷郑秀美陈露乔孟陈洪涛王法玉赵洪祥肖春来
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1