一种基于制造技术

技术编号:39660365 阅读:4 留言:0更新日期:2023-12-11 18:22
本发明专利技术公开了一种基于

【技术实现步骤摘要】
一种基于D3PG模型的任务分解与卸载方法


[0001]本专利技术设计一种基于
D3PG
模型的任务分解与卸载方法,属于移动边缘计算



技术介绍

[0002]随着物联网的出现,大规模的物联网设备将被连接到无线网络上

虽然物联网设备能够用合理的能量消耗实时处理各种相对较小的任务,但无法完成计算密集型任务并克服能耗问题,这便需要有新的解决方法

移动边缘计算作为一个新兴的研究方向,若能通过有效的方法来调度任务和利用有限的资源,它将实现高性能

低延迟与高带宽的服务环境,为我们带来不间断的高质量网络体验

[0003]移动边缘计算就是在网络边缘提供计算资源,有助于有效地处理近距离的物联网任务,减轻核心网络的负担

近年来,随着
5G
技术的到来,移动边缘计算的应用大量增加,有效地提高了完成任务的速度,减少网络延迟并降低能源消耗


技术实现思路

[0004]专利技术目的:本专利技术提供了一个通过深度强化学习
(DRL)
模型实现联合优化任务分解和计算卸载的方案,可以采用以端到端
DRL
方法来对具有频率控制的任务进行划分和卸载,以实现对预期长期奖励的联合优化,可以在要求的期限前最大化完成任务的数量,同时最小化能源消耗和时间成本

[0005]针对上述任务分解和计算卸载的联合优化问题,本专利技术运用一种新的深度强化学习,即狄利克雷策略梯度深度确定性
(D3PG)
模型

我们首先建立
DRL
系统模型并给出奖励机制,将问题公式化,然后通过训练模型来进行问题的求解

[0006]技术方案:本专利技术为实现以上要点,具体包括以下步骤:
[0007]步骤1:建立一种新的深度强化学习模型
DRL
,即狄利克雷策略梯度深度确定性模型
D3PG
,并给出模型的奖励机制;
[0008]步骤2:训练上述步骤1中所建立的模型:首先,设置学习环境并创建一个经验应答缓冲区用于收集深度强化学习模型
DRL
代理与
MEC
环境交互所收集到的训练数据;然后,深度强化学习模型
DRL
代理与环境进行交互以生成训练数据集;最后,代理从经验缓冲区中提取训练数据来训练深度强化学习模型
DRL
模型内的学习网络;
[0009]步骤3:利用训练好的
D3PG
深度学习模型实现联合优化任务分解和计算卸载

[0010]进一步地,本专利技术可以给出较优的任务分解和计算卸载策略,该决策即为,在灵活地分解任务并将子任务转移到边缘服务器上的基础上,实现最大化处理任务的数量,最小化能源消耗

[0011]进一步地,本专利技术上述步骤1中建立了一种新的深度强化学习模型并给出其奖励机制,具体步骤包括:
[0012]步骤1‑
1.
定义来自第
i
个用户的任务为
Ω
i
,将
Ω
i
的子任务的时间代价表示为向量
δ
i

(
δ
i,0
,...,
δ
i,j
,...,
δ
i,K
),i≤N,j≤K
,计算第
j
个子任务的时间代价
δ
i,j
,表达式为:
[0013][0014]其中为第
j

MEC
服务器处理的当前任务
(
即子任务
)
的剩余执行时间
,

MEC
服务器上的第
j
个子任务的队列中的等待时间
,
为传输时间,为第
j

MEC
服务器处理的当前任务
(
即子任务
)
的计算时间;
[0015]步骤1‑
2.
计算处理任务
Ω
i
的能耗,表达式为:
[0016][0017]其中为传输成本,为计算所需能耗;
[0018]步骤1‑
3.
若任务
Ω
i
处理成功,即
max(
δ
i
)≤
Δ
max
,则奖励一个正值
(+1)
;否则为0,表达式为:
[0019][0020]其中
Δ
max
为任务
Ω
i
的最大容忍延迟
(
过期时间
)

[0021]步骤1‑
4.
由步骤1‑2和步骤1‑3,建立多目标优化模型,表达式为:
[0022][0023]s.t.a
i

Φ
i
,
[0024][0025]其中,
β1和
β2是规范化术语的权重,定义协调员采取的每个操作为
a
i

a
i

Φ
i

{
φ0,...,
φ
j
,...,
φ
K
}
用于任务分区,其中
φ
j
表示任务到第
j

MEC
服务器的百分比;
[0026]步骤1‑
5.
为使得步骤1‑3中的奖励机制能够评估长期效用,对其进行再优化,表达式为:
[0027][0028]其中
s
i
为当前系统观测,
π
表示将观测状态映射到动作的策略;
[0029]步骤1‑
6.
给出最终的奖励机制,表达式为:
[0030][0031]其中
R
t
为即时奖励,其余项表示以
γ
∈[0,1]为参数的未来奖励估计,
R
t+k
已经在步骤1‑5中进行了定义

[0032]进一步地,本专利技术在上述步骤1‑2中,
其中
c

10

26

P
i,j
为传输功率,
D
i,j
为第
j
个子任务的数据大小,
ζ
i,j
为从第
i
个用户到第
j

MEC
服务器的当前传输速率,
f
j
为第
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
D3PG
模型的任务分解与卸载方法,其特征在于,所述方法具体包括以下步骤:步骤1:建立一种新的深度强化学习模型
DRL
,即狄利克雷策略梯度深度确定性模型
D3PG
,并给出模型的奖励机制;步骤2:训练上述步骤1中所建立的模型:首先,设置学习环境并创建一个经验应答缓冲区用于收集深度强化学习模型
DRL
代理与
MEC
环境交互所收集到的训练数据;然后,深度强化学习模型
DRL
代理与环境进行交互以生成训练数据集;最后,代理从经验缓冲区中提取训练数据来训练深度强化学习模型
DRL
模型内的学习网络;步骤3:利用训练好的
D3PG
深度学习模型实现联合优化任务分解和计算卸载
。2.
根据权利要求1所述的一种基于
D3PG
模型的任务分解与卸载方法,其特征在于,所述方法给出较优的任务分解和计算卸载策略,该决策即为,在灵活地分解任务并将子任务转移到边缘服务器上的基础上,实现最大化处理任务的数量,最小化能源消耗
。3.
根据权利要求1所述的一种基于
D3PG
模型的任务分解与卸载方法,其特征在于,步骤1中建立了一种新的深度强化学习模型并给出其奖励机制,具体步骤包括:步骤1‑
1.
定义来自第
i
个用户的任务为
Ω
i
,将
Ω
i
的子任务的时间代价表示为向量
δ
i

(
δ
i,0
,

,
δ
i,j
,...,
δ
i,K
),i≤N,j≤K
,计算第
j
个子任务的时间代价
δ
i,j
,表达式为:其中为第
j

MEC
服务器处理的当前任务
(
即子任务
)
的剩余执行时间
,

MEC
服务器上的第
j
个子任务的队列中的等待时间
,
为传输时间,为第
j

MEC
服务器处理的当前任务
(
即子任务
)
的计算时间;步骤1‑
2.
计算处理任务
Ω
i
的能耗,表达式为:其中为传输成本,为计算所需能耗;步骤1‑
3.
若任务
Ω
i
处理成功,即
max(
δ
i
)≤
Δ
max
,则奖励一个正值
(+1)
;否则为0,表达式为:其中
Δ
max
为任务
Ω
i
的最大容忍延迟
(
过期时间
)
;步骤1‑
4.
由步骤1‑2和步骤1‑3,建立多目标优化模型,表达式为:
s.t.a
i

Φ
i
,
其中,
β1和
β2是规范化术语的权重,定义协调员采取的每个操作为
a
i

a
i

Φ
i

{
φ0,...,
φ
j
,...,
φ
K
}
用于任务分区,其中
φ
j
表示任务到第
j

MEC
服务器的百分比;步骤1‑
5.
为使得步骤1‑3中的奖励机制能够评估长期效用,对其进行再优化,表达式为:其中
s
i
为当前系统观测,
π
表示将观测状态映射到动作的策略;步骤1‑
6.
给出最终的奖励机制,表达式为:其中
R
t
为即时奖励,其余项表示以
γ
∈[0,1]
为参数的未来奖励估计,
R
t+k
已经在步骤1‑5中进行了定义
。4.
根据权利要求3所述的一种基于
D3PG
模型的任务分解...

【专利技术属性】
技术研发人员:王皓天王思洋文馨彭敏鑫荀位夏思思
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1