基于双制造技术

技术编号:39641566 阅读:14 留言:0更新日期:2023-12-09 11:08
本发明专利技术涉及一种基于双

【技术实现步骤摘要】
基于双Actor

Critic神经网络的资源分配方法


[0001]本专利技术涉及资源分配优化
,尤其涉及一种基于双
Actor

Critic
神经网络的资源分配方法


技术介绍

[0002]目前,以空间节点作为资源提供方

以服务区域内的用户终端作为资源使用方的空间节点系统具有灵活机动的信息传输和转发能力,近年来在各领域发挥重要作用

空间节点系统的动态性高,场景灵活多变,其映射所得的数字孪生体系统的资源分配模拟过程需要对实时数据输入做出智能化的调整,以满足对快速变化的物理世界中的应用场景实现真实孪生再现的目的

[0003]随着对空间节点数据容量要求的提高,单个空间节点为单一服务区域提供资源的方式已经不能满足应用需求,能够满足多个服务区域资源分配的空间节点系统及其数字孪生体模拟技术开始逐渐发展和不断优化

另外,随着空间节点系统的规模越来越大,可用资源受到限制

由于服务区域间的业务本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于双
Actor

Critic
神经网络的资源分配方法,其特征在于,包括:将空间节点系统映射成空间节点数字孪生体系统;所述空间节点数字孪生体系统包括:中央控制器,所有空间节点

服务区域及每一服务区域内的所有用户终端;空间节点数字孪生体系统中的中央控制器内置多个实施单元,每个实施单元与多个空间上相邻的服务区域建立映射关系;将中央控制器中所有实施单元对服务区域的资源分配过程进行建模,得到强化学习模型;基于双
Actor

Critic
神经网络算法对强化学习模型进行训练,得到训练通过的强化学习模型;当中央控制器接收到用户终端的业务请求时,运行训练通过的强化学习模型,实现对相应空间节点系统的资源分配
。2.
根据权利要求1所述的基于双
Actor

Critic
神经网络的资源分配方法,其特征在于,在所述强化学习模型中,将当前时刻时各服务区域的请求业务量集合和上一时刻时各服务区域中的资源分配情况集合进行组合,得到当前时刻的状态;将当前时刻时各服务区域中的资源分配情况集合作为当前时刻的动作;以最小化所有服务区域的提供资源量和请求业务量的差值的均值

最大化所有服务区域的提供资源量和请求业务量的比值的均值

最小化所有实施单元的在用资源块数目之和为优化目标,确定收益奖励
。3.
根据权利要求2所述的基于双
Actor

Critic
神经网络的资源分配方法,其特征在于,
t
时刻的状态
S(t)

{Q(t)

D(t

1)}
;其中,
Q(t)
表示
t
时刻时各服务区域的请求业务量集合;
D(t

1)
表示
t
‑1时刻时各服务区域中的资源分配情况集合;
Q
i
(t)
表示服务区域
i

t
时刻的请求业务量,
i
=1,2,
...

N
b

N
b
表示服务区域的总数;其中,
D
i
(t

1)
表示服务区域
i

t
‑1时刻的资源分配情况,是一个
N
ratot
×1的列向量,列向量中的第
r
个元素表示第
r
个资源块对服务区域
i
的资源分配情况,列向量中各元素的取值为0或1,1表示
t
‑1时刻通过实施单元分配第
r
个资源块到第
i
个服务区域,0表示
t
‑1时刻没有通过实施单元分配第
r
个资源块到第
i
个服务区域,
r
=1,2,
...

N
ratot

N
ratot
表示资源块的总数
。4.
根据权利要求3所述的基于双
Actor

Critic
神经网络的资源分配方法,其特征在于,在所述强化学习模型中,
t
时刻的收益奖励
R(t)
表示为:
R(t)

M(t)

P(t)
ꢀꢀꢀꢀꢀ
(1)
其中,
M(t)、P(t)
分别表示
t
时刻的奖赏

惩罚;其中,
K
i
(t)
表示服务区域
i

t
时刻的比值,
α
i
(t)
表示服务区域
i

t
时刻的资源不足权重因子,
β
i
(t)
表示服务区域
i

t
时刻的资源盈余权重因子;
其中,
γ
表示惩罚因子,
N
raj
表示中央控制器分配给第
j
个实施单元的资源块的数目,
N
w
表示中央控制器中实施单元的总数
。5.
根据权利要求4所述的基于双
Actor

Critic
神经网络的资源分配方法,其特征在于,神经网络的资源分配方法,其特征在于,其中,
H
i
(t)

|F
i
(t)

Q
i
(t)|

H
i
(t)
表示服务区域
i

t
时刻的差值,
F
i
(t)
表示服务区域
i

t
时刻的提供资源量
。6.
根据权利要求2‑5中任一项所述的基于双
Actor

Critic
神经网络的资源分配方法,其特征在于,所述基于双
Actor

Critic
神经网络算法对强化学习模型进行训练,得到训练通过的强化学习模型,执行:初始化强化学习模型中的状态

动作和收益奖励;初始化双
Actor

Critic
神经网络;初始化历史数据队列为空;初始化回合总数
IterNum
和每回合更新总步数
StepNum
;在每一次回合,执行
StepNum
步轨迹更新,并将每步轨迹更新所得的状态

动作及收益奖励组成状态转移轨迹样本存入历史数据队列;并基于历史数据队列,更新后续策略
π
next
(
θ
)
和前序策略
π
prev
(
θ
)
;重复执行多个回合的轨迹更新,直至双
Actor

Critic

【专利技术属性】
技术研发人员:杨以杰杨振亚
申请(专利权)人:安世亚太科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1