一种基于亲密度的5G网络切片智能资源分配方法组成比例

技术编号:30965940 阅读:23 留言:0更新日期:2021-11-25 20:35
本发明专利技术涉及一种基于亲密度的5G网络切片智能资源分配方法,属于5G网络切片技术领域,旨在尽可能提高5G雾无线接入网络切片的资源利用率并减低延迟。本方法引入节点亲密度,并应用深度强化学习技术来优化5G网络中的切片资源分配,在保证服务质量的同时最大限度地提高资源利用率。首先应用深度学习技术来表示复杂的高维网络状态空间,并使用重放缓冲区来利用采样经验信息的相关性。然后,将获得的信息作为提出的智能决策模块的输入,以自适应地做出5G网络切片决策。本发明专利技术尤其适用于应用在动态复杂的、对切片的资源利用率和延迟都要求较高的场景。高的场景。高的场景。

【技术实现步骤摘要】
一种基于亲密度的5G网络切片智能资源分配方法


[0001]本专利技术涉及一种深度强化学习和网络切片技术,具体涉及一种基于亲密度的5G网络切片智能资源分配方法,用于解决5G网络切片资源分配问题,属于5G网络切片


技术介绍

[0002]第五代移动网络,简称5G网络,实现了具有高容量、超低延迟和极其可靠的移动连接的物联网(IoT)。5G网络是支持多种应用的多种先进技术的动态和灵活架构。
[0003]网络切片技术是5G现实的关键推动因素之一。网络切片的实现,要求5G网络具有开放性、灵活性和可编程性。其中,虚拟化、软件化、网络功能是构建网络切片的第一步。网络功能虚拟化(NFV)将网络功能的软件实现和硬件功能解耦,在通用的标准化服务器上运行网络功能。
[0004]在设计网络切片时,可以将传统的网络功能映射到运行在容器或虚拟机中的虚拟化的网络功能,这些虚拟化的网络功能可以链接在一起,根据需要提供服务。软件定义网络技术(SDN)通过将转发平面与控制平面分离,简化了网络管理,引入了可编程特性,使网络更加开放和灵活。
[0005]通过SDN和NFV的结合,网络切片可以在单个物理网络基础设施上定义多个虚拟网络。网络切片通常由一组虚拟资源和与之关联的流量组成。通过按需提供必要的资源,网络切片有助于有效利用网络资源以满足多样化的业务需求。
[0006]此外,面对5G的能力需求,网络功能通过虚拟化进行集中,并提出云无线接入网络来应对物联网应用的大数据挑战。该架构将基带处理单元与远端射频头分离,将公共数据中心的基带处理和资源管理功能集中起来,提高资源利用率,节约成本。
[0007]然而,随着物联网设备部署的快速增长需求,云无线接入网络在远端射频头和云之间的链路中引入了巨大的前传开销,并且主要由高传输时间、有限容量的前传链路和集中式信号处理。因此,一种有前景的范式,基于雾无线电接入网络被引入到5G无线通信中,目的是将云扩展到更靠近雾的地方。
[0008]在雾无线电接入网络中,雾节点可以在边缘独立为用户提供网络功能,而无需云端解决低延迟需求。雾无线电接入网络通过在边缘设备上执行更多功能来克服对容量受限前传的影响,从而提高网络性能。但是,由于与云相比,FN(fog node,雾节点)的资源有限,无法满足物联网应用的所有请求。因此,应该智能地利用雾节点的资源并与云合作,以满足服务质量要求。
[0009]基于5G网络切片技术构建的新型网络具有高度复杂性,现有的5G网络切片资源分配方法都存在不同方面的不足。技术人员尝试通过各种启发式方法来解决该问题,但由于这个问题是NP(指无法在多项式的时间内解决的问题)难的,有些资源分配问题不是凸的,所以很难得到最优解。此外,环境中的交通状态是实时变化的,启发式方法也是静态分配资源的,其中为切片预留了固定数量的资源,这将导致资源利用不足,并且在满足不同移动业务的动态QoS需求方面面临巨大挑战。
[0010]深度强化学习在解决涉及高维感官输入的顺序决策问题上取得了巨大成功。这意味着,基于深度强化学习的方法可以用于解决NP

hard资源分配问题。但是,5G中的动态资源分配面临挑战,因为其必须处理具有预定义序列的相互依赖的虚拟化网络功能和具有各种服务质量要求的隔离切片。
[0011]此外,现有的技术并没有考虑周围节点资源的影响。

技术实现思路

[0012]本专利技术的目的是针对现有技术存在的不足,为了有效解决5G网络切片资源分配的技术问题,旨在尽可能提高5G雾无线接入网络切片的资源利用率并减低延迟,创造性地提出一种基于亲密度的5G网络切片智能资源分配方法。
[0013]本专利技术的创新点在于:引入节点亲密度并应用深度强化学习技术来优化5G网络中的切片资源分配,在保证服务质量的同时最大限度地提高资源利用率。首先应用深度学习技术来表示复杂的高维网络状态空间,并使用重放缓冲区来利用采样经验信息的相关性。然后,将获得的信息作为提出的智能决策模块的输入,以自适应地做出5G网络切片决策。
[0014]本专利技术的目的是通过下述技术方案实现的。
[0015]一种基于亲密度的5G网络切片智能资源分配方法,包括以下步骤:
[0016]步骤1:获取5G网络中每个切片的原始状态信息,包括切片服务器的资源状态等,然后,代理收集需要训练的环境历史样本,并将样本放入经验回放池中。
[0017]步骤2:设定深度强化学习参数。
[0018]步骤3:根据步骤1和步骤2,学习critic网络与actor网络,并设置强化学习参数值。
[0019]首先,初始化actor网络和critic网络中的所有参数和经验回放池,并构建一个深度强化网络拟合值函数,用于解决状态空间爆炸问题。
[0020]具体地,使用Actor

Critic网络结构。为提高Actor

Critic网络结构输入状态值的有效性,此处引入亲密度的概念来计算每个节点与其邻居之间的亲密度,使得代理能够更好地获取邻居节点的状态。此外,网络使用累积奖励作为目标值,将预期累积奖励作为预测值。
[0021]具体过程如图2所示,包括观察过程,训练过程和执行过程。
[0022]步骤4:根据步骤3学习到的actor网络,确定下一步切片资源的分配。
[0023]有益效果
[0024]本方法对比现有技术,具有以下优点:
[0025]1.现有的方法如启发式的方法静态地分配资源,为切片保留固定数量的资源,这将导致资源的未充分利用。
[0026]而本专利技术方法是一种在线的无模型的方法,可以利用深度强化学习的优势,以适应随时间变化的流量控制需求。
[0027]2.本专利技术方法引入了节点亲密度,并应用深度强化学习(DRL)技术对5G网络中的VNFs调度进行了优化,在保证服务质量(QoS)的同时最大限度地提高资源利用率。
[0028]3.本专利技术方法应用深度学习(DL)技术来表示复杂的高维网络状态空间,并使用重放缓冲区来利用采样经验信息的相关性。将得到的信息作为智能决策模块的输入,能够自
适应地进行5G网络切片决策。
[0029]4.本专利技术既考虑了资源利用率也考虑了时延,时延是服务等级协议(SLA)中最重要的指标之一。本专利技术尤其适用于应用在动态复杂的、对切片的资源利用率和延迟都要求较高的场景。
附图说明
[0030]图1为F

RAN的系统结构图;
[0031]图2为基于亲密度的5G网络切片智能资源分配模型;
[0032]图3为本专利技术方法的流程示意图;
[0033]图4为本专利技术方法的Reward。
具体实施方式
[0034]下面结合附图和实施例对本专利技术的具体实施方式做进一步详细说明。
[0035]具体参数设置如表1所示:
[0036]表1参数设置
[0037]参数取值时间周期T200episode50本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于亲密度的5G网络切片智能资源分配方法,其特征在于,包括以下步骤:步骤1:获取5G网络中每个切片的原始状态信息,然后代理收集需要训练的环境历史样本,并将样本放入经验回放池中;步骤2:设定深度强化学习参数,即,设定初始化actor网络和critic网络中所有参数和经验回放池;步骤3:根据步骤1和步骤2,学习critic网络与actor网络,并设置强化学习参数值,具体包括观察过程、训练过程和执行过程三个部分;步骤3.1:观察过程;从重放缓冲区开始收集样本,得到深度强化学习训练所需的样本;首先,将样本分成相等的子集,并对每个样本的子集执行梯度下降;然后,更新神经网络的权重和其他参数,代理继续进行下一个子集样本的梯度下降;在遍历所有样本之后,在梯度下降中执行p步;每个样本的子集下的梯度下降过程与不划分子集的方法相同,只是当前的训练数据是一个子集,而不是所有样本;因此,在子集的一个训练回合中执行n次梯度下降;最后,根据贪婪策略选择接下来要执行的动作;循环上述过程,直到迭代次数达到限制;步骤3.2:训练过程,从重放缓冲区开始,包括以下步骤:S1:随机初始化critic网络与actor网络;S2:初始化经验回放池和网络参数值,包括Reward、延迟、服务器内存、时间片t;其中,Reward的值是指示行为正确的值;将动作能否带来利润,以及是否满足延迟和内存的约束,作为影响Reward值的标准;S3:接收经验回放池的状态,作为DRL的输入参数;S4:根据环境,为每个节点选择动作:S5:对于时间周期T内的每个时间片t,执行以下过程:S5.1:通过actor网络生成动作,代理根据当前策略向所选动作添加探索噪声,以增加训练过程的随机性和学习的覆盖率;S5.2:执行动作,并且更新环境和经验回放池;S5.3:判断时间片t是否结束,如果为否,执行S5.4;S5.4:更新包括资源利用率、延迟以及Reward的值;S5.5:判断动作选择是否正确,以及是否有请求被完成;如果动作选择正确,并且满足切片服务器的内存约束,则将Reward值增大;如果动作选择不正确,则将Reward值减小;S5.6:判断时间片是否结束;如果未结束,则返回S5.1;如果结束,则重置时间片t,并输出一个时间周期内的资源利用率、延迟以及Reward的值,然后返回S5.1;...

【专利技术属性】
技术研发人员:杨松贺楠李凡
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1