一种基于深度强化学习的虚拟网络映射方法技术

技术编号:38643138 阅读:16 留言:0更新日期:2023-08-31 18:35
本发明专利技术公开了一种基于深度强化学习的虚拟网络映射方法,其特点是该方法将物理网络和虚拟网络为加权无向图,利用图神经卷积网络将其编码为网络拓扑结构向量,然后把网络拓扑结构向量和网络资源状态向量共同输入到调度器中的策略神经网络,使用近端策略优化算法对其训练。本发明专利技术与现有技术相比具有根据当前环境状态动态调整调度决策,协调节点映射和链路映射,在提高物理网络资源利用率的同时,增加映射收益成本比,降低物理网络集群能耗,模型简便,易训练,能显著提高用户体验,为虚拟网络映射领域提供技术支撑。射领域提供技术支撑。射领域提供技术支撑。

【技术实现步骤摘要】
一种基于深度强化学习的虚拟网络映射方法


[0001]本专利技术涉及虚拟网络映射
,具体的说是一种云计算网络虚拟化技术下的虚拟网络映射。一种基于深度强化学习的虚拟网络映射方法。

技术介绍

[0002]随着技术的发展,云计算得到了越来越广泛的应用。云计算中心提供了很多物理服务器和运行在物理服务器上的虚拟机、容器。软件定义网络和网络虚拟化允许多个租户通过即时付费的方式按需申请、使用计算资源和网络资源。如何能够充分得利用物理网络的资源,为更多的有着不同网络拓扑结构、不同资源需求的租户提供服务,成为了一个关键问题。网络虚拟化技术能够将网络服务与底层物理硬件解耦,允许多个异构的网络结构共享一个物理网络,已成为一种有效的资源共享技术。基础设备提供商会基于网络虚拟化技术尽最大努力为不同的租户提供所需的资源(如CPU容量、网络带宽)运行自定义网络拓扑,即虚拟网络。每个虚拟网络由一组虚拟节点和节点之间的虚拟链路组成。将虚拟网络映射到物理网络的过程称为虚拟网络映射。虚拟网络映射包括节点映射和链路映射两个阶段。虚拟节点映射到物理节点的过程称为节点映射,虚拟链路映射到物理链路的过程称为链路映射。虚拟网络映射在满足资源约束的情况下,将所有的虚拟节点和虚拟链路映射到相应的物理节点和物理链路中,为租户的虚拟网络映射请求分配资源。虚拟网络映射是网络虚拟化中优化资源利用率和提高网络性能的一项重要且具有挑战性的任务。虚拟网络映射问题被证明是NP

hard,这意味着在大的网络环境中不可能得到精确的解。为了解决这一问题,许多启发式算法被提出来。然而,大多数算法都只是通过人工规则对虚拟网络请求、节点排序和映射。这类算法的一个重要缺点是非自适应性,即映射的策略是预先确定的,不能根据实际操作的反馈和实时网络条件进行调整与优化。
[0003]近年来,深度强化学习在各个领域受到了广泛的关注,为解决VNE问题提供了一种很有前途的途径。一般的强化学习范式中通常包含一个智能体,它可以通过与外部环境的连续交互进行自我学习。智能体一开始一无所知,然后通过探索外部环境逐渐学习,做出动作,改变了外部环境的状态。环境给了智能体一个奖励信号,智能体根据奖励信号动态地改进下一代动作。在智能体与环境不断交互的过程中,智能体逐渐学习到一个长期最大化累计奖励的策略。经过训练之后,模型可以自动处理嵌入策略的生成过程。RL具有较强的自适应自学习能力,这使其非常适合于解决动态环境中的复杂问题,包括VNE问题。然而,大多数算法将节点映射和链路映射看做是两个独立的阶段,缺乏节点映射和链路映射之间的协调,导致资源利用率较低。根据网络状态的变化自动调整映射策略,协调节点映射和链路映射,对提高物理网络资源利用率,提高收益成本比,降低能耗具有重要意义。
[0004]现有技术的虚拟网络映射算法将节点映射和链路映射看做是两个独立的阶段,缺乏节点映射和链路映射之间的协调,映射策略不能根据网络状态的变化自动调整,进而导致集群资源利用率较低以及没有同时考虑收益和能耗等问题。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而提供的一种基于深度强化学习的虚拟网络映射方法,采用将物理网络和虚拟网络为加权无向图的方法,利用图神经卷积网络(GCN)将其编码为网络拓扑结构向量,把网络拓扑结构向量和网络资源状态向量共同输入到调度器中的策略神经网络,使用近端策略优化算法(PPO)对其进行训练,该方法能够同时将网络资源的动态变化情况以及节点映射和链路映射之间的依赖关系考虑进去,根据集群资源情况动态的调整映射策略,以提高集群资源利用率及增加映射收益成本比,降低物理网络集群能耗。
[0006]实现本专利技术目的的具体技术方案是:一种基于深度强化学习的虚拟网络映射方法,具体包括以下步骤:
[0007]S1、虚拟网络映射模型建模
[0008]1)物理网络:物理网络可以看做为一个加权无向图Gs=(Ns,Es,An,Al),其中Ns表示物理网络计算节点集合,Es表示物理网络链路集合,An表示节点属性(如CPU处理能力、内存空间和节点可靠性),Al表示链路属性(如带宽、延迟和数据包丢失率)。本专利技术将每个物理节点的CPU处理能力作为物理节点属性,将每个物理网络的带宽作为物理链路属性。因此,每个物理节点都有一个权重它表示节点上可用的CPU计算资源的数量。同样地,每条边也有一个权重它表示链路e
s
的当前可用带宽.在VNE问题中,虚拟网络中的一个虚拟链路对应于一个物理路由路径,该路径由物理网络中的一个或多个物理链路组成。用P
s
来表示G
s
中所有可行路径的集合,而指的是节点和之间的物理路径,其中每条路径的可用带宽量用B(P
s
)表示,取决于沿物理路径的瓶颈链路的最小剩余带宽,即
[0009]2)虚拟网络请求:根据从租户接收到的虚拟网络映射请求,在共享物理网络上建立虚拟网络拓扑。虚拟网络同样可以看做一个加权无向图Gv=(Nv,Ev,Rn,Rl),其中Nv表示虚拟网络计算节点集合,Ev表示虚拟网络链路集合,而Rn和Rl分别表示物理资源的虚拟节点和链路请求。一个虚拟网络请求VNR可以表示为VNR=(Gv,ta,td),其中ta、td分别表示虚拟网络请求的到达和结束时间。当一个虚拟网络请求以一定的网络拓扑结构生成并在ta时刻到达物理网络时,如果物理网络的资源满足虚拟网络请求的资源Rn、Rl,则虚拟网络请求使用这些资源直到td时刻释放。如果物理网络剩余的资源不足以满足虚拟网络请求或是嵌入算法无法找到合适的映射方案,则虚拟网络的映射请求被拒绝。本专利技术将每个虚拟节点的CPU处理能力作为虚拟节点属性,将每个虚拟网络的带宽作为虚拟链路属性。因此,每个虚拟节点被赋值为一个权重它表示虚拟节点所需的最小CPU容量。类似地,每个虚拟链路也有一个权重这是指虚拟节点和之间的虚拟链路所需的最小带宽容量。
[0010]3)虚拟网络映射问题:虚拟网络嵌入问题可以被定义为一个从虚拟网络到物理网络的映射:M:Gv

>Gs。在云数据中心中,VN请求会不定期的到达与结束。VNE的关键职责是在这些VN请求到达时,动态地分配所需的物理网络资源。VNE的最终目标是竭尽所能为所有VN找到合适的解决方案,以最大化整体收益和最小化整体能耗。通常,一个VNE过程可以被分解为两个阶段,即节点映射和链路映射。节点映射是在节点资源约束条件下将每个VN的虚拟节点映射到特定的物理节点的过程,下述(j)式表示节点资源约束关系,即虚拟节点的CPU资源需小于或等于所映射的物理节点CPU资源,同一虚拟网络的虚拟节点不能映射到同一物理节点;(k)式表示如果同一虚拟网络中的任意两个虚拟节点被映射到同一物理节点,则这两个虚拟节点必定是同一虚拟节点,不同虚拟网络的虚拟节点可以映射到同一物理节点。
[0011][0012][0013]其中,M
n
表示虚拟节点映射。
[0014]相比之间,链路映射在链路资源约束条件下将VN的每个虚拟链路映射本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的虚拟网络映射方法,其特征在于,该虚拟网络映射方法具体包括以下步骤:1)根据收集到的多租户自定义的虚拟网络映射请求信息,以及物理网络集群资源信息进行虚拟网络映射建模,所述物理网络为下述(a)式表示的加权无向图Gs:Gs =(Ns,Es,An,Al)
ꢀꢀꢀ
(a);其中,Ns为物理网络计算节点集合;Es为物理网络链路集合;An为节点属性;Al为链路属性;2)根据虚拟网络模型及物理网络集群资源模型进行强化学习建模,其具体包括状态空间、动作空间和奖励机制的设计;3)利用深度强化学习算法中的近端策略优化算法(PPO)对映射器进行训练,所述近端策略优化算法(PPO)采用基于演员

评论家(actor

critic)架构的三个神经网络,其分别为当前的策略网络πθ、旧的策略网络和价值网络Q。2.根据权利要求1所述基于深度强化学习的虚拟网络映射方法,其特征在于,所述步骤1)具体包括:1

1:根据从租户接收到的虚拟网络映射请求,在共享物理网络上建立虚拟网络拓扑,该虚拟网络由下述(b)式表示为加权无向图Gv:Gv=(Nv,Ev,Rn,Rl)
ꢀꢀꢀ
(b);其中,Nv为虚拟网络计算节点集合;Ev为虚拟网络链路集合;Rn和Rl分别为对底层资源的虚拟节点和链路请求VNR;1

2:一个虚拟网络请求VNR由下述(c)式表示为:VNR=(Gv,ta,td)
ꢀꢀꢀ
(c);其中,ta、td分别表示虚拟网络请求的到达和结束时间;1

3:当一个虚拟网络请求VNR以一定的虚拟网络拓扑结构生成并在ta时刻到达物理网络时,如果物理网络的资源满足虚拟网络请求的资源Rn、Rl,则虚拟网络请求使用这些资源直到td时刻释放;如果物理网络剩余的资源不足以满足虚拟网络请求或是嵌入算法无法找到合适的映射方案,则虚拟网络的映射请求被拒绝;所述嵌入算法是将虚拟网络映射VNE到物理网络:M:Gv

>Gs,在云数据中心中,虚拟网络请求会不定期的到达与结束;所述嵌入算法是将虚拟网络嵌入定义为一个从虚拟网络到物理网络的映射:M:Gv

>Gs,该映射是在这些虚拟网络VN请求到达时,动态地分配所需的物理网络资源,在云数据中心中,虚拟网络VN请求会不定期的到达与结束。3.根据权利要求1所述基于深度强化学习的虚拟网络方法,其特征在于,所述步骤2)中的状态空间是智能体观察到的环境状态其中表示物理网络状态,C
s
表示物理节点的可用CPU资源向量;B
s
表示物理链路的可用带宽向量;表示物理节点的映射状态向量;表示请求映射的虚拟网络状态,C
v
表示虚拟节点的CPU资源向量;B
v
表示虚拟链路带宽资源向量;表示虚拟节点映射状态向
量;所述动作空间是物理网络有n个节点令动作空间A={a0,a1,a2,...,a
n
},当智能体执行动作a
i
时,表示将待映射虚拟节点到物理节点设置动作a
n
用于表示不对当前虚拟节点进行映射;所述奖励机制在完成VN请求的链路映射或节点映射后,按下述机制计算映射的奖励:A.对于一个VN映射请求,如果智能体做出映射动作数量大于设置的最大映射动作数量,则映射失败,奖励为

100;B.如果物理网络的节点资源不足,奖励为0;C.如果动作选择的物理节点已经映射过了,或者动作选择的物理节点的可利用CPU资源少于虚拟节点需要的资源,则由下述(a)式计算奖励:D.对于正在映射的VN,vn_embed_nodesnum是已经映射的节点数量,vn_nodesnum是VN的节点数量,如果一个VNR有4个虚拟节点,那么第一个节点映射失败reward为

40,第二个节点为

60,以此类推,最后一个节点映射失败reward为

100。E.如果虚拟节点映射后,所在的虚拟链路因物理网络资源不足映射失败,则VN映射失败,奖励为

100.F.如果虚拟节点和虚拟节点所在的虚拟链路成功映射,则由下述(b)式计算奖励:其中,Rev(n
vj
)为映射虚拟节点j的产生的收益;PN
j
为映射虚拟节点j产生的能耗。4.根据权利要求1所述基于深度强化学习的虚拟网络映射方法,其特征在于,所述步骤3)具体包括:3

1:神经网络初始化初始化当前的策略网络π
θ

【专利技术属性】
技术研发人员:王廷段忠磊
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1