【技术实现步骤摘要】
一种基于深度强化学习的虚拟网络映射方法
[0001]本专利技术涉及虚拟网络映射
,具体的说是一种云计算网络虚拟化技术下的虚拟网络映射。一种基于深度强化学习的虚拟网络映射方法。
技术介绍
[0002]随着技术的发展,云计算得到了越来越广泛的应用。云计算中心提供了很多物理服务器和运行在物理服务器上的虚拟机、容器。软件定义网络和网络虚拟化允许多个租户通过即时付费的方式按需申请、使用计算资源和网络资源。如何能够充分得利用物理网络的资源,为更多的有着不同网络拓扑结构、不同资源需求的租户提供服务,成为了一个关键问题。网络虚拟化技术能够将网络服务与底层物理硬件解耦,允许多个异构的网络结构共享一个物理网络,已成为一种有效的资源共享技术。基础设备提供商会基于网络虚拟化技术尽最大努力为不同的租户提供所需的资源(如CPU容量、网络带宽)运行自定义网络拓扑,即虚拟网络。每个虚拟网络由一组虚拟节点和节点之间的虚拟链路组成。将虚拟网络映射到物理网络的过程称为虚拟网络映射。虚拟网络映射包括节点映射和链路映射两个阶段。虚拟节点映射到物理节点的过程称为节点映射,虚拟链路映射到物理链路的过程称为链路映射。虚拟网络映射在满足资源约束的情况下,将所有的虚拟节点和虚拟链路映射到相应的物理节点和物理链路中,为租户的虚拟网络映射请求分配资源。虚拟网络映射是网络虚拟化中优化资源利用率和提高网络性能的一项重要且具有挑战性的任务。虚拟网络映射问题被证明是NP
‑
hard,这意味着在大的网络环境中不可能得到精确的解。为了解决这一问题,许多启发式算 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的虚拟网络映射方法,其特征在于,该虚拟网络映射方法具体包括以下步骤:1)根据收集到的多租户自定义的虚拟网络映射请求信息,以及物理网络集群资源信息进行虚拟网络映射建模,所述物理网络为下述(a)式表示的加权无向图Gs:Gs =(Ns,Es,An,Al)
ꢀꢀꢀ
(a);其中,Ns为物理网络计算节点集合;Es为物理网络链路集合;An为节点属性;Al为链路属性;2)根据虚拟网络模型及物理网络集群资源模型进行强化学习建模,其具体包括状态空间、动作空间和奖励机制的设计;3)利用深度强化学习算法中的近端策略优化算法(PPO)对映射器进行训练,所述近端策略优化算法(PPO)采用基于演员
‑
评论家(actor
‑
critic)架构的三个神经网络,其分别为当前的策略网络πθ、旧的策略网络和价值网络Q。2.根据权利要求1所述基于深度强化学习的虚拟网络映射方法,其特征在于,所述步骤1)具体包括:1
‑
1:根据从租户接收到的虚拟网络映射请求,在共享物理网络上建立虚拟网络拓扑,该虚拟网络由下述(b)式表示为加权无向图Gv:Gv=(Nv,Ev,Rn,Rl)
ꢀꢀꢀ
(b);其中,Nv为虚拟网络计算节点集合;Ev为虚拟网络链路集合;Rn和Rl分别为对底层资源的虚拟节点和链路请求VNR;1
‑
2:一个虚拟网络请求VNR由下述(c)式表示为:VNR=(Gv,ta,td)
ꢀꢀꢀ
(c);其中,ta、td分别表示虚拟网络请求的到达和结束时间;1
‑
3:当一个虚拟网络请求VNR以一定的虚拟网络拓扑结构生成并在ta时刻到达物理网络时,如果物理网络的资源满足虚拟网络请求的资源Rn、Rl,则虚拟网络请求使用这些资源直到td时刻释放;如果物理网络剩余的资源不足以满足虚拟网络请求或是嵌入算法无法找到合适的映射方案,则虚拟网络的映射请求被拒绝;所述嵌入算法是将虚拟网络映射VNE到物理网络:M:Gv
‑
>Gs,在云数据中心中,虚拟网络请求会不定期的到达与结束;所述嵌入算法是将虚拟网络嵌入定义为一个从虚拟网络到物理网络的映射:M:Gv
‑
>Gs,该映射是在这些虚拟网络VN请求到达时,动态地分配所需的物理网络资源,在云数据中心中,虚拟网络VN请求会不定期的到达与结束。3.根据权利要求1所述基于深度强化学习的虚拟网络方法,其特征在于,所述步骤2)中的状态空间是智能体观察到的环境状态其中表示物理网络状态,C
s
表示物理节点的可用CPU资源向量;B
s
表示物理链路的可用带宽向量;表示物理节点的映射状态向量;表示请求映射的虚拟网络状态,C
v
表示虚拟节点的CPU资源向量;B
v
表示虚拟链路带宽资源向量;表示虚拟节点映射状态向
量;所述动作空间是物理网络有n个节点令动作空间A={a0,a1,a2,...,a
n
},当智能体执行动作a
i
时,表示将待映射虚拟节点到物理节点设置动作a
n
用于表示不对当前虚拟节点进行映射;所述奖励机制在完成VN请求的链路映射或节点映射后,按下述机制计算映射的奖励:A.对于一个VN映射请求,如果智能体做出映射动作数量大于设置的最大映射动作数量,则映射失败,奖励为
‑
100;B.如果物理网络的节点资源不足,奖励为0;C.如果动作选择的物理节点已经映射过了,或者动作选择的物理节点的可利用CPU资源少于虚拟节点需要的资源,则由下述(a)式计算奖励:D.对于正在映射的VN,vn_embed_nodesnum是已经映射的节点数量,vn_nodesnum是VN的节点数量,如果一个VNR有4个虚拟节点,那么第一个节点映射失败reward为
‑
40,第二个节点为
‑
60,以此类推,最后一个节点映射失败reward为
‑
100。E.如果虚拟节点映射后,所在的虚拟链路因物理网络资源不足映射失败,则VN映射失败,奖励为
‑
100.F.如果虚拟节点和虚拟节点所在的虚拟链路成功映射,则由下述(b)式计算奖励:其中,Rev(n
vj
)为映射虚拟节点j的产生的收益;PN
j
为映射虚拟节点j产生的能耗。4.根据权利要求1所述基于深度强化学习的虚拟网络映射方法,其特征在于,所述步骤3)具体包括:3
‑
1:神经网络初始化初始化当前的策略网络π
θ
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。