基于强化学习的服务功能链并行化部署方法及系统技术方案

技术编号：41181099 阅读：2 留言：0更新日期：2024-05-07 22:15

本发明专利技术提供一种基于强化学习的服务功能链并行化部署方法及系统，方法包括：（1）对物理网络进行建模；（2）对SFC请求建模；（3）对部署过程建模；（4）MDP建模；（5）动态副本生成；（6）进行动态预测；（7）提取物理网络的关系特征，并输入Actor网络和Critic网络进行特征学习，获得发生概率最大的策略动作作用于网络环境。本发明专利技术通过引入动态副本和动态预测技术，将当前请求对于之前请求的结果依赖解耦为对之前请求处理结果的预测的依赖，实现了多个请求可以并行化的处理，并不丢失请求之间可能存在的依赖关系，使多个请求均匀部署到整个网络中，避免集中部署在个别节点导致的网络不可用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及服务功能链部署领域，具体来说，涉及了一种基于强化学习的服务功能链并行化部署方法及系统。

技术介绍

1、网络功能虚拟化(network function virtualization，nfv)是一种新兴的网络架构技术，它将传统的网络功能(如防火墙、路由器、负载均衡器等)从专用硬件设备中解耦，并将其转化为软件的形式，以便在通用服务器上进行部署和管理。相比传统的网络功能部署方式，nfv技术具有更高的灵活性、可伸缩性和成本效益。

2、传统的网络功能部署方式需要使用专用硬件设备，每个网络功能都需要独立的物理设备，导致网络的部署和维护成本高昂且不灵活。而nfv技术的出现使得网络功能可以以虚拟的方式运行在通用服务器上，通过共享计算、存储和网络资源，实现对网络功能的集中管理和动态部署。nfv技术的核心是将网络功能虚拟化为虚拟网络功能(virtualizednetwork function，vnf)，是一种以软件形式实现的网络功能，可以在虚拟化平台上部署和管理。通过将网络功能虚拟化，可以实现网络功能的弹性伸缩、快速部署和灵活调整，提高了网络的灵活性和可扩展性。

3、然而，虽然nfv技术带来了许多优势，但也面临着一些挑战。其中之一是如何有效地分配和管理vnf所需的计算、存储和网络资源。由于不同的vnf对资源的需求不同，且网络流量负载和服务质量需求也会随时间变化，因此需要一种动态资源分配方法来满足vnf的需求，并根据实际情况进行资源的动态调整。此外，还需要考虑资源利用率、性能指标等因素，以实现网络功能的高效运行。

4、随着网络功能虚拟化(nfv)的发展，服务功能链(service function chaining，sfc)成为了一种重要的网络架构概念。sfc是指将多个网络功能(vnf)按照特定的顺序连接起来，以满足特定的网络服务需求。通过将不同的vnf按照服务链的顺序串联起来，可以实现复杂的网络服务功能，如流量过滤、安全检查、负载均衡等。但是，现在已有的研究多集中在串行化部署方面，而串行化部署不能充分利用硬件资源，且部署速度不够快。

技术实现思路

1、本专利技术的目的是针对现有技术的不足，提供一种基于强化学习的服务功能链并行化部署方法及系统。与其他串行化部署方法不同，本专利技术方法能够进行并行化部署，从而充分利用硬件资源，加快部署速度。

2、为了实现上述目的，本专利技术所采用的技术方案是：

3、本专利技术第一方面提供一种基于强化学习的服务功能链并行化部署方法，包括：

4、(1)对物理网络进行建模；

5、将物理网络表示为无向带权图g＝(v，e)，其中，v是可部署vnf并进行流量转发的物理服务器集合，e是连接这些服务器的物理链路集合；u，v∈v代表两个物理服务器，uv∈e代表连接这两个服务器的物理链路；每个物理服务器u，有cpu最大容量和内存最大容量两种可分配的资源；

6、(2)对sfc请求建模；

7、用f表示vnf类型的集合，将sfc请求用四元组表示为ri＝{si，di，fi，ψi}，其中，si，di分别表示请求i的源节点和目标节点，fi∈f表示请求i需要的vnf的集合，ψi是请求i能够接受的最大时延；表示为了满足时延要求需要为请求分配的最小带宽；

8、有向带权图gi＝(vi，ei)表示一个sfc请求，其中，vi＝{si∪di∪fi}，ei表示节点和之间的虚拟链路；每种f∈fi有不同的资源需求，用分别表示节点对应的vnffi需要的cpu和内存数；

9、(3)对部署过程建模；

10、将部署过程视为一种映射关系，即gi＝(vi，ei)→g＝(v，e)；

11、将映射过程定义为一系列搜索和选择操作的集合，其中，是将节点χk(χ1＝s)作为起点为fk选择候选的服务器节点集合，ak表示从从候选集合中选择一个服务器，pk确定将上一步选择的服务器作为部署节点(χk+1＝ak；k＝k+1)还是转发节点(χk＝ak)，s表示源节点，d表示目的节点；

12、(4)mdp建模；

13、将服务功能链并行化部署问题建模为一个mdp五元组<s，a，r，p，γ>；

14、其中，状态s是环境的观测值，包括的属性有网络中各节点的资源分布情况、链路带宽的分布情况；动作空间a是代理可以采取的行为，包括网络中的所有节点；奖励r是在状态转移和行动之后代理收到的奖励信号，部署成功返回正奖励，部署失败返回负奖励；转移概率p描述了在某一状态下，采取某一动作后会转移到哪些状态；折扣因子γ用于平衡当前奖励和未来奖励的重要性；

15、(5)动态副本生成；

16、每次请求到达时按照当前网络的状态生成一个状态副本，在后续对该请求的处理和状态转移都是基于该副本进行操作，当请求处理完成后将处理这次请求需要的资源数量同步到源网络；其中，同步到源网络过程和生成状态副本采用并发控制；

17、(6)进行动态预测；

18、若两个请求r1和r2在同一个极小时间窗口δ内依次到达，在处理r2请求时将r1请求也作为底层网络状态的一部分，使r2能够感知并预测到r1请求的处理结果；

19、(7)提取物理网络的关系特征，并输入actor网络和critic网络进行特征学习，获得发生概率最大的策略动作作用于网络环境；

20、采用卷积神经网络gcn对物理网络进行特征提取，以得到每个节点之间更深层次的关系特征；

21、在每个step，将当前的网络状态送入gcn，得到特征矩阵其中，lgcn是gcn提取的特征向量的维度；gcn提取特征的过程为：

22、其中，是一个可训练的参数矩阵，是gcn通过卷积提取特征的过程，通过增加一个单位矩阵λ实现自连接；

23、对于网络状态通过gcn进行特征提取，得到特征矩阵；

24、通过gcn提取物理网络g和时间窗口δ内多个sfc请求rδ的特征，得到特征矩阵和将两个特征矩阵和分别进行拼接操作得到两个特征向量，最后将三个向量进行组合得到整体状态si的特征向量

25、完成特征的提取和转换之后，将特征向量分别送入actor网络和critic网络；

26、在actor网络中，首先经过两个全连接层进一步对特征进行提取，并将结果转换为同动作空间相同的维度，随后经过mask层屏蔽掉无效动作，最后通过softmax层将结果转换为(0,1)之间的概率分布，通过对该分布进行抽样得到动作at，并计算出该动作的logprob值，最后得到策略π＝(st，at)；

27、在critic网络中，特征向量经过两个全连接层，最后转变成单个q-value。

28、基于上述，指定的时间窗口δ按照流量大小扩展或缩小。

29、基于上述，动态副本生成过程中的并发控制的并行度为8。

30、基于上述，通过gcn提取物理网络g和时间窗口δ内多个sfc请求rδ的特征时本文档来自技高网...

【技术保护点】

1.一种基于强化学习的服务功能链并行化部署方法，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的服务功能链并行化部署方法，其特征在于：指定的时间窗口δ按照流量大小扩展或缩小。

3.根据权利要求1所述的基于强化学习的服务功能链并行化部署方法，其特征在于：动态副本生成过程中的并发控制的并行度为8。

4.根据权利要求1所述的基于强化学习的服务功能链并行化部署方法，其特征在于：通过GCN提取物理网络G和时间窗口δ内多个SFC请求Rδ的特征时，还需要将相同时间窗口内的其他请求的特征作为当前特征的一部分，综合得出当前请求的特征；

5.根据权利要求1所述的基于强化学习的服务功能链并行化部署方法，其特征在于：当生成部署方案后，在应用该方案时，有物理节点资源不足导致该请求部署失败后，在一定时间内将该节点标记为“脏节点”，之后DRL模型会忽略掉该节点，并重新部署当前请求。

6.根据权利要求1所述的基于强化学习的服务功能链并行化部署方法，其特征在于：分3个step进行特征学习，在step1中关注部署方案的接收率；step2在step

7.一种基于强化学习的服务功能链并行化部署系统，其特征在于，用于实现权利要求1-6中任一项所述的基于强化学习的服务功能链并行化部署方法；

8.一种基于强化学习的服务功能链并行化部署装置，其特征在于，包括：

9.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-6中任一项所述的基于强化学习的服务功能链并行化部署方法。

...

【技术特征摘要】

1.一种基于强化学习的服务功能链并行化部署方法，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的服务功能链并行化部署方法，其特征在于：指定的时间窗口δ按照流量大小扩展或缩小。

3.根据权利要求1所述的基于强化学习的服务功能链并行化部署方法，其特征在于：动态副本生成过程中的并发控制的并行度为8。

4.根据权利要求1所述的基于强化学习的服务功能链并行化部署方法，其特征在于：通过gcn提取物理网络g和时间窗口δ内多个sfc请求rδ的特征时，还需要将相同时间窗口内的其他请求的特征作为当前特征的一部分，综合得出当前请求的特征；

5.根据权利要求1所述的基于强化学习的服务功能链并行化部署方法，其特征在于：当生成部署方案后，在应用该方案时，有物理节点资源不足导致该请求部署失败后，在一定时间内将该节点标记为“脏...

【专利技术属性】
技术研发人员：彭茹梦，和孟佯，宋玉，张坤丽，庄雷，魏梦珂，
申请(专利权)人：嵩山实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人