一种基于智能体强化学习的分布式控制平面负载均衡方法技术

技术编号：37968036 阅读：8 留言：0更新日期：2023-06-30 09:43

本发明专利技术公开了一种基于智能体强化学习的分布式控制平面负载均衡方法，步骤：为每个交换机配备智能体；构建智能体的深度强化学习神经网络；训练深度强化学习神经网络模型；通过智能体分别将当前的本地状态信息输入各自训练好的模型中，各个智能体将分别输出一组动作的价值，选择拥有最高值的可用控制器，并将后续的请求发送给所选择的控制器。本发明专利技术通过在所有交换机上配备智能体，实现了所有控制器之间基于交换机的负载平衡，这种模式下不再需要判断每个控制器是否过载而消耗额外带宽来进行控制器和交换机之间的频繁协商，每个交换机可快速准确地选择合适的控制器。本发明专利技术在不同场景下将控制器之间最大响应延迟平均降低了5％～15％。5％～15％。5％～15％。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于智能体强化学习的分布式控制平面负载均衡方法

[0001]本专利技术属于负载均衡
，特别涉及一种基于智能体强化学习的分布式控制平面负载均衡方法。

技术介绍

[0002]在软件定义网络中，所有的控制逻辑都放在控制器上，控制器通常是一个功能强大的服务器。数据平面和控制平面是分开的，但控制平面可以通过资源稀有的控制通道控制数据平面。数据平面中的交换机只关注根据流表转发数据包，流表由控制器通过南向接口(例如OpenFlow)配备。有时，到达交换机的新数据包无法匹配流表中的规则，这意味着它不能直接被交换机转发。在这种情况下，交换机将向控制器发送PACKET_IN消息，请求下载正确的流表，控制器通过资源稀有的控制通道回复FLOW_MOD消息。交换机和控制器之间的查询机制给网络管理带来了高度的灵活性。然而，将所有控制逻辑聚合到一个中央控制器面临着单点故障和可扩展性的挑战。实际上，为了解决上述挑战，控制平面通常由多个控制器组成，即功能强大的服务器，每个控制器收集并维护局部网络的最新状态。这些控制器通过东西向接口定期同步必要的消息，以保持整个网络的一致视图。在这种多控制器的情况下，当交换机收到新流的数据包时，它必须决定应该将对转发数据包的规则的请求发送到哪个控制器。最初，为了避免某些控制器过载，运营商会主动将控制器手动分配给某些交换机。通常，这种方法从两个角度来决定分配方案。一种观点是为每个控制器分配相同数量的交换机。另一种观点是根据历史流量信息，为每个控制器分配不同数量的交换机，但每个控制器上长期的请求负载几乎相同。但是...

【技术保护点】

【技术特征摘要】
1.一种基于智能体强化学习的分布式控制平面负载均衡方法，其特征在于，包括以下步骤：S1、为每个交换机配备智能体，S2、构建智能体的深度强化学习神经网络；S3、对每个智能体的深度强化学习神经网络模型进行训练；S4、通过智能体分别将当前的本地状态信息输入各自训练好的神经网络模型中，各个智能体将分别输出一组动作的价值，选择拥有最高值的可用控制器，并将后续的请求发送给所选择的控制器。2.根据权利要求1所述的基于智能体强化学习的分布式控制平面负载均衡方法，其特征在于，所述深度强化学习神经网络模型中，使用了深度强化学习框架，由状态表示、动作表示、奖励表示和策略表示四部分组成：状态表示：为深度强化学习网络模型输入的状态，采用一个三元组(π
i
,ν
i
,ω
i
)表示，包括最近一个时间片t
i
内的平均发送速率ν
i
，控制器对于交换机请求的平均回复延迟ω
i
以及最近一个时间片t
i
内交换机映射的控制器π
i
；动作表示：输出的动作向量的每一个值代表了在输入状态下选择某一个控制器的评分，并选择得分最高值的控制器作为下一个t
i+1
时间片内交换机预期映射的控制器；奖励表示：使用最近一个时间片t
i
内整个控制平面的平均回复延迟与当前映射控制器的回复延迟的差值，作为最近一个时间片t
i
内选择当前映射控制器这个动作的奖励；策略表示：深度强化学习神经网络的输出实则为两个部分，分别是优势函数A和状态函数S，将二者相加再减去A各项之和的均值，即A+S
‑
mean(A)，得到每一个动作的价值。3.根据权利要求1所述的基于智能体强化学习的分布式控制平面负载均衡方法，其特征在于，所述深度强化学习神经网络模型在训练过程中使用了两个网络，分别是主网络和目标网络，开始时随机初始化主网络的参数，并且复制给目标网络...

【专利技术属性】
技术研发人员：周钰雯，周晓波，何瑞，陈胜，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人