当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于智能体强化学习的分布式控制平面负载均衡方法技术

技术编号:37968036 阅读:8 留言:0更新日期:2023-06-30 09:43
本发明专利技术公开了一种基于智能体强化学习的分布式控制平面负载均衡方法,步骤:为每个交换机配备智能体;构建智能体的深度强化学习神经网络;训练深度强化学习神经网络模型;通过智能体分别将当前的本地状态信息输入各自训练好的模型中,各个智能体将分别输出一组动作的价值,选择拥有最高值的可用控制器,并将后续的请求发送给所选择的控制器。本发明专利技术通过在所有交换机上配备智能体,实现了所有控制器之间基于交换机的负载平衡,这种模式下不再需要判断每个控制器是否过载而消耗额外带宽来进行控制器和交换机之间的频繁协商,每个交换机可快速准确地选择合适的控制器。本发明专利技术在不同场景下将控制器之间最大响应延迟平均降低了5%~15%。5%~15%。5%~15%。

【技术实现步骤摘要】
一种基于智能体强化学习的分布式控制平面负载均衡方法


[0001]本专利技术属于负载均衡
,特别涉及一种基于智能体强化学习的分布式控制平面负载均衡方法。

技术介绍

[0002]在软件定义网络中,所有的控制逻辑都放在控制器上,控制器通常是一个功能强大的服务器。数据平面和控制平面是分开的,但控制平面可以通过资源稀有的控制通道控制数据平面。数据平面中的交换机只关注根据流表转发数据包,流表由控制器通过南向接口(例如OpenFlow)配备。有时,到达交换机的新数据包无法匹配流表中的规则,这意味着它不能直接被交换机转发。在这种情况下,交换机将向控制器发送PACKET_IN消息,请求下载正确的流表,控制器通过资源稀有的控制通道回复FLOW_MOD消息。交换机和控制器之间的查询机制给网络管理带来了高度的灵活性。然而,将所有控制逻辑聚合到一个中央控制器面临着单点故障和可扩展性的挑战。实际上,为了解决上述挑战,控制平面通常由多个控制器组成,即功能强大的服务器,每个控制器收集并维护局部网络的最新状态。这些控制器通过东西向接口定期同步必要的消息,以保持整个网络的一致视图。在这种多控制器的情况下,当交换机收到新流的数据包时,它必须决定应该将对转发数据包的规则的请求发送到哪个控制器。最初,为了避免某些控制器过载,运营商会主动将控制器手动分配给某些交换机。通常,这种方法从两个角度来决定分配方案。一种观点是为每个控制器分配相同数量的交换机。另一种观点是根据历史流量信息,为每个控制器分配不同数量的交换机,但每个控制器上长期的请求负载几乎相同。但是,上述静态人工方案无法适应流量分发的动态性和突发性。
[0003]为了解决实时流调度中的这种不平衡问题,研究人员提出了许多基于控制器的流迁移机制。也就是说,过载的控制器将引导交换机将请求发送给其他未过载的控制器。例如现有技术中公开了从OpenFlow v1.3到v1.5,协议为每个控制器提供了三种可能的角色:master、slave和equal,还公开了一种交换机迁移协议,可以跨控制器转移负载。在此过程中,涉及的两个控制器需要交换一些消息来完成它们的角色切换。这种由控制器驱动的迁移被广泛接受,称之为基于控制器的模式。与之相反,让交换机发挥主导作用则称为基于交换机的模式。其中,对于基于控制器的方法,控制器必须决定何时以及将哪个交换机重新分配给新控制器,以根据角色迁移协议在控制平面上实现负载平衡。为了做出正确的决定,这种基于控制器的模式涉及两种主要的方法:一种是规定相对静态的规则和合适的触发器(例如,过载的阈值);另一种则是基于强化学习方法。其中,对于基于规则的方法,是当控制器的工作负载超过预定阈值时,由它管理的一些交换机会将它们的请求转移到其他未充分利用的控制器。为了避免制定难以很好地适应动态网络的预定规则,还有一些研究采用了强化学习方法,强化学习是智能体在与环境交互的过程中,通过环境对于不同状态下不同动作的奖励反馈进行学习的一种机器学习的方法,最终智能体可以在任何状态下进行适当动作。控制器上的强化学习智能体能够利用全局信息规划交换机迁移。通过调整交换机发
送请求的控制器对象,可以实现分布式控制平面的负载均衡。可现有的由控制器主导的方法,每一次进行交换机的迁移都需要控制器之间的协商以及控制器与交换机之间的信息交换,这会消耗大量的计算资源以及珍贵的控制通道资源。
[0004]鉴于此,本专利技术以基于交换机的模式选择控制器,且诉诸强化学习的智能方法,使位于交换机上的智能体在经过训练后拥有仅根据本地的当前的本地状态信息便能够选择合适的控制器的能力。

技术实现思路

[0005]针对上述现有技术存在的问题,本专利技术的目的在于提供了一种基于智能体强化学习的分布式控制平面负载均衡方法,以解决现有的由控制器主导的方法,每一次进行交换机的迁移都需要控制器之间的协商以及控制器与交换机之间的信息交换,这会消耗大量的计算资源以及珍贵的控制通道资源的技术缺陷。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:
[0007]一种基于智能体强化学习的分布式控制平面负载均衡方法,包括以下步骤:
[0008]S1、为每个交换机配备智能体;
[0009]S2、构建智能体的深度强化学习神经网络;
[0010]S3、对每个智能体的深度强化学习神经网络模型进行训练;
[0011]S4、通过智能体分别将当前的本地状态信息输入各自训练好的模型中,各个智能体将分别输出一组动作的价值,选择拥有最高值的可用控制器,并将后续的请求发送给所选择的控制器。
[0012]优选地,所述深度强化学习神经网络模型中,使用了深度强化学习框架,由状态表示、动作表示、奖励表示和策略表示四部分组成:
[0013]状态表示:为深度强化学习网络模型输入的状态,采用一个三元组(π
i

i

i
)表示,包括最近一个时间片t
i
内的平均发送速率ν
i
,控制器对于交换机请求的平均回复延迟ω
i
以及最近一个时间片t
i
内交换机映射的控制器π
i

[0014]动作表示:输出的动作向量的每一个值代表了在输入状态下选择某一个控制器的评分,并选择得分最高值的控制器作为下一个t
i+1
时间片内交换机预期映射的控制器;
[0015]奖励表示:使用最近一个时间片t
i
内整个控制平面的平均回复延迟与当前映射控制器的回复延迟的差值,作为最近一个时间片t
i
内选择当前映射控制器这个动作的奖励;
[0016]策略表示:深度强化学习神经网络的输出实则为两个部分,分别是优势函数A和状态函数S,将二者相加再减去A各项之和的均值,即A+S

mean(A),得到每一个动作的价值。
[0017]优选地,所述深度强化学习神经网络模型在训练过程中使用了两个网络,分别是主网络和目标网络,开始时随机初始化主网络的参数,并且复制给目标网络,即主网络和目标网络两个网络的参数相同,目标网络每隔一定的轮数就会复制主网络的参数;对每个智能体的深度强化学习神经网络模型进行训练,具体步骤为:
[0018]A1、训练开始后,智能体从当前环境中抽取所需要的状态信息s,输入神经网络,得到反映动作价值的n维向量,向量中第p个值代表在时间片t
i+1
选择第p个控制器的价值;
[0019]A2、采用epsilon探索

开发的策略,以1

epsilon的概率采取拥有最高值的动作a=argmaxaQ(s,a),而以epsilon的概率从n个动作中随机采用,其中,Q(s,a)代表对状态s下
采用动作a能创造的累积价值,在执行动作a以后,环境进入下一个状态s',并且反馈给智能体动作a相应的奖励r,智能体利用r来更新Q值;
[0020]A3、交换机经过与环境的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于智能体强化学习的分布式控制平面负载均衡方法,其特征在于,包括以下步骤:S1、为每个交换机配备智能体,S2、构建智能体的深度强化学习神经网络;S3、对每个智能体的深度强化学习神经网络模型进行训练;S4、通过智能体分别将当前的本地状态信息输入各自训练好的神经网络模型中,各个智能体将分别输出一组动作的价值,选择拥有最高值的可用控制器,并将后续的请求发送给所选择的控制器。2.根据权利要求1所述的基于智能体强化学习的分布式控制平面负载均衡方法,其特征在于,所述深度强化学习神经网络模型中,使用了深度强化学习框架,由状态表示、动作表示、奖励表示和策略表示四部分组成:状态表示:为深度强化学习网络模型输入的状态,采用一个三元组(π
i

i

i
)表示,包括最近一个时间片t
i
内的平均发送速率ν
i
,控制器对于交换机请求的平均回复延迟ω
i
以及最近一个时间片t
i
内交换机映射的控制器π
i
;动作表示:输出的动作向量的每一个值代表了在输入状态下选择某一个控制器的评分,并选择得分最高值的控制器作为下一个t
i+1
时间片内交换机预期映射的控制器;奖励表示:使用最近一个时间片t
i
内整个控制平面的平均回复延迟与当前映射控制器的回复延迟的差值,作为最近一个时间片t
i
内选择当前映射控制器这个动作的奖励;策略表示:深度强化学习神经网络的输出实则为两个部分,分别是优势函数A和状态函数S,将二者相加再减去A各项之和的均值,即A+S

mean(A),得到每一个动作的价值。3.根据权利要求1所述的基于智能体强化学习的分布式控制平面负载均衡方法,其特征在于,所述深度强化学习神经网络模型在训练过程中使用了两个网络,分别是主网络和目标网络,开始时随机初始化主网络的参数,并且复制给目标网络...

【专利技术属性】
技术研发人员:周钰雯周晓波何瑞陈胜
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1