一种在软件定义网络中实现控制器负载均衡的方法技术

技术编号：24692336 阅读：37 留言：0更新日期：2020-06-27 11:19

本发明专利技术提出了一种在软件定义网络中实现控制器负载均衡的方法，采用多智能体强化学习的动态控制器工作负载平衡方案，能够实现在控制器中的智能体可以生成针对交换机迁移问题的控制策略。将多智能体强化学习的分布式处理特性应用在动态控制器工作负载均衡中，每个控制器就是一个智能体，采用交换机迁移策略迁移交换机，得到的控制器负载均衡分配结果。由于交换机迁移策略是通过符合网络情况的模型产生的，最大可能的保证了该控制器负载分配结果是均衡的。其中，符合网络情况的模型通过离线学习的方式获得，获得交换机迁移策略时可以直接采用离线学习的获得模型，减少了运算时间，提高了效率。

A method of load balancing in software defined network

全部详细技术资料下载

【技术实现步骤摘要】
一种在软件定义网络中实现控制器负载均衡的方法
本专利技术属于计算机网络
，具体涉及一种在软件定义网络中实现控制器负载均衡的方法。
技术介绍
软件定义网络(Software-DefinedNetworking，SDN)由于其强大的可编程性和对网络管理的灵活性，引起了学术界和工业界的广泛关注。SDN将控制平面与数据平面分离，因此网络运营商可以通过具有全局网络视图的逻辑集中控制器来方便地监视和操作网络。控制平面在SDN中起着举足轻重的作用。为了解决单个控制器有限的处理能力和单节点的故障，大规模SDN提出使用分布式控制器实现其控制平面。在多控制器控制平面中，一个SDN分为多个域，每个域中有一定数量的交换机并由一个控制器控制，每个控制器管理与其他控制器同步来维持一致的网络视图。称此为多域多控制器SDN。来自交换机的流量请求可能由于用户行为的不可预测性发生不断变化。因此，静态交换机-控制器的关系可能会无法适应动态的流量变化。当前的主流方法是将该问题建模为交换机迁移问题(SwitchMigrationProblem，SMP)。交换机迁移问题通常被视为典型的最优化问题，并且交换机迁移问题的复杂性问题被证明是一个NP难问题。在网络规模扩大的情况下，求解交换机迁移问题最优解需要花费很长时间，在流量动态波动的环境下，基于最优解的算法实用性并不高。为了高效的解决这个问题，Dixit等人首先提出了一种名为ElastiCon的弹性分布式控制器架构，旨在通过动态调整交换机和控制器之间的映射关系来平衡控制器的流量请求。此外，O...

【技术保护点】
1.一种在软件定义网络中实现控制器负载均衡的方法，其特征在于，将由控制器组成的分布式控制平面建模为多智能体系统，每个控制器具有一个强化学习代理，所述强化学习代理采用多智能体强化学习方法来生成交换机迁移操作，包括离线学习和在线决策两个阶段；/n其中，离线学习阶段通过对每个控制器上的深度强化学习代理进行训练，得到训练后的深度强化学习代理；在线决策阶段，利用训练后的深度强化学习代理，结合网络状态，产生交换机迁移策略，根据策略来迁移交换机，实现控制器负载均衡分配。/n

【技术特征摘要】
1.一种在软件定义网络中实现控制器负载均衡的方法，其特征在于，将由控制器组成的分布式控制平面建模为多智能体系统，每个控制器具有一个强化学习代理，所述强化学习代理采用多智能体强化学习方法来生成交换机迁移操作，包括离线学习和在线决策两个阶段；
其中，离线学习阶段通过对每个控制器上的深度强化学习代理进行训练，得到训练后的深度强化学习代理；在线决策阶段，利用训练后的深度强化学习代理，结合网络状态，产生交换机迁移策略，根据策略来迁移交换机，实现控制器负载均衡分配。

2.如权利要求1所述的在软件定义网络中实现控制器负载均衡的方法，其特征在于，所述离线学习阶段包括如下步骤：
步骤1，初始化：每个控制器运行一个深度强化学习代理；获得正在使用控制器集合C＝{c1,c2,…,cj,…,cN}；设定整个训练过程的迭代总次数T；
步骤2，在每个控制器中计算集合中所有控制器的资源使用率U＝{U1,U2,…,Uj,…,UN}，对于第j个控制器的资源使用率：

其中，wj代表交换机sj所产生的进程请求数量，代表控制器cj所管理的交换机集合，xj、yj、zj分别代表交换机sj请求的控制器的带宽、CPU和存储资源占用量；
步骤3，将资源利用率最大的控制器作为主控制器cmaster；
步骤4，主控制器cmaster按照概率选一个控制器作为执行控制器cactor并通知，其中对于控制器ci，被选为执行控制器的概率为
步骤5，执行控制器cactor将网络状态输入到该控制器的深度强化学习代理中，得到交换机迁移策略，并将该策略广播给其余N-1个控制器；
每个控制器利用交换机迁移策略更新其带宽、CPU和存储资源占用量信息；
执行控制器cactor交换机迁移策略计算对应的奖励：reward＝(Ui-Uj)2-(U'i-U'j)2-μ，利用奖励更新其深度强化学习代理；
步骤6，判断是否为第T次迭代，若是则训练结束，获得所有控制器当前的深度强化学习代理，完成离线学习；否则迭代次数加1，...

【专利技术属性】
技术研发人员：郭泽华，孙鹏浩，窦松石，夏元清，吉鸿海，
申请(专利权)人：北京理工大学，北方工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人