一种基于增强学习的SDN数据中心拥塞控制方法技术

技术编号：17784002 阅读：31 留言：0更新日期：2018-04-22 15:18

本发明专利技术公开了一种基于增强学习的SDN数据中心拥塞控制方法。本发明专利技术方法基于SDN的网络背景，提出基于流的拥塞控制思想，引入增强学习中的Q‑learning算法，智能地全局分配流的速率，使网络的数据链路利用率尽可能高，同时又使整个网络避免拥塞，从而实现数据中心的拥塞控制。首先建模一个五元组对问题进行描述；然后提出改进的Q‑learning算法，对Q矩阵进行训练；最后根据流的请求，利用训练得到的Q矩阵，进行拥塞控制。本发明专利技术提供了一种控制效果较好，控制算法易实现，稳定性良好以及高效的自适应的SDN数据中心拥塞控制方法。本发明专利技术为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于增强学习的SDN数据中心拥塞控制方法
本专利技术涉及网络通信
，具体涉及一种基于增强学习的SDN(SoftwareDefinedNetwork,软件定义网络)数据中心网络(DataCenterNetwork,DCN)的拥塞控制方法。
技术介绍
近几年，云计算已经成为信息化建设领域的热点和未来趋势，许多新的互联网在线业务(如搜索、社交网络、即时通信等)的用户量也在迅速增长。在云计算和互联网在线业务的快速发展过程中，作为信息化基础设施的数据中心一直处于核心地位。随着业务的发展和新技术的使用，数据中心正在发生和形成重大的变化及趋势，由此给数据中心网络带来了新的挑战和问题。新兴的业务需要服务器之间进行大量的一对多和多对多的通信，其结果是数据中心的内部流量急剧增长并呈现出不同于互联网流量的新特性。在当前技术条件下，数据中心网络会频繁发生拥塞，导致丢包增多、时延增大和吞吐量下降，严重影响业务的性能和服务质量。为保证业务的性能及服务质量，数据中心网络的流量管理和优化问题己成为当前亟待解决的重要问题。增强学习(ReinforcementLearning)是从动物学习、随机逼近和优化控制等理论发展而来，是一种无导师在线学习技术。它通过学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)最佳。Q-learning算法是一种与模型无关的增强学习算法，其在迭代时采用“状态—动作”对的奖赏折扣和Q值作为估计函数，在每一次学习迭代时都需要考察每一个行为，并且可确保学习过程收敛。Q-lea...
一种基于增强学习的SDN数据中心拥塞控制方法

【技术保护点】
一种基于增强学习的SDN数据中心拥塞控制方法，其特征在于，包含如下步骤：步骤1：将增强学习方法引入基于软件定义网络的数据中心，将基于SDN的数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>；其中F表示待分配的流,其队列长度为N；S表示整个链路的状态，是长度为M的矢量；R表示选择action后获得奖励值的一个矩阵；A表示根据链路需求为flow分配速率的行为，是长度为N的矢量；Q表示经过训练得到的Q矩阵，用来表示智能体已经从经验中学到的知识；步骤2：基于改进的Q‑learning算法，对Q矩阵进行训练；具体包含如下步骤：2‑1.按照先验知识，给定奖励矩阵R，并将Q矩阵初始；2‑2.改进增强学习中的Q‑learning算法中选取action的方法，使算法结合当前状态以及当前flow所经过的路径两个条件，在R矩阵中选择最大奖励对应的action；2‑3.执行action，观察reward和新的链路状态，根据

【技术特征摘要】
1.一种基于增强学习的SDN数据中心拥塞控制方法，其特征在于，包含如下步骤：步骤1：将增强学习方法引入基于软件定义网络的数据中心，将基于SDN的数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>；其中F表示待分配的流,其队列长度为N；S表示整个链路的状态，是长度为M的矢量；R表示选择action后获得奖励值的一个矩阵；A表示根据链路需求为flow分配速率的行为，是长度为N的矢量；Q表示经过训练得到的Q矩阵，用来表示智能体已经从经验中学到的知识；步骤2：基于改进的Q-learning算法，对Q矩阵进行训练；具体包含如下步骤：2-1.按照先验知识，给定奖励矩阵R，并将Q矩阵初始；2-2.改进增强学习中的Q-learning算法中选取action的方法，使算法结合当前状态以及当前flow所经过的路径两个条件，在R矩阵中选择最大奖励对应的action；2-3.执行action，观察reward和新的链路状态，根据迭代更新Q值Q(S,a)；其中，Q(S,a)表示在当前状态S下执行动作a后的Q值，Q(S',a')表示下一状态S'下执行动作a'后的Q值，r是当前状态S下执行动作a后的奖励，γ为折扣因子，α为学习效率，是后续状态的折扣奖...

【专利技术属性】
技术研发人员：金蓉，王伟明，李姣姣，庹鑫，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人