一种基于增强学习的SDN数据中心拥塞控制方法技术

技术编号:17784002 阅读:31 留言:0更新日期:2018-04-22 15:18
本发明专利技术公开了一种基于增强学习的SDN数据中心拥塞控制方法。本发明专利技术方法基于SDN的网络背景,提出基于流的拥塞控制思想,引入增强学习中的Q‑learning算法,智能地全局分配流的速率,使网络的数据链路利用率尽可能高,同时又使整个网络避免拥塞,从而实现数据中心的拥塞控制。首先建模一个五元组对问题进行描述;然后提出改进的Q‑learning算法,对Q矩阵进行训练;最后根据流的请求,利用训练得到的Q矩阵,进行拥塞控制。本发明专利技术提供了一种控制效果较好,控制算法易实现,稳定性良好以及高效的自适应的SDN数据中心拥塞控制方法。本发明专利技术为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法。

【技术实现步骤摘要】
一种基于增强学习的SDN数据中心拥塞控制方法
本专利技术涉及网络通信
,具体涉及一种基于增强学习的SDN(SoftwareDefinedNetwork,软件定义网络)数据中心网络(DataCenterNetwork,DCN)的拥塞控制方法。
技术介绍
近几年,云计算已经成为信息化建设领域的热点和未来趋势,许多新的互联网在线业务(如搜索、社交网络、即时通信等)的用户量也在迅速增长。在云计算和互联网在线业务的快速发展过程中,作为信息化基础设施的数据中心一直处于核心地位。随着业务的发展和新技术的使用,数据中心正在发生和形成重大的变化及趋势,由此给数据中心网络带来了新的挑战和问题。新兴的业务需要服务器之间进行大量的一对多和多对多的通信,其结果是数据中心的内部流量急剧增长并呈现出不同于互联网流量的新特性。在当前技术条件下,数据中心网络会频繁发生拥塞,导致丢包增多、时延增大和吞吐量下降,严重影响业务的性能和服务质量。为保证业务的性能及服务质量,数据中心网络的流量管理和优化问题己成为当前亟待解决的重要问题。增强学习(ReinforcementLearning)是从动物学习、随机逼近和优化控制等理论发展而来,是一种无导师在线学习技术。它通过学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)最佳。Q-learning算法是一种与模型无关的增强学习算法,其在迭代时采用“状态—动作”对的奖赏折扣和Q值作为估计函数,在每一次学习迭代时都需要考察每一个行为,并且可确保学习过程收敛。Q-learning算法由于不需要先验知识即可学习,对于求解复杂的优化决策问题具有广泛的应用前景。本专利技术提出了一种基于增强学习的SDN数据中心拥塞控制方法。本专利技术方法基于SDN的网络背景,提出基于流(flow)的拥塞控制思想,引入增强学习中的Q-learning算法,智能地全局分配流的速率,使网络的数据链路利用率尽可能高,同时又使整个网络避免拥塞,从而实现数据中心的拥塞控制。本专利技术为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法,能优化数据中心网络资源的使用,提高网络的吞吐量、业务的性能及服务质量,从而保证互联网新兴业务与云计算的健康发展,还可以促进数据中心节能化,为实现绿色通信做贡献。
技术实现思路
本专利技术的目的是解决基于SDN架构的数据中心网络的拥塞控制问题,提出了一种基于增强学习的SDN数据中心网络的拥塞控制方法。本专利技术的目的是通过以下技术方案来实现的:一种基于增强学习的SDN数据中心拥塞控制方法,该方法具体包括以下步骤:步骤1:将增强学习引入基于SDN的数据中心,解决拥塞控制问题。首先将基于SDN的数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>。所述的增强学习是一种无导师在线学习技术,智能体(agent)感知环境中的状态信息,选择最优的动作,从而引起状态的改变并得到一个回报值,更新评估函数,完成一次学习过程后,进入下一轮的学习训练,重复循环迭代,直到满足整个学习的条件,终止学习。基于SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题,即对所有的flow统筹分配速率,既尽力满足flow的速率请求,又保证整个数据中心网络不产生拥塞。所述的五元组描述为<F,S,R,A,Q>。F(flow)表示待分配的流,其队列长度为N;S(linkstate)表示整个链路的状态,是长度为M的矢量;R(reward)表示选择action后获得奖励值的一个矩阵。A(action)表示根据链路需求为flow分配速率的行为,是长度为N的矢量;Q(Q-matrix)表示经过训练得到的Q矩阵,用来表示agent已经从经验中学到的知识。步骤2:根据问题需求,提出改进的Q-learning算法,对Q矩阵进行训练。所述的Q-learning算法,是增强学习算法中的经典算法之一。每一个状态行为对都对应了一个相关Q值,根据算法中的Q值来选取执行行为,通过对状态行为对的值函数进行估计以得到最优策略。基于改进的Q-learning算法,对Q矩阵进行训练具体包含如下步骤:2-1.按照一定的先验知识,给定奖励矩阵R。并将Q矩阵初始化。2-2.改进增强学习中的Q-learning算法中选取action的方法。经典的Q-learning算法根据当前状态,在R矩阵中选择最大奖励对应的action。改进的Q-learning算法结合当前状态,以及当前flow所经过的路径两个条件,在R矩阵中选择最大奖励对应的action。2-3.执行action,观察reward和新的链路状态,根据迭代更新Q值Q(S,a)。所述的更新公式,是Q-learning算法更新迭代Q值的公式。其中,Q(S,a)表示在当前状态S下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率,是后续状态的折扣奖励,构成了后续状态奖励的改善估计。2-4.如此循环执行Q矩阵训练过程,直到s为最终状态,得到训练后的Q矩阵。步骤3:根据具体的flow请求,结合上述步骤2得到的经过训练得到的Q矩阵,进行拥塞控制。具体的拥塞控制方法包含如下步骤:3-1.明确具体的N条flow请求,确定链路的已占用带宽的量化标准。3-2.输入flow请求,获取当前的链路状态,考虑当前flow经过的链路,根据Q算法训练得到的Q矩阵,选择具有最大reward的action执行,即为当前flow选择速率。然后更新当前的链路状态,同时记录给当前的flow分配的rate。3-3.判断N条flow是否全部分配完毕。如若没有,则需要返回到步骤3-2继续循环,直到为所有的flow分配速率。3-4.输出N条flow与rate的映射表,以此对数据中心进行全局的拥塞控制。本专利技术的有益效果是:本专利技术为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法,能优化数据中心网络资源的使用,提高网络的吞吐量、业务的性能及服务质量,从而保证互联网新兴业务与云计算的健康发展,还可以促进数据中心节能化,为实现绿色通信做贡献。附图说明图1为系统体系结构图。图2为实施例采用的数据中心网络拓扑图。图3为训练算法流程图。图4为拥塞控制方法流程图。图5为实施例中各链路的带宽变化图。图6为实施例中流的速率分配图。具体实施方式下面结合附图和实施例对本专利技术作进一步的说明。本专利技术提供了一种基于增强学习的SDN数据中心拥塞控制方法,该方法包括如下步骤:步骤1:将增强学习引入基于SDN的数据中心,解决拥塞控制问题。首先将该数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>。增强学习是一种无导师在线学习技术,智能体(agent)感知环境中的状态信息,选择最优的动作,从而引起状态的改变并得到一个回报值,更新评估函数,完成一次学习过程后,进入下一轮的学习训练,重复循环迭代,直到满足整个学习的条件,终止学习。基于增强学习的SDN数据中心拥塞控制问题是指基于flow的拥塞控制问题,即对所有的flow统筹分配速率,既尽力满足f本文档来自技高网
...
一种基于增强学习的SDN数据中心拥塞控制方法

【技术保护点】
一种基于增强学习的SDN数据中心拥塞控制方法,其特征在于,包含如下步骤:步骤1:将增强学习方法引入基于软件定义网络的数据中心,将基于SDN的数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>;其中F表示待分配的流,其队列长度为N;S表示整个链路的状态,是长度为M的矢量;R表示选择action后获得奖励值的一个矩阵;A表示根据链路需求为flow分配速率的行为,是长度为N的矢量;Q表示经过训练得到的Q矩阵,用来表示智能体已经从经验中学到的知识;步骤2:基于改进的Q‑learning算法,对Q矩阵进行训练;具体包含如下步骤:2‑1.按照先验知识,给定奖励矩阵R,并将Q矩阵初始;2‑2.改进增强学习中的Q‑learning算法中选取action的方法,使算法结合当前状态以及当前flow所经过的路径两个条件,在R矩阵中选择最大奖励对应的action;2‑3.执行action,观察reward和新的链路状态,根据

【技术特征摘要】
1.一种基于增强学习的SDN数据中心拥塞控制方法,其特征在于,包含如下步骤:步骤1:将增强学习方法引入基于软件定义网络的数据中心,将基于SDN的数据中心拥塞控制问题描述成五元组&lt;F,S,R,A,Q&gt;;其中F表示待分配的流,其队列长度为N;S表示整个链路的状态,是长度为M的矢量;R表示选择action后获得奖励值的一个矩阵;A表示根据链路需求为flow分配速率的行为,是长度为N的矢量;Q表示经过训练得到的Q矩阵,用来表示智能体已经从经验中学到的知识;步骤2:基于改进的Q-learning算法,对Q矩阵进行训练;具体包含如下步骤:2-1.按照先验知识,给定奖励矩阵R,并将Q矩阵初始;2-2.改进增强学习中的Q-learning算法中选取action的方法,使算法结合当前状态以及当前flow所经过的路径两个条件,在R矩阵中选择最大奖励对应的action;2-3.执行action,观察reward和新的链路状态,根据迭代更新Q值Q(S,a);其中,Q(S,a)表示在当前状态S下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率,是后续状态的折扣奖...

【专利技术属性】
技术研发人员:金蓉王伟明李姣姣庹鑫
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1