一种基于强化学习的SDN路由规划方法技术

技术编号:20394755 阅读:69 留言:0更新日期:2019-02-20 04:53
本发明专利技术公开一种基于强化学习的SDN路由规划方法,该方法为:在SDN控制平面,采用强化学习中的Q学习构建能够产生路由的强化学习模型,设计Q学习算法中的奖励函数,根据流量的不同QoS等级,产生不同的奖励值;在强化学习模型中输入当前网络拓扑矩阵、流量特征以及流量的QoS等级进行训练,从而实现流量区分的SDN路由规划,为每条流量找到符合其QoS要求的最短转发路径。本发明专利技术利用强化学习与环境不断交互、调整策略的特点,相比于传统路由规划中常用的Dijkstra算法,其链路利用率高,能有效减少网络拥塞。

【技术实现步骤摘要】
一种基于强化学习的SDN路由规划方法
本专利技术涉及网络通信技术和强化学习领域,具体涉及一种基于强化学习的SDN路由规划方法。
技术介绍
互联网流量数据持续增长,造成带宽消耗急剧增加、服务质量难以保证、安全问题增多等问题,互联网与各行各业密不可分,显然已成为当下最具广阔前景的行业,然而随着互联网的普及和互联网业务的增长,各行各业以及个体用户每天都会产生成千上万条网络信息流量,例如文件传输、语音通话、网络游戏等,新的应用模式和需求也不断出现,传统网络架构已经无法应对快速发展的互联网,面临着诸多如网络地址空间不足、设备日益臃肿、服务质量难以保证等问题。软件定义网络(SDN)是美国斯坦福大学CleanSlate研究组于2007年提出的一种创新型网络架构,其发起宗旨是为了“重塑互联网(ReinventtheInternet)”,作为一种新型的网络架构,为解决现有的网络问题提供了一种全新的技术,其核心思想是借助OpenFlow将网络设备控制平面与数据平面分离开来,从而实现网络资源的灵活控制。SDN是一种可编程的控制平面与数据转发平面相分离的网络架构。因此,可以通过软件自定义SDN的路由算法。每当一条流来到交换机,SDN控制平面上的路由算法开始规划路由,然后根据路由生成流表,被SDN控制器下发到交换机完成数据包转发。目前主流的SDN控制器如POX、FloodLight等均提供了完成数据包转发的模块,采用的基本都是Dijkstra(最短路径)算法。Dijkstra算法每次都查找数据包转发的起始节点到目的节点的一条最短路径。然而,所有数据包的转发如果仅仅依赖于最短路径算法将会带来一个严重的问题,数据流很容易因为选择同一条转发路径而聚集到一起,这极大地降低了链路利用率,同时也很容易导致网络拥塞。存在的某些多路径协议也没有考虑不同业务流对服务质量(QoS)的需求,从路径优化的角度来看,这具有局限性的,因为它没有考虑到整个网络的流量状态。
技术实现思路
本专利技术为了克服Dijkstra算法的不足,提出了一种基于强化学习的SDN路由规划方法。该方法利用强化学习与环境不断交互、调整策略的特点,相比于传统的Dijkstra算法,其链路利用率高,能有效减少网络拥塞。本专利技术解决技术问题所采用的技术方案如下:一种基于强化学习的SDN路由规划方法,该方法为:在SDN控制平面,采用强化学习中的Q学习构建能够产生路由的模型,设计Q学习算法中的奖励函数,根据流量的不同QoS等级,产生不同的奖励值;在强化学习模型中输入当前网络拓扑矩阵、流量特征以及流量的QoS等级进行训练,从而实现流量区分的SDN路由规划,为每条流量找到符合其QoS要求的最短转发路径。进一步的,该方法流量特征具体为:流量的起点、终点和大小。进一步的,强化学习模型通过以下方法构建:设置单次训练最大步数,采取动作策略P选择动作a,执行动作a,获得下一步状态s′和奖励值r,根据质量更新函数更新Q(s,a),s=s′,重复上述操作,最终到达终点。进一步的,强化学习模型所需函数通过以下方法构建:(1)根据公式(1)选择动作a,动作策略采用ε-贪婪策略,其中π(a|s)=P(At=a|St=s)表示为决策者在某一状态s下,选择动作a的概率,ε表示决策者采取随机策略的概率,即以相等的概率选择可能动作;1-ε的概率采取贪婪策略,即选择对应质量值最大的动作;A(s)表示在状态s下决策者可能采取的动作集合;Q(s,a)表示在状态s下选择不同动作a得到的质量集合;(2)根据公式(2)计算奖励值,其中,i、j表示网络中的节点,Rt(St,At|i→j)表示处于状态St时选择动作At(从节点i跳到节点j),得到的奖励值;其中,Btotal表示节点i到节点j的链路总带宽,B表示节点i到节点j的链路剩余带宽,Bmin表示流量所需的最小带宽(即流量的大小),β表示流量的QoS等级,d表示目的节点,δ(j-d)表示若j的下一跳为终点d时,该冲激函数值为1,T表示节点相连的情况,T[St][At]≠-1表示节点i与节点j相连,T[St][At]=-1表示节点i与节点j不相连;(3)根据公式(3),使用Q学习算法对质量函数进行更新,其中,γ∈[0,1]被称为折扣率,表明了未来的奖励相对于当前奖励的重要程度;α∈[0,1]被称为学习率,决定了新获取的信息对旧的信息的覆盖程度;Rt+1表示在时间t获得的奖励值,St+1表示在时间t+1时的状态,At表示在时间t时的动作,St表示在时间t时的状态,Q(St+1,At)表示在状态St+1下采取动作At得到的质量,Q(St,At)表示在状态St下采取动作At得到的质量,Q(St+1,a)表示在状态St+1下采取不同动作a时得到的质量集合。与现有的技术相比,本专利技术的有益效果如下:在SDN中还没有一种固定的路由算法,针对SDN架构集中控制、易获取链路信息及可编程的特点,该方法根据不同流量的QoS等级,为每条流量找到符合其QoS要求的最短转发路径,其链路利用率高,且能有效减少网络拥塞。附图说明图1为SDN路由规划架构图;图2为SDN网络拓扑图。具体实施方式下面结合附图详细说明本专利技术。针对目前主流的SDN网络转发数据包基本都是采用Dijkstra算法,本专利技术尝试将强化学习应用到路由规划中,利用SDN架构集中控制、易获取链路信息及可编程的特点,将获取到的当前网络拓扑矩阵、流量特征以及QoS等级输入到强化学习模型,该模型就可以输出流量从起点到终点的最优转发路径。本专利技术提供的一种基于强化学习的SDN路由规划方法利用强化学习与环境不断交互、调整策略的特点,相比于传统的Dijkstra算法,其链路利用率高,能有效减少网络拥塞。该方法为:根据不同流量的QoS等级,设计奖励函数,为每条流量找到符合其QoS要求的最短转发路径。1.SDN路由规划架构如图1所示,构建强化学习模型产生路由,模型部署在SDN控制平面,输入当前网络拓扑矩阵、流量特征(包括流量的起点、终点和大小)以及QoS等级,模型使用输入进行多次训练后,可以输出一条从起点到终点的最优转发路径。2.每次训练时设置单次训练最大步数,采取动作策略P选择动作a,执行动作a,获得下一步状态s′和奖励值r,根据质量更新函数更新Q(s,a),s=s′,重复上述操作,最终到达终点。3.强化学习模型所需函数通过以下方法构建:(1)根据公式(1)选择动作a,动作策略采用ε-贪婪策略,其中π(a|s)=P(At=a|St=s)表示为决策者在某一状态s下,选择动作a的概率,ε表示决策者采取随机策略的概率,即以相等的概率选择可能动作;1-ε的概率采取贪婪策略,即选择对应质量值最大的动作;A(s)表示在状态s下决策者可能采取的动作集合;Q(s,a)表示在状态s下选择不同动作a得到的质量集合;(2)根据公式(2)计算奖励值,其中,i、j表示网络中的节点,Rt(St,At|i→j)表示处于状态St时选择动作At(从节点i跳到节点j),得到的奖励值;其中,Btotal表示节点i到节点j的链路总带宽,B表示节点i到节点j的链路剩余带宽,Bmin表示流量所需的最小带宽(即流量的大小),β表示流量的QoS等级,d表示目的节点,δ(j-d)表示若j的下一跳为终点d时,该冲激函数本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的SDN路由规划方法,其特征在于,该方法为:在SDN控制平面,采用强化学习中的Q学习构建能够产生路由的强化学习模型,设计Q学习算法中的奖励函数,根据流量的不同QoS等级,产生不同的奖励值;在强化学习模型中输入当前网络拓扑矩阵、流量特征以及流量的QoS等级进行训练,从而实现流量区分的SDN路由规划,为每条流量找到符合其QoS要求的最短转发路径。

【技术特征摘要】
1.一种基于强化学习的SDN路由规划方法,其特征在于,该方法为:在SDN控制平面,采用强化学习中的Q学习构建能够产生路由的强化学习模型,设计Q学习算法中的奖励函数,根据流量的不同QoS等级,产生不同的奖励值;在强化学习模型中输入当前网络拓扑矩阵、流量特征以及流量的QoS等级进行训练,从而实现流量区分的SDN路由规划,为每条流量找到符合其QoS要求的最短转发路径。2.根据权利要求1所述的一种基于强化学习的SDN路由规划方法,其特征在于,所述流量特征包括流量的起点、终点和大小。3.根据权利要求2所述的一种基于强化学习的SDN路由规划方法,其特征在于,所述强化学习模型通过以下方法构建:设置单次训练最大步数,采取动作策略P选择动作a,执行动作a,获得下一步状态s′和奖励值r,根据质量更新函数更新Q(s,a),s=s′,重复上述操作,最终到达终点。4.根据权利要求3所述的一种基于强化学习的SDN路由规划方法,其特征在于,所述强化学习模型所需函数通过以下方法构建:(1)根据公式(1)选择动作a,动作策略采用ε-贪婪策略,其中π(a|s)=P(At=a|St=s)表示为决策者在某一状态s下,选择动作a的概率,ε表示决策者采取随机策略的概率,即以相等的概率选择可能动作;1-ε的概率采取贪婪策略,即选择对应质量值最大的动作...

【专利技术属性】
技术研发人员:李传煌卢正勇吴艳唐豪任云方
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1