一种基于强化学习的SDN路由规划方法技术

技术编号：20394755 阅读：69 留言：0更新日期：2019-02-20 04:53

本发明专利技术公开一种基于强化学习的SDN路由规划方法，该方法为：在SDN控制平面，采用强化学习中的Q学习构建能够产生路由的强化学习模型，设计Q学习算法中的奖励函数，根据流量的不同QoS等级，产生不同的奖励值；在强化学习模型中输入当前网络拓扑矩阵、流量特征以及流量的QoS等级进行训练，从而实现流量区分的SDN路由规划，为每条流量找到符合其QoS要求的最短转发路径。本发明专利技术利用强化学习与环境不断交互、调整策略的特点，相比于传统路由规划中常用的Dijkstra算法，其链路利用率高，能有效减少网络拥塞。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的SDN路由规划方法
本专利技术涉及网络通信技术和强化学习领域，具体涉及一种基于强化学习的SDN路由规划方法。
技术介绍
互联网流量数据持续增长，造成带宽消耗急剧增加、服务质量难以保证、安全问题增多等问题，互联网与各行各业密不可分，显然已成为当下最具广阔前景的行业，然而随着互联网的普及和互联网业务的增长，各行各业以及个体用户每天都会产生成千上万条网络信息流量，例如文件传输、语音通话、网络游戏等，新的应用模式和需求也不断出现，传统网络架构已经无法应对快速发展的互联网，面临着诸多如网络地址空间不足、设备日益臃肿、服务质量难以保证等问题。软件定义网络(SDN)是美国斯坦福大学CleanSlate研究组于2007年提出的一种创新型网络架构，其发起宗旨是为了“重塑互联网(ReinventtheInternet)”，作为一种新型的网络架构，为解决现有的网络问题提供了一种全新的技术，其核心思想是借助OpenFlow将网络设备控制平面与数据平面分离开来，从而实现网络资源的灵活控制。SDN是一种可编程的控制平面与数据转发平面相分离的网络架构。因此，可以通过软件自定义SDN的路由算法。每当一条流来到交换机，SDN控制平面上的路由算法开始规划路由，然后根据路由生成流表，被SDN控制器下发到交换机完成数据包转发。目前主流的SDN控制器如POX、FloodLight等均提供了完成数据包转发的模块，采用的基本都是Dijkstra(最短路径)算法。Dijkstra算法每次都查找数据包转发的起始节点到目的节点的一条最短路径。然而，所有数据包的转发如果仅仅依赖于最短路径算法...

【技术保护点】
1.一种基于强化学习的SDN路由规划方法，其特征在于，该方法为：在SDN控制平面，采用强化学习中的Q学习构建能够产生路由的强化学习模型，设计Q学习算法中的奖励函数，根据流量的不同QoS等级，产生不同的奖励值；在强化学习模型中输入当前网络拓扑矩阵、流量特征以及流量的QoS等级进行训练，从而实现流量区分的SDN路由规划，为每条流量找到符合其QoS要求的最短转发路径。

【技术特征摘要】
1.一种基于强化学习的SDN路由规划方法，其特征在于，该方法为：在SDN控制平面，采用强化学习中的Q学习构建能够产生路由的强化学习模型，设计Q学习算法中的奖励函数，根据流量的不同QoS等级，产生不同的奖励值；在强化学习模型中输入当前网络拓扑矩阵、流量特征以及流量的QoS等级进行训练，从而实现流量区分的SDN路由规划，为每条流量找到符合其QoS要求的最短转发路径。2.根据权利要求1所述的一种基于强化学习的SDN路由规划方法，其特征在于，所述流量特征包括流量的起点、终点和大小。3.根据权利要求2所述的一种基于强化学习的SDN路由规划方法，其特征在于，所述强化学习模型通过以下方法构建：设置单次训练最大步数，采取动作策略P选择动作a，执行动作a，获得下一步状态s′和奖励值r，根据质量更新函数更新Q(s，a)，s＝s′，重复上述操作，最终到达终点。4.根据权利要求3所述的一种基于强化学习的SDN路由规划方法，其特征在于，所述强化学习模型所需函数通过以下方法构建：(1)根据公式(1)选择动作a，动作策略采用ε-贪婪策略，其中π(a|s)＝P(At＝a|St＝s)表示为决策者在某一状态s下，选择动作a的概率，ε表示决策者采取随机策略的概率，即以相等的概率选择可能动作；1-ε的概率采取贪婪策略，即选择对应质量值最大的动作...

【专利技术属性】
技术研发人员：李传煌，卢正勇，吴艳，唐豪，任云方，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人