一种路由规划方法、系统、服务器及存储介质技术方案

技术编号：22888036 阅读：25 留言：0更新日期：2019-12-21 08:48

本发明专利技术实施例涉及网络通信技术领域，公开了一种基于强化学习的路由规划方法。本发明专利技术中，一种基于强化学习的路由规划方法，包括：获取网络的链路状态信息，其中，链路状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS，采用基于同策略更新的Q‑learning算法构建路由规划学习模型，将链路状态信息输入到路由规划学习模型中，训练生成路由关系映射表，根据路由关系映射表全局路由进行规划。本发明专利技术，通过充分考虑链路的服务质量(QoS)，采用同策略更新的强化学习方法应用于数据中心路由规划中，能够在未知的复杂链路状态下，自主选择出QoS较优的路径，相比于传统的路由规划方法更加保守，对机器的损耗更低，同时路径规划速度更快速，更具高效性。

A route planning method, system, server and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种路由规划方法、系统、服务器及存储介质
本专利技术实施例涉及网络通信
，特别涉及一种基于强化学习的路由规划技术。
技术介绍
随着社会的进步以及计算机技术的快速发展，网络深入到人们生活的各个方面。当下各行各业以及个体用户每天都会产生大量的网络信息流量，例如文件传输、语音通话、网络游戏等，互联网流量数据持续增长，造成网路传输的拥堵、传输效率不高、服务质量难以保证等问题，而传统的网络建设规划已无法应对当前的需求。路由规划方法，又称选路算法，其目的是找到一条从源地址到目的地址的最优路径。衡量最优路径的标准不同，导致路由规划的结果不同，从而对最佳路径的选择产生一定的影响。目前，最常见的两种路由算法是链路状态路由算法和距离矢量路由算法。专利技术人发现现有技术中至少存在如下问题：链路状态算法在应用的过程中可能出现震荡现象，当网络中链路状态更新的太快并且不断变化的时候，发出的数据包还没到达目的地时路由表就更新了，导致这个数据包就一直在路由间切换，最后可能直接丢弃，造成震荡现象；距离矢量路由算法把从对方获知的，但在对方已不再有效的信息当成有效信息再传送给对方，使对方当成有效信息使用，则存在无穷计数的问题；另外，链路状态算法要求比距离矢量路由算法有更强的CPU能力和更多的内存空间，在实现时显得更加昂贵一些。且现有算法中，无论是采用链路状态路由算法还是距离矢量路由算法，每次都是查找数据包转发的起始节点到目的节点的一条最短路径，但若所有的数据包的转发都依赖于最短路径，则会导致数据流很容易选择同一条最短转发路径...

【技术保护点】
1.一种路由规划方法，其特征在于，包括：/n获取网络的链路状态信息，其中，所述链路状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS；/n采用基于同策略更新的Q-learning算法构建路由规划学习模型；/n将所述链路状态信息输入到所述路由规划学习模型中，训练生成路由关系映射表；/n根据所述路由关系映射表对全局路由进行规划。/n

【技术特征摘要】
1.一种路由规划方法，其特征在于，包括：
获取网络的链路状态信息，其中，所述链路状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS；
采用基于同策略更新的Q-learning算法构建路由规划学习模型；
将所述链路状态信息输入到所述路由规划学习模型中，训练生成路由关系映射表；
根据所述路由关系映射表对全局路由进行规划。

2.根据权利要求1所述的路由规划方法，其特征在于，所述构建路由规划学习模型，包括：
根据所述QoS、当前节点连接状态S，以及到达下一个节点连接状态S'时执行的动作a构建Q值矩阵，并采用同策略选择所述动作a和迭代更新所述Q值矩阵，其中所述同策略为ε-贪婪策略。

3.根据权利要求1所述的路由规划方法，其特征在于，所述构建路由规划学习模型，还包括，设计所述路由规划学习模型中的奖励值R；其中，所述奖励值R根据所述链路等级进行划分，不同等级的链路状态对应不同的奖励值。

4.根据权利要求2所述的路由规划方法，其特征在于，所述链路等级同链路服务质量QoS对应；其中，每条所述链路依照所述QoS的标准划分等级，所述QoS值越高对应的所述链路等级越高。

5.根据权利要求1所述的路由规划方法，其特征在于，所述将所述链路状态信息输入到所述路由规划学习模型中，训练生成路由关系映射表，包括：
确定当前链路状态S，设置初始位置为初始状态S0，目标位置为目标状态ST；其中，所述链路状态S为所述网络拓扑结构中不同节点相连的状态；
初始化Q值矩阵；
建立环境奖励值矩阵R；
从当前状态的所有可能的动作中，根据所述ε-贪婪策略选择一个动作a，执行所述动作a，到达下一个状态S’，同时更新动作a’；
观察所述奖励值R和所述链路状态的变化，根据所述ε-贪婪策略迭代更新所述Q值矩阵；
判断得到的所述下一个状态是否为目标状态，若是，判断Q值矩阵的收敛性，否则，继续选择动作a’执行，最终达到目标状态；
根据所述收敛的Q值矩阵处理得到所述路由关系映射表。

6.根据权利要求5所述的路由规划方法，其特征在于，所述判断Q值矩阵的收敛性，包括：
若所述Q值矩阵收敛，则结束训练；否则，重新确定所述链路的初始位置和终点位置，训练迭代至所述Q值矩阵收敛。

7.根据权利要求5所述的路由规划方法，其特征在于，所述继续选择动作a’执行，...

【专利技术属性】
技术研发人员：孙正君，李磊，喻涵，夏俏兰，陈斌斌，
申请(专利权)人：中移杭州信息技术有限公司，中国移动通信集团有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人