一种路由规划方法、系统、服务器及存储介质技术方案

技术编号:22888036 阅读:25 留言:0更新日期:2019-12-21 08:48
本发明专利技术实施例涉及网络通信技术领域,公开了一种基于强化学习的路由规划方法。本发明专利技术中,一种基于强化学习的路由规划方法,包括:获取网络的链路状态信息,其中,链路状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS,采用基于同策略更新的Q‑learning算法构建路由规划学习模型,将链路状态信息输入到路由规划学习模型中,训练生成路由关系映射表,根据路由关系映射表全局路由进行规划。本发明专利技术,通过充分考虑链路的服务质量(QoS),采用同策略更新的强化学习方法应用于数据中心路由规划中,能够在未知的复杂链路状态下,自主选择出QoS较优的路径,相比于传统的路由规划方法更加保守,对机器的损耗更低,同时路径规划速度更快速,更具高效性。

A route planning method, system, server and storage medium

【技术实现步骤摘要】
一种路由规划方法、系统、服务器及存储介质
本专利技术实施例涉及网络通信
,特别涉及一种基于强化学习的路由规划技术。
技术介绍
随着社会的进步以及计算机技术的快速发展,网络深入到人们生活的各个方面。当下各行各业以及个体用户每天都会产生大量的网络信息流量,例如文件传输、语音通话、网络游戏等,互联网流量数据持续增长,造成网路传输的拥堵、传输效率不高、服务质量难以保证等问题,而传统的网络建设规划已无法应对当前的需求。路由规划方法,又称选路算法,其目的是找到一条从源地址到目的地址的最优路径。衡量最优路径的标准不同,导致路由规划的结果不同,从而对最佳路径的选择产生一定的影响。目前,最常见的两种路由算法是链路状态路由算法和距离矢量路由算法。专利技术人发现现有技术中至少存在如下问题:链路状态算法在应用的过程中可能出现震荡现象,当网络中链路状态更新的太快并且不断变化的时候,发出的数据包还没到达目的地时路由表就更新了,导致这个数据包就一直在路由间切换,最后可能直接丢弃,造成震荡现象;距离矢量路由算法把从对方获知的,但在对方已不再有效的信息当成有效信息再传送给对方,使对方当成有效信息使用,则存在无穷计数的问题;另外,链路状态算法要求比距离矢量路由算法有更强的CPU能力和更多的内存空间,在实现时显得更加昂贵一些。且现有算法中,无论是采用链路状态路由算法还是距离矢量路由算法,每次都是查找数据包转发的起始节点到目的节点的一条最短路径,但若所有的数据包的转发都依赖于最短路径,则会导致数据流很容易选择同一条最短转发路径而聚集在一起,降低链路的利用率,同时也容易导致网络堵塞;此外也没有综合考虑网络中链路的实际状态,不能根据不同业务的特点合理规划网络最优传输路径。
技术实现思路
本专利技术实施方式的目的在于提供一种路由规划方法,通过将强化学习方法应用到数据中心路由规划中,并充分考虑链路的服务质量,使得能够在未知的复杂链路状态下,自主选择出链路服务质量QoS较优的路径,相比于传统的路由规划方法更加保守,对机器的损耗更低,同时路径规划速度更快速,更具高效性。为解决上述技术问题,本专利技术的实施方式提供了一种路由规划方法,包括以下步骤:获取网络的链路状态信息,其中,状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS;采用基于同策略更新的Q-learning算法构建路由规划学习模型;将获取的链路状态信息输入到路由规划学习模型中,训练生成路由关系映射表;根据路由关系映射表对全局路由进行规划。本专利技术的实施方式还提供了一种路由规划系统,包括:链路状态检测模块、策略训练模块、路由规划模块;链路状态检测模块,用于获取数据中心网络的当前链路状态信息,其中链路状态信息,包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS;策略训练模块,用于同链路状态检测模块进行交互,训练生成路由规划关系映射表;路由规划模块,用于根据路由映射表,对数据中心的网络进行全局的路由规划。本专利技术的实施方式还提供了一种服务器,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使至少一个处理器能够执行上述的路由规划方法。本专利技术还提供了了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的路由规划方法。本专利技术实施方式相对于现有技术而言,通过获取网络的链路状态信息,充分考虑链路的服务质量(QoS),且采用基于同策略更新的Q-learning算法构建路由规划学习模型,迭代训练得到路由规划,能够在未知的复杂链路状态下,自主选择出QoS较优的路径,相比于传统的路由规划方法收敛速度更快,能够在全局的网络拓扑中快速发现路径,具有高效性。另外,构建路由规划学习模型,还包括,设计路由规划学习模型中的奖励值R;其中,奖励值R根据链路等级进行划分,不同等级的链路状态对应不同的奖励值。使奖励值根据网络链路的状态等级进行划分确定,以保证迭代训练中得到的回报值更贴近链路实际状态,保证模型训练得到的结果更具实际意义。另外,链路等级同链路服务质量QoS对应;其中,每条链路依照QoS的标准划分等级,QoS值越高对应的链路等级越高。充分考虑链路服务质量QoS,以保证自主选择的路径能满足QoS要求,为提升链路利用率和服务质量提供保障。另外,将链路状态信息输入到路由规划学习模型中,训练生成路由关系映射表,包括:确定当前链路状态S,设置初始位置为初始状态S0,目标位置为目标状态ST;其中,链路状态S为网络拓扑结构中不同节点相连的状态;初始化Q值矩阵;建立环境奖励值矩阵R;从当前状态的所有可能的动作中,选择一个动作a,执行动作a,到达下一个状态S’,同时更新动作a’;观察奖励值R和链路状态的变化,根据ε-贪婪策略迭代更新Q值矩阵;判断得到的下一个状态是否为目标状态,若是,判断Q值矩阵的收敛性,否则,继续选择动作a’执行,最终达到目标状态。根据收敛的Q值矩阵处理得到路由关系映射表。这里采用改进的Q-learning算法,在选择动作时遵循的策略和更新Q值时遵循的策略是相同的,即选择动作和更新Q值时都遵循ε-贪婪策略,经过不断地迭代更新状态值和动作值,直到Q矩阵收敛,生成路由规划表,相比于传统的方法更加保守,对机器的损耗更低,同时路径规划速度更快,具有高效性。另外,继续选择动作a’执行,其中动作a’只能在剩下的交换机节点中选择一个节点进行连接。即在未到达目的位置,选择下一个动作时,需要从剩下的交换机节点所对应的所有状态中,再随机选择一个节点进行连接,通过上述设定来防止出现路由回路,避免数据包在网络上循环发送而导致网络资源浪费的现象。另外,根据收敛的Q值矩阵处理得到路由关系映射表,具体包括:取链路实际状态值的均值作为所述交换机节点的最终状态值;用最终状态值对收敛的Q值矩阵进行降维,最终得到链路关系映射表。由于一台交换机根据链路QoS划分为两种状态,所以取一条链路实际状态的均值来对得到Q值矩阵降维,使得简化计算,得到简洁明了的链路关系映射表。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。图1是根据本专利技术第一实施方式中的路由规划方法流程图;图2是根据本专利技术第一实施方式中的路由控制策略训练方法流程图;图3是根据本专利技术第二实施方式中的路由规划方法流程图;图4是根据本专利技术第二实施方式中的数据中心网络拓扑示意图;图5是根据本专利技术第三实施方式中的路由规划系统框架图;图6是根据本专利技术第四实施方式中的服务器装置示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可本文档来自技高网
...

【技术保护点】
1.一种路由规划方法,其特征在于,包括:/n获取网络的链路状态信息,其中,所述链路状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS;/n采用基于同策略更新的Q-learning算法构建路由规划学习模型;/n将所述链路状态信息输入到所述路由规划学习模型中,训练生成路由关系映射表;/n根据所述路由关系映射表对全局路由进行规划。/n

【技术特征摘要】
1.一种路由规划方法,其特征在于,包括:
获取网络的链路状态信息,其中,所述链路状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS;
采用基于同策略更新的Q-learning算法构建路由规划学习模型;
将所述链路状态信息输入到所述路由规划学习模型中,训练生成路由关系映射表;
根据所述路由关系映射表对全局路由进行规划。


2.根据权利要求1所述的路由规划方法,其特征在于,所述构建路由规划学习模型,包括:
根据所述QoS、当前节点连接状态S,以及到达下一个节点连接状态S'时执行的动作a构建Q值矩阵,并采用同策略选择所述动作a和迭代更新所述Q值矩阵,其中所述同策略为ε-贪婪策略。


3.根据权利要求1所述的路由规划方法,其特征在于,所述构建路由规划学习模型,还包括,设计所述路由规划学习模型中的奖励值R;其中,所述奖励值R根据所述链路等级进行划分,不同等级的链路状态对应不同的奖励值。


4.根据权利要求2所述的路由规划方法,其特征在于,所述链路等级同链路服务质量QoS对应;其中,每条所述链路依照所述QoS的标准划分等级,所述QoS值越高对应的所述链路等级越高。


5.根据权利要求1所述的路由规划方法,其特征在于,所述将所述链路状态信息输入到所述路由规划学习模型中,训练生成路由关系映射表,包括:
确定当前链路状态S,设置初始位置为初始状态S0,目标位置为目标状态ST;其中,所述链路状态S为所述网络拓扑结构中不同节点相连的状态;
初始化Q值矩阵;
建立环境奖励值矩阵R;
从当前状态的所有可能的动作中,根据所述ε-贪婪策略选择一个动作a,执行所述动作a,到达下一个状态S’,同时更新动作a’;
观察所述奖励值R和所述链路状态的变化,根据所述ε-贪婪策略迭代更新所述Q值矩阵;
判断得到的所述下一个状态是否为目标状态,若是,判断Q值矩阵的收敛性,否则,继续选择动作a’执行,最终达到目标状态;
根据所述收敛的Q值矩阵处理得到所述路由关系映射表。


6.根据权利要求5所述的路由规划方法,其特征在于,所述判断Q值矩阵的收敛性,包括:
若所述Q值矩阵收敛,则结束训练;否则,重新确定所述链路的初始位置和终点位置,训练迭代至所述Q值矩阵收敛。


7.根据权利要求5所述的路由规划方法,其特征在于,所述继续选择动作a’执行,...

【专利技术属性】
技术研发人员:孙正君李磊喻涵夏俏兰陈斌斌
申请(专利权)人:中移杭州信息技术有限公司中国移动通信集团有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利