一种基于强化学习的骨干网络流量确定方法及系统技术方案

技术编号:22977309 阅读:51 留言:0更新日期:2020-01-01 00:23
本发明专利技术公开一种基于强化学习的骨干网络流量确定方法及系统,所述方法包括:根据获取的骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵;根据路由矩阵,确定即刻奖赏矩阵;根据即刻奖赏矩阵,确定累计奖赏矩阵;对累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵;根据最优累计奖赏矩阵,确定骨干网络中待测量的路由器;判断所述待测量的路由器是否小于端到端流量阈值;根据判断结果判断是否直接测量待测量的路由器的流量,进而确定骨干网络流量。本发明专利技术所提供的一种基于强化学习的骨干网络流量确定方法及系统,能够保证网络流量确定的准确性。

A method and system for determining backbone network traffic based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的骨干网络流量确定方法及系统
本专利技术涉及无线通信
,特别是涉及一种基于强化学习的骨干网络流量确定方法及系统。
技术介绍
互联网的应用大大改善了我们的生活。网络的规模正在迅速增长,这使得网络比以前复杂得多。随着网络流量的快速增长,网络管理问题日益突出。为了保证网络的安全和效率,网络管理对于运营商来说是必不可少的。并且,有效的网络管理可以为用户提供高质量的服务,使网络避免网络拥塞、分布式拒绝服务(DDoS)等网络攻击。流量矩阵(TM)作为一个重要的输入参数,描述了网络中源-目的(OD)流之间的网络流量动态轨迹。实现流量矩阵的分类法有很多。一般可分为直接测量法和网络流量估计法两大类。网络流量确定方法根据流量矩阵与链路负载之间的关系,推导出流量矩阵。然而,它的缺点是定位很差,因此很难获得一个准确的流量矩阵估计。另一方面,直接测量方法虽然可以得到精确的流量矩阵估计量,但增加了网络负载。此外,它还消耗路由器的许多资源(如CPU和内存)。为了获得网络流量数据,在过去二十年中提出很多种方法。网络层析成像技术是一种传统的间接流量矩阵测量方法。网络层析成像技术的主要的缺点是网络高度病态特征引起的估计误差。虽然直接测量是有效的实现网络流量数据的方法,其造成的网络的高消耗使其备受诟病。为了减少直接测量对网络的消耗,提出了一些优化直接测量的方法。Ghode等改进了ZRP协议,增加了能量限制使其在MANET网络中有效工作。Salsano等人分析了连接检查的机制性能(网络延迟和数据包丢失)监控并提出了一种基于内核的互联网协议地址(InternetProtocol,IP)接入网实现,其CPU使用率相对较低。还有学者提出了一种动态协同监测方法,基于社会网络分析的界面选择方案可以有效降低网络成本。Shin等提出了一种分布式在线优化嗅探器算法多通道被动监控的信道分配无线网络。但是,对于网络环境的复杂性和时变性,上述直接测量的方法很难保证的流量确定的准确性。
技术实现思路
本专利技术的目的是提供一种基于强化学习的骨干网络流量确定方法及系统,能够保证网络流量确定的准确性。为实现上述目的,本专利技术提供了如下方案:一种基于强化学习的骨干网络流量确定方法,包括:获取骨干网络中所有的链路、所有的路由器和所有的端口;根据所述骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵;根据所述路由矩阵,确定即刻奖赏矩阵;所述即刻奖赏矩阵为在某一链路时,一个动作作用于所述骨干网络,所述骨干网络返回的奖赏值;所述奖赏值为每个动作设置的权重值;根据所述即刻奖赏矩阵,确定累计奖赏矩阵;所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值;对所述累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵;所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵;根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器;判断所述待测量的路由器是否小于端到端流量阈值,得到第一判断结果;所述端到端流量阈值为用户需要测量的路由器数目;当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时,则返回所述根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器的步骤;当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时,则直接测量所述待测量的路由器的流量,确定骨干网络流量。可选的,所述根据所述路由矩阵,确定即刻奖赏矩阵,具体包括:根据所述路由矩阵,确定链路奖赏矩阵;根据所述链路奖赏矩阵,确定端口奖赏矩阵;根据所述骨干网络,确定修正矩阵;根据所述端口奖赏矩阵和所述修正矩阵,确定即刻奖赏矩阵。可选的,所述根据所述路由矩阵,确定即刻奖赏矩阵,之前还包括:计算骨干网络中每两条链路之间的相关因数;根据相关因数,确定初始链路;所述初始链路为与其他链路的相关因数最大的链路。可选的,所述对所述累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵,之前还包括:判断所述初始链路是否为目标链路,得到第二判断结果;所述目标链路为所述累计奖赏矩阵不会变化的链路;当所述第二判断结果表示所述初始链路为目标链路时,则不进行强化学习,并直接确定所述累计奖赏矩阵为最优累计奖赏矩阵;当所述第二判断结果表示所述初始链路不为目标链路时,则进行强化学习。可选的,所述根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器,之后还包括:将所述待测量的路由器从所述骨干网络中删除,并返回所述根据所述骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵的步骤。一种基于强化学习的骨干网络流量确定系统,包括:第一获取模块,用于获取骨干网络中所有的链路、所有的路由器和所有的端口;路由矩阵确定模块,用于根据所述骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵;即刻奖赏矩阵确定模块,用于根据所述路由矩阵,确定即刻奖赏矩阵;所述即刻奖赏矩阵为在某一链路时,一个动作作用于所述骨干网络,所述骨干网络返回的奖赏值;所述奖赏值为每个动作设置的权重值;累计奖赏矩阵确定模块,用于根据所述即刻奖赏矩阵,确定累计奖赏矩阵;所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值;最优累计奖赏矩阵确定模块,用于对所述累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵;所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵;待测量的路由器确定模块,用于根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器;第一判断模块,用于判断所述待测量的路由器是否小于端到端流量阈值,得到第一判断结果;所述端到端流量阈值为用户需要测量的路由器数目;待测量的路由器更新模块,用于当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时,则返回所述根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器的步骤;骨干网络流量确定模块,用于当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时,则直接测量所述待测量的路由器的流量,确定骨干网络流量。可选的,所述即刻奖赏矩阵确定模块具体包括:链路奖赏矩阵确定单元,用于根据所述路由矩阵,确定链路奖赏矩阵;端口奖赏矩阵确定单元,用于根据所述链路奖赏矩阵,确定端口奖赏矩阵;修正矩阵确定单元,用于根据所述骨干网络,确定修正矩阵;即刻奖赏矩阵确定单元,用于根据所述端口奖赏矩阵和所述修正矩阵,确定即刻奖赏矩阵。可选的,还包括:相关因数计算模块,用于计算骨干网络中每两条链路之间的相关因数;初始链路确定模块,用于根据相关因数,确定初始链路;所述初始链路为与其他链路的相关因数最大的链路。可选的,还包括:第二判断模块,用于判断所述初始链路是否为目标链路,得到第二判断结果;所述目标链路为所述累计奖赏矩阵不会变化的链路;第一确定模块,用于当所述本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的骨干网络流量确定方法,其特征在于,包括:/n获取骨干网络中所有的链路、所有的路由器和所有的端口;/n根据所述骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵;/n根据所述路由矩阵,确定即刻奖赏矩阵;所述即刻奖赏矩阵为在某一链路时,一个动作作用于所述骨干网络,所述骨干网络返回的奖赏值;所述奖赏值为每个动作设置的权重值;/n根据所述即刻奖赏矩阵,确定累计奖赏矩阵;所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值;/n对所述累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵;所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵;/n根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器;/n判断所述待测量的路由器是否小于端到端流量阈值,得到第一判断结果;所述端到端流量阈值为用户需要测量的路由器数目;/n当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时,则返回所述根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器的步骤;/n当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时,则直接测量所述待测量的路由器的流量,确定骨干网络流量。/n...

【技术特征摘要】
1.一种基于强化学习的骨干网络流量确定方法,其特征在于,包括:
获取骨干网络中所有的链路、所有的路由器和所有的端口;
根据所述骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵;
根据所述路由矩阵,确定即刻奖赏矩阵;所述即刻奖赏矩阵为在某一链路时,一个动作作用于所述骨干网络,所述骨干网络返回的奖赏值;所述奖赏值为每个动作设置的权重值;
根据所述即刻奖赏矩阵,确定累计奖赏矩阵;所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值;
对所述累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵;所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵;
根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器;
判断所述待测量的路由器是否小于端到端流量阈值,得到第一判断结果;所述端到端流量阈值为用户需要测量的路由器数目;
当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时,则返回所述根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器的步骤;
当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时,则直接测量所述待测量的路由器的流量,确定骨干网络流量。


2.根据权利要求1所述的一种基于强化学习的骨干网络流量确定方法,其特征在于,所述根据所述路由矩阵,确定即刻奖赏矩阵,具体包括:
根据所述路由矩阵,确定链路奖赏矩阵;
根据所述链路奖赏矩阵,确定端口奖赏矩阵;
根据所述骨干网络,确定修正矩阵;
根据所述端口奖赏矩阵和所述修正矩阵,确定即刻奖赏矩阵。


3.根据权利要求1所述的一种基于强化学习的骨干网络流量确定方法,其特征在于,所述根据所述路由矩阵,确定即刻奖赏矩阵,之前还包括:
计算骨干网络中每两条链路之间的相关因数;
根据相关因数,确定初始链路;所述初始链路为与其他链路的相关因数最大的链路。


4.根据权利要求3所述的一种基于强化学习的骨干网络流量确定方法,其特征在于,所述对所述累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵,之前还包括:
判断所述初始链路是否为目标链路,得到第二判断结果;所述目标链路为所述累计奖赏矩阵不会变化的链路;
当所述第二判断结果表示所述初始链路为目标链路时,则不进行强化学习,并直接确定所述累计奖赏矩阵为最优累计奖赏矩阵;
当所述第二判断结果表示所述初始链路不为目标链路时,则进行强化学习。


5.根据权利要求1所述的一种基于强化学习的骨干网络流量确定方法,其特征在于,所述根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器,之后还包括:
将所述待测量的路由器从所述骨干网络中删除,并返回所述根据所述骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵的步骤。


6.一种基于强化学习的骨干网络流量确定系统,其特征在于,包括:
第一获取模块,用于获取骨干网络中所有的链路、...

【专利技术属性】
技术研发人员:聂来森王蕙质尚润泽陶醉吴诒轩潜梦羽武子钰
申请(专利权)人:西北工业大学青岛研究院
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1