【技术实现步骤摘要】
一种基于强化学习的骨干网络流量确定方法及系统
本专利技术涉及无线通信
,特别是涉及一种基于强化学习的骨干网络流量确定方法及系统。
技术介绍
互联网的应用大大改善了我们的生活。网络的规模正在迅速增长,这使得网络比以前复杂得多。随着网络流量的快速增长,网络管理问题日益突出。为了保证网络的安全和效率,网络管理对于运营商来说是必不可少的。并且,有效的网络管理可以为用户提供高质量的服务,使网络避免网络拥塞、分布式拒绝服务(DDoS)等网络攻击。流量矩阵(TM)作为一个重要的输入参数,描述了网络中源-目的(OD)流之间的网络流量动态轨迹。实现流量矩阵的分类法有很多。一般可分为直接测量法和网络流量估计法两大类。网络流量确定方法根据流量矩阵与链路负载之间的关系,推导出流量矩阵。然而,它的缺点是定位很差,因此很难获得一个准确的流量矩阵估计。另一方面,直接测量方法虽然可以得到精确的流量矩阵估计量,但增加了网络负载。此外,它还消耗路由器的许多资源(如CPU和内存)。为了获得网络流量数据,在过去二十年中提出很多种方法。网络层析成像技术是一种传统的间接流量矩阵测量方法。网络层析成像技术的主要的缺点是网络高度病态特征引起的估计误差。虽然直接测量是有效的实现网络流量数据的方法,其造成的网络的高消耗使其备受诟病。为了减少直接测量对网络的消耗,提出了一些优化直接测量的方法。Ghode等改进了ZRP协议,增加了能量限制使其在MANET网络中有效工作。Salsano等人分析了连接检查的机制性能(网络延迟和数据包丢失)监控并提出了一种 ...
【技术保护点】
1.一种基于强化学习的骨干网络流量确定方法,其特征在于,包括:/n获取骨干网络中所有的链路、所有的路由器和所有的端口;/n根据所述骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵;/n根据所述路由矩阵,确定即刻奖赏矩阵;所述即刻奖赏矩阵为在某一链路时,一个动作作用于所述骨干网络,所述骨干网络返回的奖赏值;所述奖赏值为每个动作设置的权重值;/n根据所述即刻奖赏矩阵,确定累计奖赏矩阵;所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值;/n对所述累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵;所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵;/n根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器;/n判断所述待测量的路由器是否小于端到端流量阈值,得到第一判断结果;所述端到端流量阈值为用户需要测量的路由器数目;/n当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时,则返回所述根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器的步骤;/n当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时,则直接测量所述待测量的路由器的流量,确定 ...
【技术特征摘要】
1.一种基于强化学习的骨干网络流量确定方法,其特征在于,包括:
获取骨干网络中所有的链路、所有的路由器和所有的端口;
根据所述骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵;
根据所述路由矩阵,确定即刻奖赏矩阵;所述即刻奖赏矩阵为在某一链路时,一个动作作用于所述骨干网络,所述骨干网络返回的奖赏值;所述奖赏值为每个动作设置的权重值;
根据所述即刻奖赏矩阵,确定累计奖赏矩阵;所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值;
对所述累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵;所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵;
根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器;
判断所述待测量的路由器是否小于端到端流量阈值,得到第一判断结果;所述端到端流量阈值为用户需要测量的路由器数目;
当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时,则返回所述根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器的步骤;
当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时,则直接测量所述待测量的路由器的流量,确定骨干网络流量。
2.根据权利要求1所述的一种基于强化学习的骨干网络流量确定方法,其特征在于,所述根据所述路由矩阵,确定即刻奖赏矩阵,具体包括:
根据所述路由矩阵,确定链路奖赏矩阵;
根据所述链路奖赏矩阵,确定端口奖赏矩阵;
根据所述骨干网络,确定修正矩阵;
根据所述端口奖赏矩阵和所述修正矩阵,确定即刻奖赏矩阵。
3.根据权利要求1所述的一种基于强化学习的骨干网络流量确定方法,其特征在于,所述根据所述路由矩阵,确定即刻奖赏矩阵,之前还包括:
计算骨干网络中每两条链路之间的相关因数;
根据相关因数,确定初始链路;所述初始链路为与其他链路的相关因数最大的链路。
4.根据权利要求3所述的一种基于强化学习的骨干网络流量确定方法,其特征在于,所述对所述累计奖赏矩阵进行强化学习,确定最优累计奖赏矩阵,之前还包括:
判断所述初始链路是否为目标链路,得到第二判断结果;所述目标链路为所述累计奖赏矩阵不会变化的链路;
当所述第二判断结果表示所述初始链路为目标链路时,则不进行强化学习,并直接确定所述累计奖赏矩阵为最优累计奖赏矩阵;
当所述第二判断结果表示所述初始链路不为目标链路时,则进行强化学习。
5.根据权利要求1所述的一种基于强化学习的骨干网络流量确定方法,其特征在于,所述根据所述最优累计奖赏矩阵,确定骨干网络中待测量的路由器,之后还包括:
将所述待测量的路由器从所述骨干网络中删除,并返回所述根据所述骨干网络中所有的链路、所有的路由器和所有的端口,确定路由矩阵的步骤。
6.一种基于强化学习的骨干网络流量确定系统,其特征在于,包括:
第一获取模块,用于获取骨干网络中所有的链路、...
【专利技术属性】
技术研发人员:聂来森,王蕙质,尚润泽,陶醉,吴诒轩,潜梦羽,武子钰,
申请(专利权)人:西北工业大学青岛研究院,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。