基于Q-学习的SDN链路抗毁方法、存储介质及系统技术方案

技术编号:29928110 阅读:18 留言:0更新日期:2021-09-04 18:51
本发明专利技术提出一种基于Q

【技术实现步骤摘要】
基于Q

学习的SDN链路抗毁方法、存储介质及系统


[0001]本专利技术涉及网络抗毁性能优化的
,更具体地,涉及一种基于Q

学习的SDN链路抗毁方法、存储介质及系统。

技术介绍

[0002]网络的抗毁性能优化是许多通信网络需要研究的关键问题,某些链路发生故障时,如果控制器不及时进行故障处理,会导致网络节点出现严重拥塞,造成数据丢失。软件定义网络(SDN,Software Defined Network)是一种数据控制分离、软件可编程的新型网络体系架构,在SDN架构下,控制层和数据层实现了解耦,控制层的控制器对整个网络进行管理,在链路抗毁方面,逻辑集中的控制器可在链路出现问题时,更容易判断其对整网的影响,并且可以从全局网络角度进行恢复。
[0003]目前,SDN网络抗毁技术研究主要集中在路径保护机制方面,例如2018年9月21日公开的中国专利技术专利(公布号:CN108566298A)中公开了一种链路故障处理方法、交换机和链路故障处理系统,在该专利中,首先获取流表信息,包括正常工作所使用的第一链路,以及在发生故障时作为所述第一链路的备份链路的第二链路,然后在检测到第一链路发生故障时,上报故障信息,并从流表信息获取所述第二链路,然后基于第二链路传输数据,直至接收到重新分配的流表信息,即该方法采用了多路径备份的方案,当检测到链路故障时,将受影响的流故障转移至备份路径,这样主机的连接性可以在很短的时间内恢复,但是这种在交换机上为所有流表添加备份路径的做法会消耗大量的流表资源,可能导致交换机流表溢出。
[0004]另外,一种基于OpenFlow的段保护方案可在以太网的网络中出现单链路或接口故障时,实现快速恢复,此种方案在每跳上均计划了备份路径,而不是端到端计划备份路径,因此,可以在与故障链接相邻的本地交换机上重新计算路由,并缩短故障恢复时间;还有一种IP快速路由方案,该方案利用IP快速重路由框架来实现,许多路由协议可以利用IPFRR机制对网络故障进行恢复,IPFRR技术提前计算备用路由,在路由检测到链路故障时将流量切换到备用路径,在路由完成重新收敛期间,一直使用事先确定的备用路由指导转发,这样流量中断时间将被缩短。
[0005]除上述SDN网络抗毁技术研究基于路径保护机制方面之外,还存在一个最基本的常态,即目前大部分控制器在转发数据的路径选择方面均基于最短路径算法,在链路故障时,若数据量较小,则最短路径算法进行链路恢复的速度很快,然而,当数据量较大且故障发生时,如果所有的数据包传输均使用最短路径算法进行恢复,某些链路很可能会出现网络拥塞,造成数据丢失,因为最短路径算法并没有能够考虑到链路的时延和带宽等影响因素。在最短路径算法中,路径的最大带宽其实是受路径中的带宽最小的链路制约。同理,使用最短路径算法后的路由时延也很可能被某条时延极差的链路影响。

技术实现思路

[0006]为解决在软件定义网络中,当前链路抗毁技术无法兼顾降低故障链路恢复时间和减轻流表资源消耗的问题,本专利技术提供一种基于Q

学习的SDN链路抗毁方法及系统,不需为所有流表添加备份路径,但能在链路发生故障时提供更加合理的备份路径,减少链路中断,降低故障链路恢复时间,减轻流表资源消耗,提高网络抗毁性。
[0007]为了达到上述技术效果,本专利技术的技术方案如下:
[0008]一种基于Q

学习的SDN链路抗毁方法,至少包括:
[0009]S1.获取网络拓扑,统计链路状态信息,根据链路状态信息,获得每一段链路的中断概率;
[0010]S2.通过中断概率获得每一段链路的奖励值,根据奖励值得到奖励矩阵R,设置折扣因子γ,初始化Q

学习的Q矩阵为全零矩阵;
[0011]S3.从网络中随机选择一个交换机作为目的交换机S
d
,初始化随机选择一个交换机作为源交换机S;
[0012]S4.在源交换机S所有能到达的交换机中随机选择一个交换机作为次态交换机S

,发送数据包,计算该过程中的Q值,更新Q矩阵;
[0013]S5.判断次态交换机S

是否为目的交换机,若是,一次交换机变化训练完成,执行步骤S6;否则,将次态S

更新为当前的交换机,返回步骤S4;
[0014]S6.判断Q矩阵是否收敛,若是,通过Q矩阵的值确定最不易中断的链路路径,根据链路路径生成流表,下发至交换机的端口进行数据转发;否则,返回步骤S4。
[0015]优选地,步骤S1所述根据链路状态信息,获得每一段链路的中断概率的过程为:
[0016]统计一定时间段T内网络中每一段链路的中断时间t
i
,i表示链路序号,得到每一段链路的中断概率p
i
,表达式为:
[0017]p
i
=t
i
/T。
[0018]优选地,通过中断概率获得每一段链路的奖励值为:
[0019]rw
t
=λlog(1

p
i
)+c
[0020]其中,rw
t
表示t时刻下数据包从交换机S发送到下一个交换机S

时所获取的奖励值;λ表示奖励系数,c表示附加常数;p
i
表示每一段链路的中断概率。
[0021]优选地,步骤S4中Q值的计算公式为:
[0022][0023]其中,S

表示下一状态的交换机,γ表示折扣因子,Q表示在数据包到达交换机S时,能够获得的最大期望收益;R(S,S

)表示立即获得的收益,γmaxQ*
k
(S')是未来折扣收益;通过Q值更新确定Q矩阵的所有元素。
[0024]优选地,γ代表Q

学习对以往奖励的在意程度,γ越大,Q

学习越在意以往的经验,反之,Q

学习越在意当前利益。
[0025]优选地,Q

学习的Q矩阵在精度ε下保持不变时,则Q矩阵收敛,根据Q矩阵中的元素,确定最不易中断的链路路径,根据链路路径生成流表。
[0026]一种存储介质,所述存储介质用于存储所述的基于Q

学习的SDN链路抗毁方法的计算机程序。
[0027]本专利技术还提出一种基于Q

学习的SDN链路抗毁系统,所述系统用于实现所述的SDN链路抗毁方法,包括:
[0028]交换机,设有若干个端口,所述端口用于接收数据包以及根据流表转发数据包;
[0029]链路感知模块,用于获取网络拓扑,统计链路状态信息;
[0030]概率获得模块,根据链路状态信息,获得每一段链路的中断概率;
[0031]强化学习模块,接收每一段链路的中断概率,结合中断概率,基于Q

学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Q

学习的SDN链路抗毁方法,其特征在于,至少包括:S1.获取网络拓扑,统计链路状态信息,根据链路状态信息,获得每一段链路的中断概率;S2.通过中断概率获得每一段链路的奖励值,根据奖励值得到奖励矩阵R,设置折扣因子γ,初始化Q

学习的Q矩阵为全零矩阵;S3.从网络中随机选择一个交换机作为目的交换机S
d
,初始化随机选择一个交换机作为源交换机S;S4.在源交换机S所有能到达的交换机中随机选择一个交换机作为次态交换机S

,发送数据包,计算该过程中的Q值,更新Q矩阵;S5.判断次态交换机S'是否为目的交换机,若是,一次交换机变化训练完成,执行步骤S6;否则,将次态S'更新为当前的交换机,返回步骤S4;S6.判断Q矩阵是否收敛,若是,通过Q矩阵的值确定最不易中断的链路路径,根据链路路径生成流表,下发至交换机的端口进行数据转发;否则,返回步骤S4。2.根据权利要求1所述的基于Q

学习的SDN链路抗毁方法,其特征在于,步骤S1所述根据链路状态信息,获得每一段链路的中断概率的过程为:统计一定时间段T内网络中每一段链路的中断时间t
i
,i表示链路序号,得到每一段链路的中断概率p
i
,表达式为:p
i
=t
i
/T。3.根据权利要求2所述的基于Q

学习的SDN链路抗毁方法,其特征在于,通过中断概率获得每一段链路的奖励值为:rw
t
=λlog(1

p
i
)+c其中,rw
t
表示t时刻下数据包从交换机S发送到下一个交换机S

时所获取的奖励值;λ表示奖励系数,c表示附加常数;p
i
表示每一段链路的中断概率。4.根据权利要求3所述的基于Q

学习的SDN链路抗毁方法,其特征在于,步骤S4中Q值的计算公式为:其中,S

表示下一状态的交换机,γ表示折扣因子,Q表示在数据包到达交换机S时,能够获得的最大期望收益;R(S,S

)表示立即获得的收益,γmaxQ*
k
(S')是未来折扣收益;通过Q值更新确定Q矩阵的所有元素。5.根据权利要求4所述的基于Q

学习的SDN链路抗毁方法,其特征在于,γ代表Q
...

【专利技术属性】
技术研发人员:王炜发杨青桦张大眀李勇
申请(专利权)人:中国电子科技集团公司第七研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1