【技术实现步骤摘要】
一种基于深度强化学习的软件定义网络路由方法
[0001]本专利技术涉及软件定义网络路由的
,尤其涉及一种基于深度强化学习的软件定义网络路由方法。
技术介绍
[0002]路由是软件定义网络SDN领域中一类重要任务,该类任务旨在为SDN中的网络流选择最合适的转发路径,在网络管理中有广泛的应用。其中,传统方法主要是传统路由策略在SDN网络下的实现,以及将路由问题构建成优化问题并设计启发式算法求解。与传统方法相比,基于机器学习的方法更灵活且能获得更好的QoS指标,由于基于强化学习RL的方法不需要标签数据,能自主学习故相比基于监督学习的方法更适合用来解决路由问题。
[0003]基于RL的路由任务中,关键步骤是设计状态空间、动作空间和奖励值并选择合适的强化学习算法,目前方法大多基于值函数或者策略梯度的强化学习算法实现,一部分方法考虑整个网络状态信息来设计状态空间,将链路权重矩阵作为动作输出,提出了基于深度确定性策略梯度DDPG的路由方法,其考虑网络状态的周期性并用递归神经网络RNN来捕获特性,还有方法考虑网络中TCAM资源 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的软件定义网络路由方法,其特征在于,包括:基于网络实际运行参数,根据大流优先调度的原则和任务目标分别对网络流信息进行状态设计和动作设计;基于软件定义网络SDN控制器获取的网络带宽数据构建网络拥塞模型;根据所述网络拥塞模型和网络QoS数据进行奖励设计,并结合所述状态设计和所述动作设计训练强化学习模型;所述强化学习模型基于实际网络流的状态值实现路由的选择。2.如权利要求1所述的基于深度强化学习的软件定义网络路由方法,其特征在于,所述状态设计包括:基于大流优先调度原则,为网络中每个网络流设计一个状态;所述状态设计可表示为:s
i
=(src,dst,seq)其中,src和dst分别为流的源节点和目标节点,seq为该流在所有流中的相对大小。3.如权利要求2所述的基于深度强化学习的软件定义网络路由方法,其特征在于,动作设计包括:基于任务目标为每个网络流选择一条路径,通过Dijkstra算法预先为每条流计算若干条路径,从备选路径中选择一条路径输出。4.如权利要求3所述的基于深度强化学习的软件定义网络路由方法,其特征在于,根据网络带宽数据构建网络拥塞模型包括:将网络拥塞模型定义为:{θ
max
,(link
ij
,α
ij
,β
ij
,γ
ij
)}其中,θ
max
为拥塞阈值,link
ij
为网络中任意一条链路,α
ij
为链路利用率,β
ij
为链路瞬时流量,γ
ij
为间接拥塞度,i为第一交换机,j为第二交换机。5.如权利要求4所述的基于深度强化学习的软件定义网络路由方法,其特征在于,还包括:基于网络带宽数据计算网络中链路的链路利用率以及链路瞬时流量;所述链路利用率为已有带宽和链路带宽的比值;所述链路瞬时流量为当前时刻链路已用带宽和上一时刻链路已用带宽的差值除以间隔时间。6.如权利要求5所述的基于深度强化学习的软件定义网络路由方法,其特征在于,根据所述链路利用率和链路瞬时流量计算链路的间接拥塞度,包括:目标链...
【专利技术属性】
技术研发人员:蒋昌俊,闫春钢,丁志军,王俊丽,张亚英,柯宇,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。