【技术实现步骤摘要】
基于深度强化学习和知识蒸馏的光网络路由方法
[0001]本专利技术属于强化学习在光网络路由分配中应用的领域,具体涉及一种基于深度强化学习和知识蒸馏的光网络路由方法。
技术介绍
[0002]随着互联网技术的发展,人们对通信的需求不断增长,面对不断增长的流量和各种服务质量需求,如何做到合理地分配网络资源成为一个重要的研究难题。为流量请求选择最优的路径以及最佳的波长分配方案,可以降低网络的阻塞率,提高光网络的利用率。
[0003]传统的光网络路由问题方法(Zang,Hui,Jason P.Jue,and Biswanath Mukherjee."A review of routing and wavelength assignment approaches for wavelength
‑
routed optical WDM networks."Optical networks magazine 1.1(2000):47
‑
60.)一般采用启发式的分配策略,这些启发式的策略大都是基于研究 ...
【技术保护点】
【技术特征摘要】
1.基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,包括以下步骤:S1、给定第一流量模式,采用强化学习算法训练教师模型;S2、调用训练好的教师模型,在第二流量模式下,生成学生模型的训练数据;S3、在步骤S2中的第二流量模式下,将教师模型生成的数据通过知识蒸馏对学生模型进行训练,得到初步训练的学生模型;S4、对步骤S3中经过初步训练的学生模型采用强化学习算法进行训练,学生模型学得第二流量模式的路由策略,完成基于深度强化学习和知识蒸馏的光网络路由。2.根据权利要求1所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S1中,教师模型是一个全连接神经网络,教师模型的输出层输出的是对应输入状态s(t)下K个状态
‑
动作对(s(t),a
k
(t)),k∈{1,2,...,K}的Q值Q(s(t),a
k
(t);Θ
T
),k∈{1,2,...,K},其中,K表示新到达的流量请求的候选路径总数,s(t)表示t时刻教师模型的输入状态,a
k
(t)表示t时刻状态下从K条候选路径中选择第k条路径的动作,Θ
T
表示教师模型训练得到的参数。3.根据权利要求2所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S1中,假设在一个光网络拓扑环境下,给定一个第一流量模式,流量请求的源节点和目的节点在第一流量模式下随机选取,然后教师模型通过深度强化学习智能体与光网络环境交互进行训练,具体如下:将在第一流量模式下得到的t时刻的光网络状态s
net
(t)以及t时刻的流量请求状态s
tra
(t)组成一个L
×
(W+K)的第一流量模式下的输入状态矩阵s(t)=[s
net
(t),s
tra
(t)]
L
×
(W+K)
,其中光网络状态s
net
(t)是一个L
×
W的矩阵,矩阵中的元素E
lw
表示链路l上波长w的可用性,如果可用,则E
lw
为1,否则E
lw
为0;L为光网络拓扑中链路的总数,W为链路中波长的总数;流量请求状态s
tra
(t)是一个L
×
K矩阵,矩阵中的元素F
lk
的定义如下表示:4.根据权利要求3所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,将第一流量模式下的输入状态矩阵s(t)作为教师模型的输入,通过教师模型估计的Q值与目标Q值之间的均方误差建立损失函数L(Θ
T
),其中,目标Q值由即时奖励r(t)和下一状态s(t+1)的折扣最大Q值组成,下一状态s(t+1)的折扣最大Q值通过将下一状态s(t+1)的教师模型输出的最大Q值乘以一个折扣系数γ得到;损失函数L(Θ
T
)的公式表达如下:其中,a
k
(t+1)表示在下一状态s(t+1)下从K条候选路径中选择第k条路径的动作,Θ
T
表示教师模型训练得到的参数,表示对估计的Q值与目标Q值平方差求期望;最后,利用梯度下降法来最小化损失函数L(Θ
T
),得到训练好的教师模型。5.根据权利要求4所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S2中,假设在一个光网络拓扑环境下,在一个第二流量模式下,流量请求的源节点和目的节点在第二流量模式下随机选取;将在第二流量模式下得到的t时...
【专利技术属性】
技术研发人员:唐碧霞,黄岳彩,陈建颖,薛云,周卫星,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。