路由规划方法、装置及电子设备制造方法及图纸

技术编号:25230437 阅读:31 留言:0更新日期:2020-08-11 23:17
本发明专利技术提供了一种路由规划方法、装置及电子设备,该方法包括:获取目标路由器的目的地址路由及目标路由器的相邻路由器;将目标路由器的目的地址路由及目标路由器的相邻路由器输入预先训练得到的深度学习模型,基于预先训练得到的深度学习模型得到目标路由器的各可执行动作对应的衡量值;其中,可执行动作包括目标路由器的下一跳路由器和/或目标路由器到目的地址路由的各个路径;基于衡量值确定目标路由器的目标执行动作。本发明专利技术提升了路由规划的可靠性。

【技术实现步骤摘要】
路由规划方法、装置及电子设备
本专利技术涉及计算机
,尤其是涉及一种路由规划方法、装置及电子设备。
技术介绍
随着的飞速发展,用户数量迅速增加,新的网络应用不断涌现,使得网络流量急剧增加,由此引发的网络拥塞己经成为制约网络发展和应用的瓶颈问题,信息拥塞是影响网络服务质量的主要原因,有效地解决拥塞问题对于提高网络性能具有重要意义。SDN(SoftwareDefinedNetworking)作为一种新型的网络架构,具有转发与控制分离的特性,集中式控制也给网络管理带来了极大的便利,如何为数据包找到合适的转发路径,充分高效地利用SDN中每条数据链路,是当前研究的热点课题。然而,现有的路由规划技术是基于强化学习算法计算衡量值,难以应用于高维状态空间和连续状态空间的问题。因此,现有的路由规划方法还存在可靠性低的问题。
技术实现思路
本专利技术实施例的目的在于提供一种路由规划方法、装置及电子设备,能够提升路由规划的可靠性。第一方面,本专利技术实施例提供了一种路由规划方法,包括:获取目标路由器的目的地址路由及所述目标路由器的相邻路由器;将所述目标路由器的目的地址路由及所述目标路由器的相邻路由器输入预先训练得到的深度学习模型,基于所述预先训练得到的深度学习模型得到所述目标路由器的各可执行动作对应的衡量值;其中,所述可执行动作包括所述目标路由器的下一跳路由器和/或所述目标路由器到所述目的地址路由的各个路径;基于所述衡量值确定所述目标路由器的目标执行动作。在可选的实施方式中,所述深度学习模型包括Seq2seq模型;所述可执行动作包括所述目标路由器的下一跳路由器;所述基于所述预先训练得到的深度学习模型得到所述目标路由器的各可执行动作对应的衡量值的步骤,包括:将所述目标路由器的各相邻路由器作为所述目标路由器的下一跳路由器;基于预先训练得到的所述Seq2seq模型确定所述目标路由器到各所述下一跳路由器产生的衡量值。在可选的实施方式中,所述可执行动作包括所述目标路由器到所述目的地址路由的各个路径;所述基于所述预先训练得到的深度学习模型得到所述目标路由器的各可执行动作对应的衡量值的步骤,包括:基于预先训练得到的所述Seq2seq模型确定所述目标路由器到所述目的地址路由的各个路径产生的衡量值。在可选的实施方式中,所述Seq2seq模型的训练过程包括:将目标训练样本输入Seq2seq模型,基于所述目标训练样本对Seq2seq模型进行迭代训练,直至训练结束,得到训练后的Seq2seq模型;其中,所述目标训练样本包括标注有所述目标路由器到各所述下一跳路由器产生的衡量值的样本和/或标注有所述目标路由器到所述目的地址路由的各个路径产生的衡量值的样本,所述目标训练样本标注的衡量值是预先基于强化学习算法得到的环境对动作的奖励。在可选的实施方式中,所述基于所述衡量值确定所述目标路由器的目标执行动作的步骤,包括:基于预设的第一贪婪策略算式确定所述衡量值最大时对应的目标执行动作,所述预设的第一贪婪策略算式为:其中,Q(st,at)为所述衡量值,at为所述目标执行动作,st为所述目标路由器的当前网络状态。在可选的实施方式中,所述基于所述衡量值确定所述目标路由器的目标执行动作的步骤,包括:基于预设的第二贪婪策略算式确定所述衡量值最大时对应的目标执行动作,所述预设的第二贪婪策略算式为:其中,τn为温度参数。在可选的实施方式中,所述温度参数的计算算式为:其中,numn为(τn,τn-1]期间的动态流数量,T为实现收敛的时间,τ0和τT分别为的初始值和最终值。第二方面,本专利技术实施例提供了一种路由规划装置,包括:状态获取模块,用于获取目标路由器的目的地址路由及所述目标路由器的相邻路由器;衡量值确定模块,用于将所述目标路由器的目的地址路由及所述目标路由器的相邻路由器输入预先训练得到的深度学习模型,基于所述预先训练得到的深度学习模型得到所述目标路由器的各可执行动作对应的衡量值;其中,所述可执行动作包括所述目标路由器的下一跳路由器和/或所述目标路由器到所述目的地址路由的各个路径;动作确定模块,用于基于所述衡量值确定所述目标路由器的目标执行动作。第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如第一方面所述的方法的步骤。第四方面,本专利技术实施例提供了一种计算机可读介质,其中,所述计算机可读介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使所述处理器实现如第一方面所述的方法。本专利技术实施例提供了一种路由规划方法、装置及电子设备,在该方法中,首先获取目标路由器的目的地址路由及目标路由器的相邻路由器;然后将目标路由器的目的地址路由及目标路由器的相邻路由器输入预先训练得到的深度学习模型,基于预先训练得到的深度学习模型得到目标路由器的各可执行动作(包括目标路由器的下一跳路由器和/或目标路由器到目的地址路由的各个路径)对应的衡量值;最后基于衡量值确定目标路由器的目标执行动作。在该方法中,将待规划的目标路由器的目的地址路由及目标路由器的相邻路由器输入深度学习模型,就可以得到目标路由器的各可执行动作对应的衡量值,可以应用于SDN新型网络架构,解决了传统强化学习算法难以应用于高维状态空间和连续状态空间的问题,提升了路由规划的可靠性。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种路由规划方法流程图;图2为本专利技术实施例提供的一种Seq2seq模型识别示意图;图3为本专利技术实施例提供的一种路由规划装置结构示意图;图4为本专利技术实施例提供的一种电子设备结构示意图。具体实施方式下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。考虑到现有的路由规划方法还存在可靠性低的问题,本专利技术实施例提供了一种路由规划方法、装置及电子设备,可以应用于提升路由规划的可靠性,以下对本专利技术实施例进行详细介绍。本专利技术实施例提供了一种路由规划方法,参见如图1所示的路由规划方法流程图,该方法可以由电子设备诸如移动终端或计算机执行,该方法主要包括以下步骤S102~步骤S106:步骤S102,获取目标路由器的目的地址路由及目标路由器的相邻路由器。上述目标路由器可以是SDN网络架构中任意一个需要规划数据包转发路径的路由器,上述目的地址路由是目标路由器的数据本文档来自技高网...

【技术保护点】
1.一种路由规划方法,其特征在于,包括:/n获取目标路由器的目的地址路由及所述目标路由器的相邻路由器;/n将所述目标路由器的目的地址路由及所述目标路由器的相邻路由器输入预先训练得到的深度学习模型,基于所述预先训练得到的深度学习模型得到所述目标路由器的各可执行动作对应的衡量值;其中,所述可执行动作包括所述目标路由器的下一跳路由器和/或所述目标路由器到所述目的地址路由的各个路径;/n基于所述衡量值确定所述目标路由器的目标执行动作。/n

【技术特征摘要】
1.一种路由规划方法,其特征在于,包括:
获取目标路由器的目的地址路由及所述目标路由器的相邻路由器;
将所述目标路由器的目的地址路由及所述目标路由器的相邻路由器输入预先训练得到的深度学习模型,基于所述预先训练得到的深度学习模型得到所述目标路由器的各可执行动作对应的衡量值;其中,所述可执行动作包括所述目标路由器的下一跳路由器和/或所述目标路由器到所述目的地址路由的各个路径;
基于所述衡量值确定所述目标路由器的目标执行动作。


2.根据权利要求1所述的方法,其特征在于,所述深度学习模型包括Seq2seq模型;所述可执行动作包括所述目标路由器的下一跳路由器;
所述基于所述预先训练得到的深度学习模型得到所述目标路由器的各可执行动作对应的衡量值的步骤,包括:
将所述目标路由器的各相邻路由器作为所述目标路由器的下一跳路由器;
基于预先训练得到的所述Seq2seq模型确定所述目标路由器到各所述下一跳路由器产生的衡量值。


3.根据权利要求2所述的方法,其特征在于,所述可执行动作包括所述目标路由器到所述目的地址路由的各个路径;
所述基于预先训练得到的深度学习模型得到所述目标路由器的各可执行动作对应的衡量值的步骤,包括:
基于预先训练得到的所述Seq2seq模型确定所述目标路由器到所述目的地址路由的各个路径产生的衡量值。


4.根据权利要求3所述的方法,其特征在于,所述Seq2seq模型的训练过程包括:
将目标训练样本输入Seq2seq模型,基于所述目标训练样本对Seq2seq模型进行迭代训练,直至训练结束,得到训练后的Seq2seq模型;其中,所述目标训练样本包括标注有所述目标路由器到各所述下一跳路由器产生的衡量值的样本和/或标注有所述目标路由器到所述目的地址路由的各个路径产生的衡量值的样本,所述目标训练样本标注的衡量值是预先基于强化学习算法得到的环境对动作的奖励。


5.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:姚海鹏袁鑫买天乐
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1