【技术实现步骤摘要】
一种流量传输策略的确定方法及装置
本专利技术涉及通信
,特别是涉及一种流量传输策略的确定方法及装置。
技术介绍
随着计算机网络的快速发展,网络业务日益多样化,流量呈爆炸性增长。为了提高整个网络中流量的传输效率,需要实时调整各个通信设备中的流量传输策略,以使通信设备基于调整后的流量传输策略传输流量,进而使整个网络中流量的传输效率达到最优。目前,常见的流量传输策略的确定方式有以下几种。第一种,网络管理员手动在不同的通信设备上配置相应的流量传输策略。当需要修改流量传输策略时,网络管理员再手动地修改通信设备上的流量传输策略。采用这种流量传输策略的确定方式来实现调整通信设备传输的流量,其效率较低,且人工成本较高。第二种,在通信设备中配置Q-learning(状态动作学习)算法,通过Q-learning算法,可实现根据网络流量负载的变化,自适应地调整通信设备中的流量传输策略。采用这种流量传输策略的确定方式来实现调整通信设备传输的流量,可以提高流量传输调整效率,降低人工成本。但是,当有新的通信设备加入网络中时 ...
【技术保护点】
1.一种流量传输策略的确定方法,其特征在于,应用于软件定义网络的控制器,所述方法包括:/n获取所述软件定义网络中所有节点对的第一通信状态,所述节点对包括通信连接的两个节点,所述节点对包括的两个节点之间存在至少一条传输路径;/n将所述所有节点对的第一通信状态输入预设学习模型,得到每一所述节点对的控制动作,所述控制动作包括所述节点对对应的每条传输路径的负载比例,所述预设学习模型为基于预设训练集对深度强化学习网络进行训练得到的模型,所述预设训练集包括多个样本组,每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行所述样本控制动作前的第一样本通信状态和执行所述样本控制 ...
【技术特征摘要】
1.一种流量传输策略的确定方法,其特征在于,应用于软件定义网络的控制器,所述方法包括:
获取所述软件定义网络中所有节点对的第一通信状态,所述节点对包括通信连接的两个节点,所述节点对包括的两个节点之间存在至少一条传输路径;
将所述所有节点对的第一通信状态输入预设学习模型,得到每一所述节点对的控制动作,所述控制动作包括所述节点对对应的每条传输路径的负载比例,所述预设学习模型为基于预设训练集对深度强化学习网络进行训练得到的模型,所述预设训练集包括多个样本组,每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行所述样本控制动作前的第一样本通信状态和执行所述样本控制动作后的第二样本通信状态;
基于每一所述节点对的控制动作,生成该节点对对应的流量传输策略。
2.根据权利要求1所述的方法,其特征在于,所述深度强化学习网络包括动作网络和评判网络,其中,所述动作网络,用于基于输入的节点对的通信状态,输出每一节点对的控制动作;所述评判网络,用于基于输入的各个节点对的通信状态和控制动作,输出各个节点对对应的通信评判值;所述预设学习模型采用以下步骤训练得到:
获取所述预设训练集,所述预设训练集包括多个样本组,每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行所述样本控制动作前的第一样本通信状态和执行所述样本控制动作后的第二样本通信状态;
从所述预设训练集包括的多个样本组中,获取多个目标样本组;
基于每一目标样本组包括的第二样本通信状态,确定该目标样本组对应的多步收益值;
将每一目标样本组包括的第一样本通信状态和样本控制动作分别输入所述评判网络,输出每一目标样本组对应的通信评判值;
基于各个所述目标样本组对应的通信评判值和多步收益值,更新所述动作网络和所述评判网络的参数,并累计所述预设学习模型的训练次数,返回所述从所述预设训练集包括的多个样本组中,获取多个目标样本组的步骤,直至所述训练次数达到预设训练次数阈值。
3.根据权利要求2所述的方法,其特征在于,所述获取所述预设训练集的步骤,包括:
获取多个样本节点对的第一样本通信状态;
将所述多个样本节点对的第一样本通信状态分别输入所述动作网络,得到每一所述样本节点对对应的输出控制动作;
基于所述输出控制动作,确定所述多个样本节点对的样本控制动作;
控制所述多个样本节点对执行所述样本控制动作,得到所述多个样本节点对执行所述样本控制动作后的第二样本通信状态;
基于所述多个样本节点对的第一样本通信状态、所述多个样本节点对的样本控制动作、以及所述多个样本节点对执行所述样本控制动作后的第二样本通信状态确定多个样本组。
4.根据权利要求3所述的方法,其特征在于,所述基于所述输出控制动作,确定所述多个样本节点对的样本控制动作的步骤,包括:
获取预设的基础控制动作;
按照预设的选择所述基础控制动作的概率,选取所述输出控制动作或所述基础控制动作,作为样本控制动作。
5.根据权利要求2所述的方法,其特征在于,所述基于每一目标样本组包括的第二样本通信状态,确定该目标样本组对应的多步收益值的步骤,包括:
针对每一目标样本组,获取以该目标样本组为起始点的连续多个关联样本组,在该目标样本组和所述多个关联样本组中,每两个相邻的样本组中,后一个样本组包括的第一样本通信状态与前一个样本组包括的第二样本通信状态相同;基于每一关联样本组包括的第二样本通信状态,确定该关联样本组对应的当前收益值,并基于该目标样本组包括的第二样本通信状态,确定该目标样本组对应的当前收益值;基于每一关联样本组对应的当前收益值和每一目标样本组对应的当前收益值,确定该目标样本组的多步收益值。
6.根据权利要求5所述的方法,其特征在于,所述第二样本通信状态包括平均通信时延和平均通信速率;
所述基于每一关联样本组包括的第二样本通信状态,确定该关联样本组对应的当前收益值,并基于该目标样本组包括的第二样本通信状态,确定该目标样本组对应的当前收益值的步骤,包括:
针对每一相...
【专利技术属性】
技术研发人员:王颖,安恒彬,邢宁哲,纪雨彤,金燊,刘川,刘世栋,马睿,欧清海,郭少勇,
申请(专利权)人:北京邮电大学,国网冀北电力有限公司信息通信分公司,国家电网有限公司,全球能源互联网研究院有限公司,国家电网有限公司信息通信分公司,国网信息通信产业集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。