The embodiment of the application provides a network energy-saving method and device based on reinforcement learning, which belongs to the field of communication technology. The method includes: obtaining the current first load matrix of the SDN network, in which the first load matrix is used to represent the network topology information of the SDN network and the load information of the switches in the SDN network; determining the first load matrix by the pre-stored AI decision algorithm model and the first load matrix The first decision includes the identification of the target switch to be adjusted in the SDN network, and the corresponding control instructions of the target switch, which are the opening or closing instructions; based on the first decision, the control instructions are sent to the target switch to adjust the SDN. Network Topology of Network. By adopting the invention, the generation time of a single decision can be reduced.
【技术实现步骤摘要】
一种基于强化学习的网络节能方法及装置
本申请涉及计算机
,特别是涉及一种基于强化学习的网络节能方法及装置。
技术介绍
交换机和路由器等网络设备,是SDN(SoftwareDefinedNetwork,软件定义网络)网络的基础设施及主要能源消耗点。在SDN网络中,为了保障连通的可靠性,网络控制器一般将各交换机和路由器始终保持在开启的状态。然而由于网络运行存在高峰与低谷时段,对网络设备的需求不定,始终满负荷运行网络设备,会造成SDN网络中空闲的冗余链路过多、整体能效差等问题。针对这一问题,人们提出了GreenTE(GreenTrafficEnginerring,绿色流量工程)算法模型,GreenTE算法模型通过网络控制器对网络进行建模,确定网络拓扑以及负载矩阵。然后根据启发式算法模型,计算可以进入睡眠状态的链路数量的最大值,同时确定要使用的目标链路、每条目标链路上要承载的流量。网络控制器在不影响网络正常工作的前提下,根据GreenTE算法模型的计算结果,调整网络的拓扑结构,以减少冗余链路,从而促进网络级别的电源管理,进而允许更多网络设备或组件进入省电模式,最大限度地减少网络的功耗。然而,由于GreenTE算法模型计算复杂度高,计算量大,导致产生单次决策所需的计算时间过长,基于单次决策调整网络拓扑所需时间过长,无法适应大型网络的实时需求。
技术实现思路
本申请实施例的目的在于提供一种基于强化学习的网络节能方法及装置,以减少决策生成时间。具体技术方案如下:第一方面,提供了一种基于强化学习的网络节能方法,所述方法应用于SDN网络中的服务器,所述方法包括:获取所述S ...
【技术保护点】
1.一种基于强化学习的网络节能方法,其特征在于,所述方法应用于SDN网络中的服务器,所述方法包括:获取所述SDN网络当前的第一负载矩阵,其中,所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息;通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵,确定第一决策,其中,所述第一决策包括所述SDN网络中待调整的目标交换机的标识,以及所述目标交换机对应的控制指令,所述控制指令为开启指令或关闭指令;基于所述第一决策,向所述目标交换机发送所述控制指令,以调整所述SDN网络的网络拓扑。
【技术特征摘要】
1.一种基于强化学习的网络节能方法,其特征在于,所述方法应用于SDN网络中的服务器,所述方法包括:获取所述SDN网络当前的第一负载矩阵,其中,所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息;通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵,确定第一决策,其中,所述第一决策包括所述SDN网络中待调整的目标交换机的标识,以及所述目标交换机对应的控制指令,所述控制指令为开启指令或关闭指令;基于所述第一决策,向所述目标交换机发送所述控制指令,以调整所述SDN网络的网络拓扑。2.根据权利要求1所述的方法,其特征在于,所述获取所述SDN网络当前的第一负载矩阵之前,还包括:获取当前SDN网络中的各交换机的第一负载信息、以及所述当前SDN网络的第一网络拓扑信息;基于所述第一负载信息、所述第一网络拓扑信息和预先存储的环境抽象方式,确定所述SDN网络的第一负载矩阵。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:初始化所述SDN网络;获取初始化后的SDN网络的第二负载矩阵;基于所述SDN网络的第二负载矩阵,对预设的初始算法模型进行训练,得到所述初始算法模型包含的各参数的目标参数值;根据所述各参数的目标参数值和所述初始算法模型,确定所述人工智能AI决策算法模型。4.根据权利要求3所述的方法,其特征在于,所述初始化所述SDN网络,包括:接收所述人工智能AI决策算法模型发送的初始化指令,其中,所述初始化指令用于指示开启所述SDN网络中所有交换机;根据所述初始化指令,在所述SDN网络的多个主机中,启动带内遥测INT生成进程,以使所述多个主机生成并发送带内遥测INT包;接收所述多个主机发出的带内遥测INT包,并根据接收到的所述带内遥测INT包,确定所述SDN网络的初始负载信息。5.根据权利要求3所述的方法,其特征在于,所述基于所述SDN网络的第二负载矩阵,对预设的初始算法模型进行训练,得到所述初始算法模型包含的各参数的目标参数值,包括:根据预先存储的初始算法模型和所述第二负载矩阵,计算预先存储的策略集合中每个策略的执行概率,其中,所述策略集合包括开启或关闭所述SDN网络中任一交换机,以及空动作,所述空动作代表不开启或关闭任一交换机;按照执行概率抽样所述策略集合,得到目标策略,并将目标策略作为第二决策;针对每个第二决策,获取所述SDN网络的第二网络拓扑信息,同时更新所述第二网络拓扑信息对应的第二负载信息;基于预先存储的网络评估函数,计算所述第二决策的收益值;针对各第二决...
【专利技术属性】
技术研发人员:潘恬,黄韬,彭小雨,边子政,林兴晨,宋恩格,刘韵洁,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。