一种基于强化学习的网络节能方法及装置制造方法及图纸

技术编号:19547641 阅读:26 留言:0更新日期:2018-11-24 21:16
本申请实施例提供了一种基于强化学习的网络节能方法及装置,属于通信技术领域。所述方法包括:获取所述SDN网络当前的第一负载矩阵,其中,所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息;通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵,确定第一决策,其中,所述第一决策包括所述SDN网络中待调整的目标交换机的标识,以及所述目标交换机对应的控制指令,所述控制指令为开启指令或关闭指令;基于所述第一决策,向所述目标交换机发送所述控制指令,以调整所述SDN网络的网络拓扑。采用本发明专利技术,可以减少单次决策的生成时间。

A Network Energy Saving Method and Device Based on Reinforcement Learning

The embodiment of the application provides a network energy-saving method and device based on reinforcement learning, which belongs to the field of communication technology. The method includes: obtaining the current first load matrix of the SDN network, in which the first load matrix is used to represent the network topology information of the SDN network and the load information of the switches in the SDN network; determining the first load matrix by the pre-stored AI decision algorithm model and the first load matrix The first decision includes the identification of the target switch to be adjusted in the SDN network, and the corresponding control instructions of the target switch, which are the opening or closing instructions; based on the first decision, the control instructions are sent to the target switch to adjust the SDN. Network Topology of Network. By adopting the invention, the generation time of a single decision can be reduced.

【技术实现步骤摘要】
一种基于强化学习的网络节能方法及装置
本申请涉及计算机
,特别是涉及一种基于强化学习的网络节能方法及装置。
技术介绍
交换机和路由器等网络设备,是SDN(SoftwareDefinedNetwork,软件定义网络)网络的基础设施及主要能源消耗点。在SDN网络中,为了保障连通的可靠性,网络控制器一般将各交换机和路由器始终保持在开启的状态。然而由于网络运行存在高峰与低谷时段,对网络设备的需求不定,始终满负荷运行网络设备,会造成SDN网络中空闲的冗余链路过多、整体能效差等问题。针对这一问题,人们提出了GreenTE(GreenTrafficEnginerring,绿色流量工程)算法模型,GreenTE算法模型通过网络控制器对网络进行建模,确定网络拓扑以及负载矩阵。然后根据启发式算法模型,计算可以进入睡眠状态的链路数量的最大值,同时确定要使用的目标链路、每条目标链路上要承载的流量。网络控制器在不影响网络正常工作的前提下,根据GreenTE算法模型的计算结果,调整网络的拓扑结构,以减少冗余链路,从而促进网络级别的电源管理,进而允许更多网络设备或组件进入省电模式,最大限度地减少网络的功耗。然而,由于GreenTE算法模型计算复杂度高,计算量大,导致产生单次决策所需的计算时间过长,基于单次决策调整网络拓扑所需时间过长,无法适应大型网络的实时需求。
技术实现思路
本申请实施例的目的在于提供一种基于强化学习的网络节能方法及装置,以减少决策生成时间。具体技术方案如下:第一方面,提供了一种基于强化学习的网络节能方法,所述方法应用于SDN网络中的服务器,所述方法包括:获取所述SDN网络当前的第一负载矩阵,其中,所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息;通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵,确定第一决策,其中,所述第一决策包括所述SDN网络中待调整的目标交换机的标识,以及所述目标交换机对应的控制指令,所述控制指令为开启指令或关闭指令;基于所述第一决策,向所述目标交换机发送所述控制指令,以调整所述SDN网络的网络拓扑。可选的,所述获取所述SDN网络当前的第一负载矩阵之前,还包括:获取当前SDN网络中的各交换机的第一负载信息、以及所述当前SDN网络的第一网络拓扑信息;基于所述第一负载信息、所述第一网络拓扑信息和预先存储的环境抽象方法,确定所述SDN网络的第一负载矩阵。可选的,所述方法还包括:初始化所述SDN网络;获取初始化后的SDN网络的第二负载矩阵;基于所述SDN网络的第二负载矩阵,对预设的初始算法模型进行训练,得到所述初始算法模型包含的各参数的目标参数值;根据所述各参数的目标参数值和所述初始算法模型,确定所述人工智能AI决策算法模型。可选的,所述初始化所述SDN网络,包括:接收所述人工智能AI决策算法模型发送的初始化指令,其中,所述初始化指令用于指示开启所述SDN网络中所有交换机;根据所述初始化指令,在所述SDN网络的多个主机中,启动带内遥测INT生成进程,以使所述多个主机生成并发送带内遥测INT包;接收所述多个主机发出的带内遥测INT包,并根据接收到的所述带内遥测INT包,确定所述SDN网络的初始负载信息。可选的,所述基于所述SDN网络的第二负载矩阵,对预设的初始算法模型进行训练,得到所述初始算法模型包含的各参数的目标参数值,包括:根据预先存储的初始算法模型和所述第二负载矩阵,计算预先存储的策略集合中每个策略的执行概率,其中,所述策略集合包括开启或关闭所述SDN网络中任一交换机,以及空动作,所述空动作代表不开启或关闭任一交换机;按照执行概率抽样所述策略集合,得到目标策略,并将目标策略作为第二决策;针对每个第二决策,获取所述SDN网络的第二网络拓扑信息,同时更新所述第二网络拓扑信息对应的第二负载信息;基于预先存储的网络评估函数,计算所述第二决策的收益值;针对各第二决策,根据各第二决策对应的收益值、对应的第二负载矩阵、以及预先存储的损失函数,确定所述初始算法模型包含的各参数的目标参数值。第二方面,提供了一种基于强化学习的网络节能装置,所述装置应用于SDN网络中的服务器,所述装置包括:第一获取模块,用于获取所述SDN网络当前的第一负载矩阵,其中,所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息;第一确定模块,用于通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵,确定第一决策,其中,所述第一决策包括所述SDN网络中待调整的目标交换机的标识,以及所述目标交换机对应的控制指令,所述控制指令为开启指令或关闭指令;发送模块,用于基于所述第一决策,向所述目标交换机发送所述控制指令,以调整所述SDN网络的网络拓扑。可选的,所述装置还包括:初始化模块,用于初始化所述SDN网络;第二获取模块,用于获取初始化后的SDN网络的第二负载矩阵;训练模块,用于基于所述SDN网络的第二负载矩阵,对预设的初始算法模型进行训练,得到所述初始算法模型包含的各参数的目标参数值;第二确定模块,用于根据所述各参数的目标参数值和所述初始算法模型,确定所述人工智能AI决策算法模型。可选的,所述训练模块,包括:第一计算子模块,用于根据预先存储的初始算法模型和所述第二负载矩阵,计算预先存储的策略集合中每个策略的执行概率,其中,所述策略集合包括开启或关闭所述SDN网络中任一交换机,以及空动作,所述空动作代表不开启或关闭任一交换机;抽样子模块,用于按照执行概率抽样所述策略集合,得到目标策略,并将目标策略作为第二决策;获取子模块,用于针对每个第二决策,获取所述SDN网络的第二网络拓扑信息,同时更新所述第二网络拓扑信息对应的第二负载信息;第二计算子模块,用于基于预先存储的网络评估函数,计算所述第二决策的收益值;确定子模块,用于针对各第二决策,根据各第二决策对应的收益值、对应的第二负载矩阵、以及预先存储的损失函数,确定所述初始算法模型包含的各参数的目标参数值。第三方面,提供了一种服务器,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现第一方面所述的方法步骤。第四方面,提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现第一方面所述的方法步骤。本专利技术实施例提供了一种基于强化学习的网络节能方法及装置,通过获取SDN网络当前的第一负载矩阵;然后通过预先存储的人工智能AI决策算法模型和第一负载矩阵,确定第一决策,并基于第一决策,向目标交换机发送控制指令,以调整SDN的网络拓扑。由于本方法根据人工智能AI决策算法模型,进行第一决策的计算,能够减少单次决策生成时间。当然,实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种基于强本文档来自技高网...

【技术保护点】
1.一种基于强化学习的网络节能方法,其特征在于,所述方法应用于SDN网络中的服务器,所述方法包括:获取所述SDN网络当前的第一负载矩阵,其中,所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息;通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵,确定第一决策,其中,所述第一决策包括所述SDN网络中待调整的目标交换机的标识,以及所述目标交换机对应的控制指令,所述控制指令为开启指令或关闭指令;基于所述第一决策,向所述目标交换机发送所述控制指令,以调整所述SDN网络的网络拓扑。

【技术特征摘要】
1.一种基于强化学习的网络节能方法,其特征在于,所述方法应用于SDN网络中的服务器,所述方法包括:获取所述SDN网络当前的第一负载矩阵,其中,所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息;通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵,确定第一决策,其中,所述第一决策包括所述SDN网络中待调整的目标交换机的标识,以及所述目标交换机对应的控制指令,所述控制指令为开启指令或关闭指令;基于所述第一决策,向所述目标交换机发送所述控制指令,以调整所述SDN网络的网络拓扑。2.根据权利要求1所述的方法,其特征在于,所述获取所述SDN网络当前的第一负载矩阵之前,还包括:获取当前SDN网络中的各交换机的第一负载信息、以及所述当前SDN网络的第一网络拓扑信息;基于所述第一负载信息、所述第一网络拓扑信息和预先存储的环境抽象方式,确定所述SDN网络的第一负载矩阵。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:初始化所述SDN网络;获取初始化后的SDN网络的第二负载矩阵;基于所述SDN网络的第二负载矩阵,对预设的初始算法模型进行训练,得到所述初始算法模型包含的各参数的目标参数值;根据所述各参数的目标参数值和所述初始算法模型,确定所述人工智能AI决策算法模型。4.根据权利要求3所述的方法,其特征在于,所述初始化所述SDN网络,包括:接收所述人工智能AI决策算法模型发送的初始化指令,其中,所述初始化指令用于指示开启所述SDN网络中所有交换机;根据所述初始化指令,在所述SDN网络的多个主机中,启动带内遥测INT生成进程,以使所述多个主机生成并发送带内遥测INT包;接收所述多个主机发出的带内遥测INT包,并根据接收到的所述带内遥测INT包,确定所述SDN网络的初始负载信息。5.根据权利要求3所述的方法,其特征在于,所述基于所述SDN网络的第二负载矩阵,对预设的初始算法模型进行训练,得到所述初始算法模型包含的各参数的目标参数值,包括:根据预先存储的初始算法模型和所述第二负载矩阵,计算预先存储的策略集合中每个策略的执行概率,其中,所述策略集合包括开启或关闭所述SDN网络中任一交换机,以及空动作,所述空动作代表不开启或关闭任一交换机;按照执行概率抽样所述策略集合,得到目标策略,并将目标策略作为第二决策;针对每个第二决策,获取所述SDN网络的第二网络拓扑信息,同时更新所述第二网络拓扑信息对应的第二负载信息;基于预先存储的网络评估函数,计算所述第二决策的收益值;针对各第二决...

【专利技术属性】
技术研发人员:潘恬黄韬彭小雨边子政林兴晨宋恩格刘韵洁
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1