一种基于多目标深度强化学习的能耗可感知路由优化方法技术

技术编号:39331446 阅读:12 留言:0更新日期:2023-11-12 16:07
本发明专利技术公开了一种基于多目标深度强化学习的能耗可感知路由优化方法,其特点是该方法构建了一个由多目标深度强化学习智能体与数据中心网络组成的闭环系统,智能体动态收集网络环境状态信息,利用神经网络快速分析复杂的流量特征,并自适应地生成流量调度模式和网络设备状态的动作,以此实现流量的动态汇聚,同时生成一个能满足流量服务质量要求的更小规模的网络子集,并关闭剩余网络设备,从而降低网络能耗。本发明专利技术与现有技术相比具有显著降低数据流的流完成时间,显著提高用户体验并节约能耗,在保证数据流的整体流完成时间和传输可靠性的同时,最高可节省20.1%的能耗,具有推动数据中心绿色可持续发展的积极意义。数据中心绿色可持续发展的积极意义。数据中心绿色可持续发展的积极意义。

【技术实现步骤摘要】
一种基于多目标深度强化学习的能耗可感知路由优化方法


[0001]本专利技术涉及路由优化
,尤其是一种基于多目标深度强化学习的能耗可感知路由优化方法。

技术介绍

[0002]路由优化是数据中心网络(Data Center Network,DCN)的重要研究方向,也是保障高服务质量(Quality of Service,QoS)的关键所在。在过去几十年里,路由信息协议(Routing Information Protocol,RIP)、开放最短路径优先协议(Open Shortest Path First,OSPF)和VLB(Valiant Load Balancing)等传统路由方法在规模较小、不确定性较低的网络体系结构中取得了良好效益。然而,随着数据中心网络规模不断扩大,网络流量呈指数级增长,传统路由算法路由策略的局限性日益凸显,不仅收敛速度慢、响应时间长,决策依赖的链路信息也不够充分,难以感知实时网络状况,会造成较大传输时延和网络资源浪费。在此基础上,一些针对DCN流调度问题的新型启发式算法相继提出,该算法在具有高度动态性和复杂性的网络系统中仍有以下缺陷:首先,启发式算法性能具有严格的场景要求,在拓扑及流量变化时易出现较大波动和误差,准确性和可扩展性较低;其次,每当网络负载和链路状态改变时,网络不具备主动的、自适应的自优化及调整能力,难以保证网络时刻处于全局最优状态。
[0003]近几年来,随着人工智能技术的蓬勃发展,数据中心网络系统设计也逐步向以数据驱动的智能化转型。深度强化学习(Deep Reinforcement Learning,DRL)兼具深度神经网络强大的特征提取能力和强化学习的端到端探索决策优势,为解决高度复杂动态网络环境下的路由优化问题提供新的技术支撑。如何减少数据中心网络能源浪费,同时保证应用的流完成时间是数据中心运营商关注的两大重要问题。
[0004]当前,基于DRL进行通信时延或能源节约方面的单目标优化已有丰富的研究成果,但是对于多目标联合优化的方法大多依赖于静态的或不恰当的动态模型,其通常定义为多重线性规划问题或采用基于启发式算法的域内流量工程机制。多目标深度强化学习(Multi

objective Deep Reinforcement Learning,MODRL)突破大多数DRL研究针对单一目标优化智能体策略的局限性,可解决相互竞争的多目标之间的权衡需求。
[0005]现有技术不能实现减少数据中心网络的能耗浪费,同时保证应用的流完成时间是能耗可感知路由优化的两大目标,提升网络性能和降低能量损耗之间存在一定冲突。为保障网络的稳定性和可靠性,往往维护一部分冗余设备和链路,提供更多可用路径来实现多路径转发。而降低能耗则相反,需尽可能地将处于闲置状态的交换机切换为休眠模式,这样会减少可转发网络负载的工作设备,以牺牲网络容错性和负载均衡为代价。基于以上洞察,实现一种基于多目标深度强化学习的能耗可感知路由优化方法,将能耗可感知的路由问题建模为多目标优化问题,并使用合适的MODRL算法,实现多个优化指标权衡下流量分布的动态调度,能够为网络性能提升和能源节约提供一种可行的解决方案。

技术实现思路

[0006]本专利技术的目的是针对现有技术的不足而提供的一种基于多目标深度强化学习的能耗可感知路由优化方法,采用由多目标深度强化学习智能体与数据中心网络构建的闭环系统方法,将多目标深度强化学习算法应用于DCN路由优化问题,寻找权衡多个目标的最优策略,在保证服务质量的同时降低能源浪费,助力数据中心节能减排和可持续发展。智能体动态收集网络环境状态信息,利用神经网络快速分析复杂的流量特征,并自适应地生成流量调度模式和网络设备状态的动作,以此实现流量的动态汇聚,同时生成一个能满足流量服务质量要求的更小规模的网络子集,并关闭剩余网络设备,从而降低网络能耗,在保证数据流的整体流完成时间和传输可靠性的同时节省20.1%的能耗,在保证可用性与安全性的前提下,降低数据中心网络部署的能耗,具有推动数据中心绿色可持续发展的积极意义。
[0007]实现本专利技术目的的具体技术方案是:一种基于多目标深度强化学习的能耗可感知路由优化方法,具体包括以下步骤:
[0008]S1、流量整合节能优化问题建模
[0009]数据中心网络中,交换机的能耗主要有两部分:由风扇、线卡、收发器、中央处理器等组件产生的固有开销和各个处于工作状态的端口在数据传输时耗费的能量。在N个具有M个端口的交换机互连形成的网络中,用表示交换机i的固有功耗开销,表示其第j个端口的功耗,二进制变量S
i
和S
ij
分别表示交换机i及其端口j是否处于开启状态,那么交换机i的功耗P
i
可按下述(a)式计算交换机的瞬时功率P
i

[0010][0011]在实际应用中,流量整合的目的是降低一段时间内的功耗,因此需要为每个变量增加一个指标t,表示每个时隙内的功耗。基于上述定义,节能优化问题可由下述(b)式表示为:
[0012][0013][0014][0015][0016][0017]其中,δ是表示一个时隙长度的常量;N是交换机总数量;M是每个交换机的端口数量;T是时隙总数;表示进入交换机i第j个端口的流量速率;表示流出交换机i第j个端口的流量速率;C表示每个端口的容量。
[0018]S2、多目标深度强化学习建模
[0019]多目标深度强化学习(Multi

Objective Reinforcement Learning,MODRL)将深度强化学习与多目标优化相结合,用奖励向量替换单目标任务中的标量奖励,为每个目标
分别维护一个奖励函数,从而解决智能体在复杂环境中权衡多个目标的顺序决策问题。MODRL按照优化准则可分为单策略算法和多策略算法两大类。单策略MODRL采用线性加权标量化方法,将奖励向量转换为标量函数,每个奖励分量关联的权重决定其对应目标的重要性,由于空间的降维,只能学习具有单一权重偏好的最优策略。多策略MODRL可同时学习适用于不同偏好和权衡的策略,在保证智能体探索性、收敛稳定性的同时,找到尽可能精确地近似Pareto前沿的多目标解,为复杂系统的感知决策问题提供了新思路。
[0020]多目标深度强化学习中的三要素分别为下述描述的状态空间、动作空间和奖励机制:
[0021]1)状态空间
[0022]所有被监测链路的归一化带宽利用率作为智能体观测的网络环境状态,以矩阵形式表示,其中L是监测链路的数量,t表示时间步的序号,表示第i条链路的状态信息,S
t
表示所有链路状态信息的集合。一条链路的带宽利用率一般定义为某一时间步长内,所传输的数据包或帧的总位数与链路容量之比,如下述(c)式所示:
[0023][0024]其中,表示第i条链路的带宽利用率,经处理后作为B
Tx_total
表示传输数据流的总比特数,表示第i条链路的链路容量。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多目标深度强化学习的能耗可感知路由优化方法,其特征在于,该方法具体包括以下步骤:1)根据数据中心网络中交换设备的能耗来源及流量特征,构建节能优化模型;2)根据传输时延和能耗的影响因素及衡量指标,构建多目标深度强化学习模型;3)采用软件定义网络(SDN)控制器、智能体和数据平面构建的闭环控制系统,将其基于DWN多目标优化算法进行训练,得到感知实时流量的最佳策略。2.根据权利要求1所述基于多目标深度强化学习的能耗可感知路由优化方法,其特征在于,所述步骤1)的节能优化模型的构建具体包括:1

1:数据中心网络:在N个具有M个端口的交换机互连形成的网络中,用表示交换机i的固有功耗开销;表示其第j个端口的功耗;二进制变量S
i
和S
ij
分别表示交换机i及其端口j是否处于开启状态,所述交换机i的瞬时功耗P
i
由下述(a)式计算:1

2:将节能优化问题由下述(b)式表示为:将节能优化问题由下述(b)式表示为:将节能优化问题由下述(b)式表示为:将节能优化问题由下述(b)式表示为:将节能优化问题由下述(b)式表示为:其中,δ表示一个时隙长度的常量;N是交换机总数量;M是每个交换机的端口数量;T是时隙总数;表示进入交换机i第j个端口的流量速率;表示流出交换机i第j个端口的流量速率;C表示每个端口的容量。3.根据权利要求1所述基于多目标深度强化学习的能耗可感知路由优化方法,其特征在于,所述步骤2)的多目标深度强化学习模型构建具体包括:2

1:状态空间2
‑1‑
1:将所有被监测链路的归一化带宽利用率作为智能体观测的网络环境状态,并以矩阵形式表示,其中L是监测链路的数量;t表示时间步的序号;表示第i条链路的状态信息;S
t
表示所有链路状态信息的集合;所述链路的归一化带宽利用率为某一时间步长内,所传输的数据包或帧的总位数与链路容量之比,且由下述(c)式表示为:
其中,表示第i条链路的带宽利用率,其处理后作为B
Tx_total
表示传输数据流的总比特数;表示第i条链路的链路容量;2
‑1‑
2:将对应交换机端口处于休眠状态的链路的值置为

1,以区分休眠链路和处于开启状态但带宽利用率为0的链路;所述智能体输入环境状态的一维矩阵为按链路顺序编号的各链路负载情况及状态信息,长度即为监测链路的数量;2

2:动作空间2
‑2‑
1:将输出动作设计为改变交换机及其端口的电源状态,智能体根据实时流量分布自适应做出决策,中央控制器基于等价多路径更新路由,实现能耗可感知路由的优化;2
‑2‑
2:对于网络中k条链路{link1,link2,

,link
N
}构成的集合,动作空间是集合L=的任意子集,其中表示输出动作为空动作,将全网k条链路编号,建立取值范围为[0,1,2,

,2k]的离散动作空间,对输出值num进行转换处理,得到由下述(d)式表示的动作link_action:其中,表示开启第(num+1)条链路对应的两个端口;表示空动作;link num

k off
表示休眠第(num

k)条链路对应的两个端口;2

3:奖励机制2
‑3‑
1:假设一个交换机的机箱及线卡的耗电量与一个端口的耗电量之比为a:b,在每条链路的负载不超过该链路容量的情况下,最小化全网设备的能耗由下述(e)式计算:第i个交换机的功耗P
i t由下述(f)式计算:每条链路的负载需在链路容量内,其约束条件由下述(g)式表示为:其中,δ为表示时间步长的常量;T表示时间步长总数量;N表示全网处于工作状态的交换机数量;P
i t表示第i个交换机的功耗;P
s
表示每个交换机满负荷运行时的功耗;a和b分别表示一个交换机中,机箱及线卡等固有元件的耗电量占比和一个端口的耗电量占比;表示第i个交换机处于运行状态的端口数量;表示连接交换机i和j的链路l上的负载;C
l
表示每条链路的容量;2
‑3‑
2:能量相关奖励值r
1 t由下述(h)式计算:
当前网络可节省的设备功耗v s由下述(i)式计算:v s=link_of s
*2b+switch_of s
*a i;其中,n是与大小与网络规模呈正相关的正数;link_off(s)和switch_off(s)分别为状态s下休眠的链路和交换机的数目;a和b分别表示一个交换机中,机箱及线卡等固有元件的耗电量占比和一个端口的耗电量占比;2
‑3‑
3:如果执行动作导致传输时延增加或更多的流违背FCT,算法给予智能体负奖励作为惩罚;如果执行动作使传输时延降低或更少的流违背FCT,算法反馈正奖励给智能体,其性能相关奖励r
2 t由下述(j)式计算:其中,D s为状态s下执行动作后违背FCT的流数量;L
avg
为每个交换机队列长度的平均值;λ为惩罚权重。4.根据权利要求1所述基于多目标深度强化学习的能耗可感知路由优化方法,其特征在于,所述步骤3)中的DWN多目标优化算法进行训练,其DWN多目标优化算...

【专利技术属性】
技术研发人员:王廷陈禹孜
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1