【技术实现步骤摘要】
一种基于多目标深度强化学习的能耗可感知路由优化方法
[0001]本专利技术涉及路由优化
,尤其是一种基于多目标深度强化学习的能耗可感知路由优化方法。
技术介绍
[0002]路由优化是数据中心网络(Data Center Network,DCN)的重要研究方向,也是保障高服务质量(Quality of Service,QoS)的关键所在。在过去几十年里,路由信息协议(Routing Information Protocol,RIP)、开放最短路径优先协议(Open Shortest Path First,OSPF)和VLB(Valiant Load Balancing)等传统路由方法在规模较小、不确定性较低的网络体系结构中取得了良好效益。然而,随着数据中心网络规模不断扩大,网络流量呈指数级增长,传统路由算法路由策略的局限性日益凸显,不仅收敛速度慢、响应时间长,决策依赖的链路信息也不够充分,难以感知实时网络状况,会造成较大传输时延和网络资源浪费。在此基础上,一些针对DCN流调度问题的新型启发式算法相继提出,该算法在具有高度动态性和复杂性的网络系统中仍有以下缺陷:首先,启发式算法性能具有严格的场景要求,在拓扑及流量变化时易出现较大波动和误差,准确性和可扩展性较低;其次,每当网络负载和链路状态改变时,网络不具备主动的、自适应的自优化及调整能力,难以保证网络时刻处于全局最优状态。
[0003]近几年来,随着人工智能技术的蓬勃发展,数据中心网络系统设计也逐步向以数据驱动的智能化转型。深度强化学习(Deep Rein ...
【技术保护点】
【技术特征摘要】
1.一种基于多目标深度强化学习的能耗可感知路由优化方法,其特征在于,该方法具体包括以下步骤:1)根据数据中心网络中交换设备的能耗来源及流量特征,构建节能优化模型;2)根据传输时延和能耗的影响因素及衡量指标,构建多目标深度强化学习模型;3)采用软件定义网络(SDN)控制器、智能体和数据平面构建的闭环控制系统,将其基于DWN多目标优化算法进行训练,得到感知实时流量的最佳策略。2.根据权利要求1所述基于多目标深度强化学习的能耗可感知路由优化方法,其特征在于,所述步骤1)的节能优化模型的构建具体包括:1
‑
1:数据中心网络:在N个具有M个端口的交换机互连形成的网络中,用表示交换机i的固有功耗开销;表示其第j个端口的功耗;二进制变量S
i
和S
ij
分别表示交换机i及其端口j是否处于开启状态,所述交换机i的瞬时功耗P
i
由下述(a)式计算:1
‑
2:将节能优化问题由下述(b)式表示为:将节能优化问题由下述(b)式表示为:将节能优化问题由下述(b)式表示为:将节能优化问题由下述(b)式表示为:将节能优化问题由下述(b)式表示为:其中,δ表示一个时隙长度的常量;N是交换机总数量;M是每个交换机的端口数量;T是时隙总数;表示进入交换机i第j个端口的流量速率;表示流出交换机i第j个端口的流量速率;C表示每个端口的容量。3.根据权利要求1所述基于多目标深度强化学习的能耗可感知路由优化方法,其特征在于,所述步骤2)的多目标深度强化学习模型构建具体包括:2
‑
1:状态空间2
‑1‑
1:将所有被监测链路的归一化带宽利用率作为智能体观测的网络环境状态,并以矩阵形式表示,其中L是监测链路的数量;t表示时间步的序号;表示第i条链路的状态信息;S
t
表示所有链路状态信息的集合;所述链路的归一化带宽利用率为某一时间步长内,所传输的数据包或帧的总位数与链路容量之比,且由下述(c)式表示为:
其中,表示第i条链路的带宽利用率,其处理后作为B
Tx_total
表示传输数据流的总比特数;表示第i条链路的链路容量;2
‑1‑
2:将对应交换机端口处于休眠状态的链路的值置为
‑
1,以区分休眠链路和处于开启状态但带宽利用率为0的链路;所述智能体输入环境状态的一维矩阵为按链路顺序编号的各链路负载情况及状态信息,长度即为监测链路的数量;2
‑
2:动作空间2
‑2‑
1:将输出动作设计为改变交换机及其端口的电源状态,智能体根据实时流量分布自适应做出决策,中央控制器基于等价多路径更新路由,实现能耗可感知路由的优化;2
‑2‑
2:对于网络中k条链路{link1,link2,
…
,link
N
}构成的集合,动作空间是集合L=的任意子集,其中表示输出动作为空动作,将全网k条链路编号,建立取值范围为[0,1,2,
…
,2k]的离散动作空间,对输出值num进行转换处理,得到由下述(d)式表示的动作link_action:其中,表示开启第(num+1)条链路对应的两个端口;表示空动作;link num
‑
k off
表示休眠第(num
‑
k)条链路对应的两个端口;2
‑
3:奖励机制2
‑3‑
1:假设一个交换机的机箱及线卡的耗电量与一个端口的耗电量之比为a:b,在每条链路的负载不超过该链路容量的情况下,最小化全网设备的能耗由下述(e)式计算:第i个交换机的功耗P
i t由下述(f)式计算:每条链路的负载需在链路容量内,其约束条件由下述(g)式表示为:其中,δ为表示时间步长的常量;T表示时间步长总数量;N表示全网处于工作状态的交换机数量;P
i t表示第i个交换机的功耗;P
s
表示每个交换机满负荷运行时的功耗;a和b分别表示一个交换机中,机箱及线卡等固有元件的耗电量占比和一个端口的耗电量占比;表示第i个交换机处于运行状态的端口数量;表示连接交换机i和j的链路l上的负载;C
l
表示每条链路的容量;2
‑3‑
2:能量相关奖励值r
1 t由下述(h)式计算:
当前网络可节省的设备功耗v s由下述(i)式计算:v s=link_of s
*2b+switch_of s
*a i;其中,n是与大小与网络规模呈正相关的正数;link_off(s)和switch_off(s)分别为状态s下休眠的链路和交换机的数目;a和b分别表示一个交换机中,机箱及线卡等固有元件的耗电量占比和一个端口的耗电量占比;2
‑3‑
3:如果执行动作导致传输时延增加或更多的流违背FCT,算法给予智能体负奖励作为惩罚;如果执行动作使传输时延降低或更少的流违背FCT,算法反馈正奖励给智能体,其性能相关奖励r
2 t由下述(j)式计算:其中,D s为状态s下执行动作后违背FCT的流数量;L
avg
为每个交换机队列长度的平均值;λ为惩罚权重。4.根据权利要求1所述基于多目标深度强化学习的能耗可感知路由优化方法,其特征在于,所述步骤3)中的DWN多目标优化算法进行训练,其DWN多目标优化算...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。