基于深度强化学习的数据中心能耗优化控制方法技术

技术编号:33448025 阅读:46 留言:0更新日期:2022-05-19 00:33
本发明专利技术属于数据中心能耗控制应用技术领域,尤其涉及一种基于深度强化学习的数据中心能耗优化控制方法。与现有技术相比,本发明专利技术的优点和积极效果在于,本发明专利技术提供一种基于深度强化学习的数据中心能耗优化控制方法,首先建立基于TD3的深度强化学习网络结构,其次确定深度强化学习网络的状态,动作和奖励函数计算方法,然后是对深度强化学习网络初始化,最后根据系统状态训练深度强化学习网络并得到关于负载分配和冷却系统控制的最优策略。于负载分配和冷却系统控制的最优策略。于负载分配和冷却系统控制的最优策略。

【技术实现步骤摘要】
基于深度强化学习的数据中心能耗优化控制方法


[0001]本专利技术属于数据中心能耗控制应用
,尤其涉及一种基于深度强化学习的数据中心能耗优化控制方法。

技术介绍

[0002]随着机器学习、云计算等技术的不断发展,数据中心的规模不断扩大以顺应“数字新基建”的时代要求,随之数据中心的能耗成本也不断增加。其中,IT设备和制冷设备是数据中心的主要能耗来源,两者的能耗通常占用数据中心总额能耗的85%。要降低数据中心能耗,重点在于提升数据中心的技术,关键要从IT设备计算效率以及冷却系统制冷效率两方面入手。
[0003]IT设备的计算能耗约占数据中心总能耗的45%,对物理资源进行集中管理、合理分配和有效调度,可以使数据中心保持理想的资源有效利用状态,使节约能源的途径之一。资源管理是典型的决策问题,因此可以使用强化学习算法代替传统的启发式算法,通过资源管理器与环境的自主交互,主动学习资源调度的策略,并根据环境反馈优化资源分布,提高资源利用率,从而降低计算能耗。
[0004]对于制冷设备,目前数据中心普遍使用的是HAVC(heat,ventilation,and air conditioning)系统控制冷却系统,空调的制冷能耗约占数据中心总能耗的40%。由于数据中心运行条件缺乏透明性,空调系统不得不设置过低的温度来降低热点的风险,从而导致过度的能量消耗。对空调温度的自动调控和优化同样可以使用强化学习的方法,空调自主地与环境互动,观测温度等信息选择调控策略,根据奖励反馈机制不断优化策略,最终达到降低制冷能耗的目的
[0005]但是,单独控制IT设备或制冷设备并不能达到降低数据中心整体能耗的目的。如果一味降低计算能耗,资源倾向于集中到某些服务器,则有造成局部热点的风险,需要制冷设备设置足够低的温度,造成制冷能耗的浪费。而一味降低制冷能耗,温度设定在适宜范围内越高越好,则无法保证IT设备的安全。
[0006]在数据中心中,空调与IT设备等存在相互影响,具有很强的不稳定性,因此可以看作一个非常复杂的多智能体系统。在多智能体环境中,每个智能体都和环境进行交互,但对于每个智能体而言,外界环境是不断变化且没有规律的,每个智能体只能得到的环境的一部分观察信息。为此,如何在保证完成业务任务的前提下,每个数据中心区域能够被合理分配负载任务,同时,对数据中心的冷却系统进行调控,减少数据中心计算资源的冗余,提高每一度电可以完成的任务量是现有数据中心能耗控制的重点研究方向。

技术实现思路

[0007]本专利技术针对上述的数据中心能耗控制所存在的技术问题,提出一种设计合理、结构简单、加工方便且能够有效实现数据中心能耗最佳控制的基于深度强化学习的数据中心能耗优化控制方法。
[0008]为了达到上述目的,本专利技术采用的技术方案为,本专利技术提供一种基于深度强化学习的数据中心能耗优化控制方法,包括以下有效步骤:
[0009]a、建立深度强化学习网络:所述深度强化学习网络包括策略网络Actor,评估网络Critic1,评估网络Critic2以及对应的3个目标网络Actor

Target、Critic1

Target和Critic2

Target,其中,所述Actor网络和Actor

Target网络之间,Critic1网络、Critic2网络、Critic1

Target网络和Critic2

Target网络之间有相同的网络结构相同、参数不同;
[0010]b、确定深度强化学习网络的状态、动作和奖励函数计算方法;
[0011]c、深度强化学习网络初始化:通过随机参数初始化策略网络Actor网络,评估网络Critic1网络,评估网络Critic2网络的参数θ1,θ2;以及目标网络Actor

target网络,Critic1

target网络,Critic2

target网络的参数θ1‑
,θ2‑
;初始化经验回放内容大小M;
[0012]d、深度强化学习网络训练:对于每次训练,根据当前策略和噪音选择负载分配和冷却点温度选择动作,然后执行该动作获得下一状态和奖励,并将该存储状态转移值放到经验回放内存M中,当M满时,从经验回放中随机采样,获得N个状态转移值,并得到Critic1

target网络和Critic2

target网络中的和并得到最小target值:然后计算td_error,最后使用td_error更新Critic1网络和Critic2网络,其中,td_error的计算方法如下:
[0013][0014]其中,λ为奖励函数值;γ为折扣因子;θ1为评估网络1的目标网络Critic1_Target的网络参数,θ2为评估网络2的目标网络Critic2_Target的网络参数,2个目标网络初始值不同,计算目标Q值不同;
[0015]e、重复执行d步骤完成深度强化模型的训练,得到关于负载分配和冷却系统控制的最优策略网络模型。
[0016]作为优选,所述b步骤中,状态函数的计算方法为:状态向量为天气温度T
outdoor
(t)和数据中心总的负载量J(t)组成的元组:[天气温度T
outdoor
(t),数据中心总的负载量J(t)]。
[0017]作为优选,所述b步骤中,动作函数的计算方法为:动作向量为数据中心每个区域的负载量j
i
(t)和每个区域的冷却点温度组成的元组,动作的个数由数据中心的区域个数决定,动作向量包括以下2*n个动作:[数据中心第i个区域的冷却系统冷却点温度数据中心第i个区域的负载情况j
i
(t)]。
[0018]作为优选,所述b步骤中,奖励函数的计算方法为:奖励函数计算如下:其中m为动作考虑延迟的时间步步数,k
j
是当前L
t
值在r
t
中所占的权重,r
t
指的是当前函数值,L
t
是未来时间步的函数值,然后利用未来时间步占比当前函数值的权重以及所延迟的时间步步数计算。
[0019]与现有技术相比,本专利技术的优点和积极效果在于,
[0020]1、本专利技术提供一种基于深度强化学习的数据中心能耗优化控制方法,首先建立基
于TD3的深度强化学习网络结构,其次确定深度强化学习网络的状态,动作和奖励函数计算方法,然后是对深度强化学习网络初始化,最后根据系统状态训练深度强化学习网络并得到关于负载分配和冷却系统控制的最优策略。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的数据中心能耗优化控制方法,其特征在于,包括以下有效步骤:a、建立深度强化学习网络:所述深度强化学习网络包括策略网络Actor,评估网络Critic1,评估网络Critic2以及对应的3个目标网络Actor

Target、Critic1

Target和Critic2

Target,其中,所述Actor网络和Actor

Target网络之间,Critic1网络、Critic2网络、Critic1

Target网络和Critic2

Target网络之间有相同的网络结构相同、参数不同;b、确定深度强化学习网络的状态、动作和奖励函数计算方法;c、深度强化学习网络初始化:通过随机参数初始化策略网络Actor网络,评估网络Critic1网络,评估网络Critic2网络的参数θ1,θ2;以及目标网络Actor

target网络,Critic1

target网络,Critic2

target网络的参数θ1‑
,θ2‑
;初始化经验回放内容大小M;d、深度强化学习网络训练:对于每次训练,根据当前策略和噪音选择负载分配和冷却点温度选择动作,然后执行该动作获得下一状态和奖励,并将该存储状态转移值放到经验回放内存M中,当M满时,从经验回放中随机采样,获得N个状态转移值,并得到Critic1

target网络和Critic2

target网络中的和并得到最小target值:然后计算td_error,最后使用td_erro...

【专利技术属性】
技术研发人员:冯炫王为源严宁潘冬兰巍
申请(专利权)人:陕西智引科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1