一种基于强化学习算法的数据中心机房控制方法及装置制造方法及图纸

技术编号:24094077 阅读:47 留言:0更新日期:2020-05-09 09:26
本发明专利技术一种基于强化学习算法的数据中心机房控制方法及装置,应用于数据中心机房的环境控制系统,所述方法包括:获取当前时刻来自环境的状态量s

A control method and device of data center computer room based on reinforcement learning algorithm

【技术实现步骤摘要】
一种基于强化学习算法的数据中心机房控制方法及装置
本专利技术涉及数据中心机房控制方法
,具体涉及一种基于强化学习算法的数据中心机房控制方法及装置。
技术介绍
随着大数据机房规模的不断增加,机房的能耗在全球能耗中的比例越来越高,因此,如何在保证机房能够正常运作的前提下,尽量降低能耗是亟待解决的技术问题。现有技术中,申请号为201910154592的专利技术专利公开了一种基于人工智能优化机房能耗效率的方法及装置,属于环保节能领域,降低了现有IDC机房过量制冷、电力浪费严重导致的高能耗与环保问题,其装置包括:获取机房机柜发热/制冷状态大数据的感知装置,从发热/制冷状态大数据自动学习控制策略的自动学习装置,使用控制策略生成优化控制指令的控制逻辑装置,直接调节制冷设备运行的控制装置;本专利技术包含一种自动学习装置,该装置能够基于机柜运行大数据结合人工智能算法自动学习优化控制策略,降低制冷电量消耗;本专利技术包含一种控制逻辑装置,该装置能够根据机房运行数据动态、精确地调节制冷设备运行。但是,虽然现有技术中对数据中心机房控制优化本文档来自技高网...

【技术保护点】
1.一种基于强化学习算法的数据中心机房控制方法,其特征在于,应用于数据中心机房的环境控制系统,所述方法包括:/n获取当前时刻来自环境的状态量s

【技术特征摘要】
1.一种基于强化学习算法的数据中心机房控制方法,其特征在于,应用于数据中心机房的环境控制系统,所述方法包括:
获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模型得到当前时刻的控制参数at,其中,所述状态量,包括:机房各个通道种传感器的数值;
使用所述控制参数控制数据中心机房的温度调节设备的工作状态,直至数据中心机房的温度稳定。


2.根据权利要求1所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述强化学习模型的训练过程包括:
A:构建强化学习模型,其中,所述强化学习模型包括:Actor网络和Critic网络,其中,所述Actor网络接收来自环境的状态量,输出动作空间控制参数;所述Critic网络接收Actor网络输出的控制参数以及来自环境的状态量,输出实值Q,代表在当前状态量下Actor采取该控制参数的价值;
B:将历史数据作为样本数据输入至强化学习模型中,其中,所述历史数据包括:当前时刻的状态量、当期时刻的控制参数、当前时刻的上一时刻的奖赏以及当前时刻的下一时刻的控制参数;
C:计算当前次迭代的上一次迭代的奖赏值;
D:利用公式,计算Critic网络的损失,其中,
L为Critic网络的损失;N为训练样本中的样本数量;∑为求和函数;r为样本数据中当前时刻的上一时刻的奖赏;C为Critic网络;s′为样本数据中当前时刻的下一时刻的状态量;A(s′)为Actor网络对于状态s’的动作输出;a为Actor网络的动作输出;C(s,a)为Critic网络输入s和a的Q值输出;γ为折扣因子;
E:根据Critic网络损失计算Critic网络参数梯度;
F:利用公式,计算Actor网络的梯度,其中,为Actor网络参数的梯度;N为一批训练样本数量;∑为求和函数;为Critic输出的Q值关于输入a的梯度;为Actor网络输出动作a关于网络参数的梯度,其中,Critic输出的Q值关于输入a的梯度以及Actor网络输出动作a关于网络参数的梯度的计算过程为现有技术,这里不再赘述。
G:使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新;
H:利用公式,对TargetActor网络、TargetCritic网络进行参数更新,并返回执行步骤C,直至强化学习模型收敛,其中,θA′为TargetActor网络;τ为更新系数;θA为Actor网络参数;θC′为TargetCritic网络参数;θC为Critic网络参数。


3.根据权利要求2所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述步骤C包括:
利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值。


4.根据权利要求3所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述Actor网络和Critic网络均是由输入层、中间层以及输出层堆叠组成的,其中,中间层包括300个神经元,其激活函数为ReLU函数。


5.根据权利要求1所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述方法还包括:
获取当前时刻对应的奖赏,根据所述奖赏的大小监控强化学习模型的控制效果。


6.一种基于强化学习算法的数据中心机房控制装置,其特征在于,应用于数据中心机房的环境控制系统,所述装置包括:
获取模块,用于获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模...

【专利技术属性】
技术研发人员:周鹏程王桂波徐凤逸
申请(专利权)人:创新奇智重庆科技有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1