一种数据中心能耗联合优化方法、系统、介质及设备技术方案

技术编号:28872425 阅读:33 留言:0更新日期:2021-06-15 23:05
本发明专利技术公开了一种数据中心能耗联合优化方法、系统、介质及设备,构建数据中心多智能体环境;根据scheduling_agent的状态空间、动作空间和奖励函数构建任务调度强化学习模型;根据cooling_agent的状态空间、动作空间和奖励函数构建温度调控强化学习模型;基于任务调度强化学习模型和温度调控强化学习模型构建异构多智能体强化学习的联合控制模型,向联合控制模型中导入构建的数据中心多智能体环境;使用联合控制模型,以数据中心整体能耗最小化为目标集中训练scheduling_agent与cooling_agent,使用联合控制模型训练得到的scheduling_agent与cooling_agent,根据各自的观测信息执行以降低自身能耗为目标的动作策略,同时保证动态数据中心环境的平衡,实现整体能耗最小化。本发明专利技术在降低计算能耗与制冷能耗之间取得平衡,同时降低数据中心的整体能耗。

【技术实现步骤摘要】
一种数据中心能耗联合优化方法、系统、介质及设备
本专利技术属于数据中心能耗管理
,具体涉及一种数据中心能耗联合优化方法、系统、介质及设备。
技术介绍
随着机器学习、云计算等技术的不断发展,数据中心的规模不断扩大以顺应“数字新基建”的时代要求,随之数据中心的能耗成本也不断增加。截止2019年,数据中心用电量连续8年以超过12%的速度增长,预计到2025年,中国数据中心总耗电量占比将达到4.05%。其中,IT设备和制冷设备是数据中心的主要能耗来源,两者的能耗通常占用数据中心总额能耗的85%。要降低数据中心能耗,重点在于提升数据中心的技术,关键要从IT设备计算效率以及冷却系统制冷效率两方面入手。IT设备的计算能耗约占数据中心总能耗的45%,对物理资源进行集中管理、合理分配和有效调度,可以使数据中心保持理想的资源有效利用状态,使节约能源的途径之一。资源管理是典型的决策问题,因此可以使用强化学习算法代替传统的启发式算法,通过资源管理器与环境的自主交互,主动学习资源调度的策略,并根据环境反馈优化资源分布,提高资源利用率,从而降低计算能耗。...

【技术保护点】
1.一种数据中心能耗联合优化方法,其特征在于,包括以下步骤:/nS1、构建数据中心多智能体环境;/nS2、根据任务调度智能体scheduling_agent的状态空间、动作空间和奖励函数构建任务调度强化学习模型;/nS3、根据温度调控智能体cooling_agent的状态空间、动作空间和奖励函数构建温度调控强化学习模型;/nS4、基于步骤S2和步骤S3构建异构多智能体强化学习的联合控制模型,向联合控制模型中导入步骤S1构建的数据中心多智能体环境;/nS5、使用步骤S4的联合控制模型,以数据中心整体能耗最小化为目标集中训练scheduling_agent与cooling_agent,实现整体能耗...

【技术特征摘要】
1.一种数据中心能耗联合优化方法,其特征在于,包括以下步骤:
S1、构建数据中心多智能体环境;
S2、根据任务调度智能体scheduling_agent的状态空间、动作空间和奖励函数构建任务调度强化学习模型;
S3、根据温度调控智能体cooling_agent的状态空间、动作空间和奖励函数构建温度调控强化学习模型;
S4、基于步骤S2和步骤S3构建异构多智能体强化学习的联合控制模型,向联合控制模型中导入步骤S1构建的数据中心多智能体环境;
S5、使用步骤S4的联合控制模型,以数据中心整体能耗最小化为目标集中训练scheduling_agent与cooling_agent,实现整体能耗最小化。


2.根据权利要求1所述的方法,其特征在于,步骤S1中,数据中心多智能体环境具体为:
设定数据中心环境中存在精密空调、若干个服务器和若干个任务等待被执行,所有服务器属于同一个集群,每个服务器有若干种资源,还有一个固定长度的等待任务队列,每个任务在固定的时间段内请求固定数量的不同资源;在每个离散的时间步,传入的作业到达并进入等候队列,当队列已满时,后续作业的数量将保存在backlog中;集群的任务调度智能体scheduling_agent选择作业并分配给机器的分配,机器的温度随机器上任务的运行情况变化,精密空调中的温度调控智能体cooling_agent负责调整温度冷却发热的服务器。


3.根据权利要求1所述的方法,其特征在于,步骤S2具体为:
S201、建立scheduling_agent的状态空间,scheduling_agent的状态空间包括内部的资源状态和外部的环境状态,用二进制矩阵表示scheduling_agent的内部资源状态,包括机器资源的当前状态和队列中作业请求的资源配置情况,用s*t的二维矩阵表示某一类资源的状态,s表示资源最大容量,t表示最长执行时间,外部的环境状态包括服务器入口温度和服务器温度;
S202、建立scheduling_agent的动作空间,将动作action定义为i*q+j,表示将队列中的作业j分配给机器i,动作空间大小为m*q+1,m表示机器数,q表示等待任务队列的长度,动作空间包含一种无效操作,表示scheduling_agent在当前时间没有进行调度;
S203、根据二维矩阵的占用比例可以计算出各类资源的占用率,根据服务器的功耗模型Pmachine,结合温度限制条件设计scheduling_agent的奖励函数如下:



其中,第一部分为平均功率,目标是最小化,第二部分表示过热的惩罚函数,λ表示惩罚因子,当服务器功率超过温度阈值时会加大惩罚,从而反馈一个更小的奖励值;
S204、构建scheduling_agent的网络结构,scheduling_agent的控制网络包括两个网络:Actor网络和Critic网络,Actor网络包括动作估计网络和动作现实网络,两者具有相同的网络结构,动作现实网络每隔一段时间更新网络参数;Actor网络输入状态state为二维矩阵,输出为离散的动作action,网络结构包括两个二维卷积层和两个全连接层;
Critic网络具备双网络结构:状态估计网络和状态现实网络,Critic网络的输入是状态state和由Actor网络产生的动作action以及其他agent的信息,输出是动作对应的状态动作值函数,网络结构中第一层除卷积层外,再加一层全连接层用于输入动作action。


4.根据权利要求1所述的方法,其特征在于,步骤S3具体为:
S301、建立cooling_agent的状态空间,cooling_agent根据回风温度调整送风温度,将cooling_agent的状态表示为Tenv;
S302、建立cooling_agent的动作空间,将cooling_agent的动作空间设定为[-2,-1.5,-1,-0.5,0,0.5,1,1.5,2],action表示为ΔT,代表温度调整的幅度;
S303、根据热力学定律,CRAC的制冷功率表示为单位时间内冷却的压缩机内空气的热量,表现为CRAC出入风口温度差值的线性关系,根据结合经验公式建立的CRAC功耗模型设计奖励函数如下:



其中,tout为CRAC出风口温度,Pcrac_max为CRAC最大功率,Tenv表示室内环境温度,代替空调的入风口温度,Tmin表示机房设备均关闭时CRAC以最大功率运行时的室温,Pcrac_max与Tmin为定值;
S304、构建cooling_agent的网络结构,包括Actor网络和Critic网络且都为双网络结构,coo...

【专利技术属性】
技术研发人员:苏远歧秦露露伍卫国
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1