【技术实现步骤摘要】
结合注意力机制与强化学习应用于AI服务器散热的方法
[0001]本专利技术涉及服务器散热
,具体涉及一种结合注意力机制与强化学习应用于
AI
服务器散热的方法
。
技术介绍
[0002]随着人工智能
(AI)
的发展,国内的服务器也渐渐往
AI
服务器发展,但是
AI
服务器的散热,一直也是按照传统服务器的方式进行散热,传统服务器的散热一般通过
BMC(Baseboard Management Controller
,基板管理控制器
)
进行控制,
BMC
定期扫描服务器的主板信息并根据主板信息动态调整风扇的转速
。
[0003]然而,
AI
服务器与传统服务器不同,除了
CPU、
内存
、
硬盘
、Raid
卡等关键部件,
AI
服务器上的
GPU
和周围硬件
(
如交换芯片
)
运转频率密集会产生更大的热量
。
部件增多让软件的访问速度变慢,可能会造成散热上的不及时,造成服务器超温
。
[0004]因此,传统服务器的散热方式对于硬件和功能上更为复杂的高算力
AI
服务器,显得捉襟见肘
。
部件越多,获取温度的速度越慢,对于复杂设备
(
如
Raid
控制 ...
【技术保护点】
【技术特征摘要】
1.
结合注意力机制与强化学习应用于
AI
服务器散热的方法,其特征在于,包括以下步骤:
S1
,将硬件的温度作为输入数据,所述硬件包括
GPU、CPU、
内存和硬盘,对输入数据做归一化处理;
S2
,基于多层感知器
MLP
构建注意力网络,使用
GPU
温度作为输入,进行全连接
MLP
注意力网络的训练,输出注意力权重向量
a
,然后计算加权
GPU
温度,加权
GPU
温度=
Xgpu*a
,式中,
Xgpu
为
GPU
温度归一化处理后的数据;
S3
,构建
DDPG
模型,
DDPG
网络由
Actor
和
Critic
组成,在
Actor
‑
Critic
框架下执行以下步骤:
S31,
将加权
GPU
温度
、CPU
温度
、
内存温度及硬盘温度作为
Actor
网络的输入特征,然后输出风扇转速的预测值;
S32,
将加权
GPU
温度
、CPU
温度
、
内存温度
、
硬盘温度及风扇转速作为
Critic
网络的输入特征,然后输出状态
‑
动作的
Q
值估计;
S4
,将
DDPG
模型嵌入
BMC
内部,将输入数据定期反馈给
BMC
中的
DDPG
模型,
DDPG
网络自适应地调整策略,
BMC
把需要控制的风扇转速输出通过
I2C
传输给风扇,以调节风扇转速
。2.
根据权利要求1所述的结合注意力机制与强化学习应用于
AI
服务器散热的方法,其特征在于,所述归一化处理将硬件温度的数据特征以最小
‑
最大缩放到
(0,1)
的范围内
。3.
根据权利要求2所述的结合注意力机制与强化学习应用于
AI
服务器散热的方法,其特征在于,所述归一化处理的具体步骤如下:采集多个时间的硬件温度的数据,硬件温度的数据集
X
=
{x_1,x_2,...,x_n}
,找到每个数据特征的最小值
min_val
和最大值
max_val
,应用以下公式进行归一化处理:
x_i_normalized
=
(x_i
‑
min_val)/(max_val
‑
min_val)
,其中,
x_i
是一个长度为
m
的向量,表示第
i
个时间步的硬件温度
。4.
根据权利要求3所述的结合注意力机制与强化学习应用于
AI
服务器散热的方法,其特征在于,将风扇转速也作为输入数据进行归一化处理,具体步骤如下:采集多个时间的风扇转速的数据,风扇转速的数据集
Y
=
{y_1,y_2,...,y_n}
,找到每个数据特征的最小值
min_val
和最大值
max_val
,应用以下公式进行归一化处理:
y_i_normalized
=
(y_i
‑
min_val)/(max_val
‑
min_val)
,其中,
y_i
是一个长度为
m
的向量,表示第
i
个时间步的风扇转速
。5.
根据权利要求4所述的结合注意力机制与强化学习应用于
【专利技术属性】
技术研发人员:代舜,黄文杰,
申请(专利权)人:宝德计算机系统股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。