一种基于非冗余特征选择的数据中心服务器能耗预测方法技术

技术编号:38007041 阅读:6 留言:0更新日期:2023-06-30 10:24
本发明专利技术公开了一种基于非冗余特征选择的数据中心服务器能耗预测方法,包括以下步骤:(1)选择出服务器能耗原始特征集中的强相关特征;(2)利用冗余特征判定算法从强相关特征中挑选出非冗余的特征集合;(3)利用门控循环单元神经网络完成非冗余特征与能耗间关联关系挖掘,并构建服务器能耗的预测分析模型。本发明专利技术利用基于深度学习的数据中心能耗管理系统,使数据中心运维人员能够直观准确地掌握影响服务器能耗的关键因子,更好地分析、预测服务器运行时的负载变化和能耗趋势;本发明专利技术基于中心服务器资源调度系统,根据服务器能耗变化趋势进行任务分配和资源调度,降低数据中心能耗。耗。耗。

【技术实现步骤摘要】
一种基于非冗余特征选择的数据中心服务器能耗预测方法


[0001]本专利技术涉及深度学习,特别是一种基于非冗余特征选择的数据中心服务器能耗预测方法。

技术介绍

[0002]IT设备和制冷设备是数据中心的两大组成部分,二者的能耗约占总能耗的90%。由服务器、存储和网络通信设备等所构成的IT设备系统所产生的功耗约占数据中心总功耗的45%,其中服务器系统约占50%。准确地预测服务器能耗不仅可以为数据中心节能提供重要依据,也是数据中心资源调度方法的基础。
[0003]然而数据中心服务器能耗特征复杂且维度高,如何选择合适的特征,缩减特征的维度,提高数据处理的效率和预测准确率显得尤为重要。针对以上需求,服务器能耗特征选择和模型构建成为数据中心服务器能耗预测的关键问题。
[0004]特征选择是机器学习中一个重要的“数据预处理”过程,可以将数据集中相关性较小的数据清除,从而提升机器学习的效率和精度。然而目前的特征选择方法对冗余特征的判定标准和方法不尽相同。大多数的研究是从两个特征的相关性判定冗余性,比如说计算两个特征之间的余弦相似度,很少有分析特征与特征的相关性和特征与目标值的相关性之间的联系。另外数据中心服务器能耗特征集维度巨大,一些特征选择算法也无法适用。

技术实现思路

[0005]专利技术目的:本专利技术的目的是提供一种基于非冗余特征选择的数据中心服务器能耗预测方法,从而使数据中心运维人员能够直观准确地掌握影响服务器能耗的关键因子,更好地分析、预测服务器运行时的负载变化和能耗趋势。
[0006]技术方案:本专利技术所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,包括以下步骤:
[0007](1)选择出服务器能耗原始特征集中的强相关特征集。
[0008](1.1)计算原始特征中每个特征F
i
与目标标量能耗y之间的皮尔逊相关性系数ρ
i,y
。皮尔逊相关性系数ρ
i,y
的计算公式为:
[0009][0010]其中Cov(i,y)是特征F
i
和目标变量能耗y的协方差,σ
i
和σ
y
分别为特征F
i
和目标变量能耗y的标准差。
[0011](1.2)设定一个阈值α,选出相关性系数ρ
i,y
大于等于设定阈值α的特征作为强相关特征集,并将强相关特征集按相关性大小降序排列。设定的阈值α大于等于0.8且小于1。
[0012](2)通过冗余特征判定算法找出强相关特征中的非冗余特征。
[0013](2.1)记原始特征集中每个特征与目标变量能耗的皮尔逊相关性系数ρ
i,y
中的最大值为ρ
max

[0014](2.2)从强相关特征集最左端获取第一个特征F
j
,再依次获取F
j
右侧的特征F
i
(i≠j且ρ
j,y
≥ρ
i,y
),计算F
i
和F
j
的皮尔逊相关性系数ρ
i,j

[0015](2.3)判定ρ
i,y
和ρ
max
是很接近的情况(相差不超过0.1),如果ρ
i,j
>ρ
max
,则特征F
i
是近似特征,从强相关特征集合中删除特征F
i

[0016](2.4)判定ρ
i,y
和ρ
max
不是很接近的情况(相差不超过0.1),但是其中为所有强相关特征和目标标量能耗相关性系数的平均值,则特征F
i
是近似特征,从强相关特征集合中删除特征F
i

[0017](2.5)选择F
j
右侧的第一个特征作为新一轮的F
j
,重复步骤(2.2)至(2.4),直到没有新的F
j
可选。
[0018](2.6)输出最终的强相关特征集,即非冗余强相关性特征集。
[0019](3)利用门控循环单元(Gate Recurrent Unit,GRU)神经网络构建模型预测服务器能耗。
[0020](3.1)筛选出的非冗余强相关特征作为服务器能耗分析模型的输入。
[0021](3.2)服务器能耗特征分析模型的计算过程为:
[0022]r
t
=σ(W
r
·
[h
t
‑1,x
t
]+b
r
)
[0023]z
t
=σ(W
z
·
[r
t
·
h
t
‑1,x
t
]+b
h
)
[0024][0025][0026]其中,r
t
、z
t
代表更新门和重置门;W
r
、W
z
是更新门和重置门的权重参数;b
r
、b
h
表示更新门和重置门的偏置参数;激活函数σ(
·
)将计算值压缩到[0,1];tanh(
·
)是双曲正切激活函数,将计算值压缩到[

1,1];x
t
是一个包含输入特征数据的向量,也就是筛选的非冗余强相关特征;表示GRU单元当前时刻t的记忆内容,由重置门储存的历史有效内容和x
t
的有效内容组成,取值为[

1,1];h
t
、h
t
‑1分别表示当前时刻t、前一时刻t

1的GRU单元学习到与预测服务器能耗相关的有效内容。
[0027](3.3)利用服务器能耗分析模型的输出,构建非冗余强相关特征与服务器能耗值之间的关联关系,从而实现预测服务器能耗。
[0028]一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种基于非冗余特征选择的数据中心服务器能耗预测方法。
[0029]一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于非冗余特征选择的数据中心服务器能耗预测方法。
[0030]有益效果:与现有技术相比,本专利技术具有如下优点:
[0031]1、本专利技术通过分析特征与特征相关性系数、特征与目标变量相关性系数二者之间联系,确定了冗余特征的判定准测,可以有效地缩减服务器能耗特征维数。
[0032]2、本专利技术通过以非冗余强相关特征作为输入训练GRU神经网络模型,训练后的模型在服务器能耗预测上有着更高的准确率。
[0033]3、本专利技术通过对服务器能耗的预测,辅助数据中心运维人员本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,包括以下步骤:(1)选择出服务器能耗原始特征集中的强相关特征集;(2)通过冗余特征判定算法找出强相关特征中的非冗余特征;(3)利用GRU神经网络构建模型预测服务器能耗。2.根据权利要求1所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,所述步骤(1)具体为:(1.1)计算原始特征中每个特征F
i
与目标标量能耗y之间的皮尔逊相关性系数ρ
i,y
;(1.2)设定一个阈值α,选出相关性系数ρ
i,y
大于等于设定阈值α的特征作为强相关特征集,并将强相关特征集按相关性大小降序排列。3.根据权利要求2所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,所述步骤(1.1)中皮尔逊相关性系数ρ
i,y
的计算公式为:其中Cov(i,y)是特征F
i
和目标变量能耗y的协方差,σ
i
和σ
y
分别为特征F
i
和目标变量能耗y的标准差。4.根据权利要求2所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,所述步骤(1.2)中设定的阈值α大于等于0.8且小于1。5.根据权利要求1所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,所述步骤(2)具体为:(2.1)记原始特征集中每个特征与目标变量能耗的皮尔逊相关性系数ρ
i,y
中的最大值为ρ
max
;(2.2)从强相关特征集最左端获取第一个特征F
j
,再依次获取F
j
右侧的特征F
i
,计算F
i
和F
j
的皮尔逊相关性系数ρ
i,j
;(2.3)判定ρ
i,y
和ρ
max
是很接近的情况,如果ρ
i,j
>ρ
max
,则特征F
i
是近似特征,从强相关特征集合中删除特征F
i
;(2.4)判定ρ
iy
和ρ
max
不是很接近的情况,但是其中为所有强相关特征和目标标量能耗相关性系数的平均值,则特征F
i
是近似特征,从强相关特征集合中删除特征F
i
;(2.5)选择F
j<...

【专利技术属性】
技术研发人员:丰佳张立志杨华飞牧军杨文清宋文秦培兆李虎席文超李强洪岩申波李伟李磊毛林晖吴禹刘辉王丽君张正银
申请(专利权)人:国电南瑞科技股份有限公司南瑞集团有限公司国网电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1