一种数据中心能效相关特征的选择方法技术

技术编号:22260746 阅读:35 留言:0更新日期:2019-10-10 13:58
本发明专利技术提出了一种数据中心能效相关特征的选择方法,针对数据中心能效的特征选择问题,本发明专利技术采用了一种基于K近邻分类损失函数和分类间隔的特征选择方法,该方法通过收集数据中心能耗数据和对应的PUE值,然后将PUE值分级分类,通过样本找到对应的分类间隔,并更新特征权重和对特征权重排序,以此根据设定的阈值获得特征选择结果。本发明专利技术所述方法能够提取出与数据中心能效相关的特征并很好地处理噪声数据,从而提高后续能效预测的精度,有效防止过学习。

A Method for Selecting Energy Efficiency Related Features in Data Centers

【技术实现步骤摘要】
一种数据中心能效相关特征的选择方法
本专利技术属于云计算和机器学习,具体涉及一种数据中心能效相关特征的选择方法。
技术介绍
数据中心是执行全天候大规模关键运算任务的基础设施,是支撑IT行业运转的重要设施。随着网络运营商和互联网公司的大规模云服务对数据计算、处理和存储的需求不断增长,拥有成千上万台服务器的大型数据中心激增。其次,高性能运算的云端化随着网络带宽的扩容而不断发展,这扩大了构建大规模计算基础架构的需求。因此,数据中心成为快速发展的IT行业的关键基础设施之一。近年来,由于数据中心的高经济效益与环境相关性,数据中心的能源效率的优化问题已经变得至关重要。首先,数据中心带来了许多经济效益,这使得数据中心的规模和数量也不断增长。随着用电量的急剧增加和电力成本的上升,电费已经成为当今数据中心的主要开支。在某些情况下,数据中心的电力成本可能高于原始资本投资的成本。其次,数据中心的能源使用会产生许多环境问题,如大量的电能消耗、空调等制冷设备的温室气体排放与冷却水的排放。而且即使数据中心的服务器处于空闲状态,同样会消耗大量的能量。出于这些原因,目前在数据中心运营过程中其能源效率需要优先考虑。衡量数据中心能效的最常用指标是能源使用效率,即PUE。这个指标的定义是输入数据中心的总能耗除以IT设备使用的能耗。总能耗包括IT设备使用的能耗加上任何非计算和数据通信用途的设备(即冷却,照明设备等)所消耗的任何开销功耗。若数据中心的PUE值为2.0,这意味着该设施每供给IT设备1瓦特的能耗,其他非IT设备也会消耗1瓦特能耗。最理想的PUE是1.0,即除IT设备外无其他能耗的假设情况。该种情况在实际应用中是无法达到的,所以先进的数据中心都力求PUE趋近于1.0。基于上述情况,解决数据中心的能效预测问题已经迫在眉睫,此问题成为了国内外的研究热点。而能效预测中的核心任务之一是挑选与数据中心能效相关的关键属性(特征)。目前大多数能效预测研究都是基于极简的数据中心模型来实现的,比如简单的服务器CPU频率或性能计数器指标,因此特征选择比较容易。而对于大规模数据中心,其特征繁多且复杂,相关特征选择的研究比较少,仅有的模型大多都基于深度神经网络的黑盒模型,可解释性差。
技术实现思路
专利技术目的:针对上述现有技术对于特征数据的选择性不足,本专利技术提供一种数据中心能效相关特征的选择方法,能够针对所有数据中心进行相关特征的选择。技术方案:一种数据中心能效相关特征的选择方法,包括以下步骤:(1)收集数据中心能耗数据和对应的PUE值;(2)按分级标准将PUE值分级;(3)随机选择样本并查找其K近邻,同时计算该样本所对应的分类间隔;(4)建立基于分类损失-间隔的特征选择评价准则;(5)通过梯度下降优化所设计的评价准则更新特征权重;(6)对特征权重排序,并通过设定阈值来获得特征选择结果。进一步的,由于步骤一得到的PUE是连续值,所以需要将PUE通过分级标准转化为离散值。所述步骤(2)中按分级标准将PUE值分级,根据电能利用效率分级表计算出每条数据xi对应的PUE等级yi∈{1,2,3},xi表示第i条数据的n维特征矢量,其中的xij则表示第i条数据的第j个实数特征值,其表达式如下:步骤(3)所述的随机选择样本并查找其K近邻,同时计算该样本所对应的分类间隔具体步骤如下:(31)获得二维二值标签对应关系矩阵B和目标近邻关系矩阵T,所述矩阵B中元素bij∈{0,1}表示PUE等级yi和yj是否相同,矩阵T中元素tij∈{0,1}表示样本xj是否为xi的目标近邻;(32)将目标近邻的定义为与xiPUE等级相同的K近邻同类样本,其中K>2;(33)从N条样本中不放回选择样本xi,找到与样本xi最近邻且PUE等级相同的样本nearhit(xi)和与样本xi最近邻且PUE等级不同的样本nearmiss(xi),并计算分类间隔θi,用公式表示为:θi=|‖xi-nearmiss(xi)‖2-‖xi-nearhit(xi)‖2|。步骤(4)包括将样本xi基于特征权重w的损失函数Ls(w,xi)作为特征选择的评价准则,其定义为:其中,c为正常数,通常通过交叉验证得到;h为hinge损失,表示为:[a]+=max(a,0)其中,加权的欧式距离计算公式为:所述步骤(5)包括计算每个特征f的损失函数的梯度最终得到关于所有特征的n维梯度向量通过更新特征权重向量w;对于特征f的损失函数梯度计算表达式如下:其中,hinge损失的梯度定义如下:g(wf)=2wf((xif-xjf)2-(xif-xpf)2)特征权重向量w更新公式如下:最后基于所设定的迭代次数,重复步骤(3)-步骤(5)。所述步骤(6)包括将特征按权重w排序后通过设定阈值来确定最终的特征子集,所述特征子集中所有特征为与数据中心能效相关的关键特征。有益效果:本专利技术与现有技术相比,其显著的效果在于:第一,本专利技术只需要计算n个特征的权重并将它们排序,相对于传统方法计算复杂度较低,且能有效防止过学习;第二,本专利技术所采用的基于K近邻算法能更好地处理云数据中心可能存在的噪声数据,提高数据的精准性。附图说明图1是本专利技术的结构示意图;图2是PUE结构示意图;图3是实施例分类间隔θi表示图。具体实施方式为了详细的说明本专利技术所公开的技术方案,下面结合说明书附图及具体实施例做进一步的阐述。首先,关于本专利技术所涉及的相关变量介绍如下:假设已经收集N条数据中心能耗数据及其PUE值,表示为:其中xi表示第i条数据的n维特征矢量,xij则表示第i条数据的第j个特征数据的实数特征值,即zi则表示为第i条数据对应的PUE值,根据zi可得到对应的PUE等级yi∈{1,2,3},因而可得到新的样本,表示为:w为原始能效数据集中每个特征的权重所构成的权重向量,其中每个特征权重初始值为1。与xiPUE等级相同的K近邻同类样本定义为目标近邻,其中,K>2。本专利技术下文中提到的距离均代表欧式距离。本专利技术所提供的是一种针对所有数据中心预测问题的特征选择方法,其流程如图1所示,具体步骤如下:步骤一:收集N条数据中心的能耗数据,及其对应的PUE值。采集的数据中心能耗数据的特征如下:服务器总IT负载;核心网络房间总IT负载;运行流程水泵总数;流程水泵变频器平均速度;冷凝水泵总数;冷凝水泵变频器平均速度;运行冷却塔总数;冷却塔出水平均设定温度;运行冷水机总数;运行干冷机总数;运行冷冻水注水泵总数;冷冻水注水泵平均设定温度;换热器的平均温度;室外空气湿球温度;室外空气干球温度;室外空气焓值;室外空气相对湿度;室外风速;室外风向等。不同的数据中心可根据设备或布局的不同采集不同的特征。步骤二:根据DB11/T1139-2014标准提出的电能利用效率(PUE)分级表得到每条数据xi对应的PUE等级yi。PUE分级的结构示意图如图2所示,PUE分级表如表1所示。表1PUE分级表级别I级Ⅱ级Ⅲ级PUE值1<PUE≤1.51.5<PUE≤1.81.8<PUE≤2.0比如说收集到的数据中心的某条数据对应的PUE值为1.4,则可以得到该数据中心对应的PUE等级为1。步骤三:随机选择样本xi并查找其K近邻,同时计算该样本对应的分类间隔θi。具体的,首先需要获得二维二值标签对应关系矩阵B和本文档来自技高网
...

【技术保护点】
1.一种数据中心能效相关特征的选择方法,其特征在于:包括以下步骤:(1)收集数据中心能耗数据和对应的PUE值;(2)按分级标准将PUE值分级;(3)随机选择样本并查找其K近邻,同时计算该样本所对应的分类间隔;(4)建立基于分类损失‑间隔的特征选择评价准则;(5)通过梯度下降优化所设计的评价准则更新特征权重;(6)对特征权重排序,并通过设定阈值来获得特征选择结果。

【技术特征摘要】
1.一种数据中心能效相关特征的选择方法,其特征在于:包括以下步骤:(1)收集数据中心能耗数据和对应的PUE值;(2)按分级标准将PUE值分级;(3)随机选择样本并查找其K近邻,同时计算该样本所对应的分类间隔;(4)建立基于分类损失-间隔的特征选择评价准则;(5)通过梯度下降优化所设计的评价准则更新特征权重;(6)对特征权重排序,并通过设定阈值来获得特征选择结果。2.据权利要求1所述一种数据中心能效相关特征的选择方法,其特征在于:所述步骤(2)中按分级标准将PUE值分级,根据电能利用效率分级表计算出每条数据xi对应的PUE等级yi∈{1,2,3},xi表示第i条数据的n维特征矢量,其中的xij则表示第i条数据的第j个实数特征值,其表达式如下:3.据权利要求1所述一种数据中心能效相关特征的选择方法,其特征在于:步骤(3)所述的随机选择样本并查找其K近邻,同时计算该样本所对应的分类间隔具体步骤如下:(31)获得二维二值标签对应关系矩阵B和目标近邻关系矩阵T,所述矩阵B中元素bij∈{0,1}表示PUE等级yi和yj是否相同,矩阵T中元素tij∈{0,1}表示样本xj是否为xi的目标近邻;(32)目标近邻的定义为与xiPUE等级相同的K近邻同类样本,其中K>2;(33)从N条样本中不放回选择样本xi,找到与样本xi...

【专利技术属性】
技术研发人员:李云张諝晟沈子钰夏彬刘峥
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1