一种针对存在大量迭代的高性能计算应用的能耗管理方法技术

技术编号:15436658 阅读:120 留言:0更新日期:2017-05-25 18:57
本文公开了一种针对高性能计算应用的能耗管理方法,基于程序的局部性原理和高性能计算应用中存在大量迭代的特点。将高性能计算作业的运行行为用计算密集型、内存密集型等标签标识,根据标识的标签对系统组件的功耗状态进行调整,达到能耗管理的目的。整个方法分为监控步骤,标识步骤、调节步骤、预测步骤、反馈步骤。监控步骤负责监控作业的运行行为;标识步骤将作业当前监控周期的运行行为进行标签标识;调节步骤根据标签对应的调节规则对系统组件的功耗状态进行调整;预测步骤用来预测作业在下一阶段的运行行为;反馈步骤根据调整后作业的运行情况,寻找适合当前作业运行的最佳调整规则,达到性能与节能两者之间的平衡。

Energy consumption management method for high-performance computing applications with large iterations

This paper presents a method of energy management for high-performance computing applications, based on the local principles of the program and the large number of iterations in high-performance computing applications. The running behavior of high performance computing operations is labeled by computing intensive and memory intensive, and the power consumption of the system components is adjusted according to the labeled tags, so as to achieve the purpose of energy management. The whole method is divided into monitoring step, identification step, adjustment step, prediction step and feedback step. Operation behavior monitoring steps responsible for monitoring the operation; identification steps operation behavior monitoring period by the current label; adjusting steps according to the adjustment rule labels corresponding to power state of the system components are adjusted; the steps of prediction to predict the operation behavior in the next stage; feedback step according to the operating condition after adjustment operation. Looking for the best adjustment rules of the current operation, to achieve the balance between performance and energy saving.

【技术实现步骤摘要】
一种针对存在大量迭代的高性能计算应用的能耗管理方法
本专利技术涉及设备能耗控制
,尤其涉及一种基于负载能耗管理系统方法,特指运行存在大量迭代的高性能计算应用时的能耗管理方法。
技术介绍
随着计算机的快速发展,面临的能耗问题越来越突出,在高性能计算中心昂贵的计算资源得不到充分的利用,却消耗了大量的电力资源。近几年提出的绿色计算概念越来越被人们重视。在Top500的综合评估中,从能耗-性能指标每秒每瓦百万指令数(MIPS/W)指标可以看出在评价一个计算系统的优劣时不仅考量计算机的性能也对计算系统的功耗进行评估。在高性能计算中心集群的实际使用过程中,资源的利用率比较低,可以利用硬件生产厂商提供的节能技术接口,动态的改变硬件的功耗状态,达到节能目的。在刀片服务器计算部分中包括CPU,硬盘,内存,网络部分。针对不同的硬件部分,硬件厂商提供了不同的节能技术,例如CPU可以通过DVFS(DynamicVoltageandFrequencyScaling)技术动态的调节CPU的频率,硬盘和内存有不同功耗状态,网卡通过调节不同的速率来达到节能目的。系统组件不同的功耗状态对应着不同的性能,组件功耗越低性能越低,导致时间开销就越大,因此需要同时考虑节能与性能两者因素,取得二者之间的平衡。过去的能耗研究大都集中在单个系统组件,而且需要对应用程序进行修改来实现。MajaEtinski等人基于DVFS技术提出了UPAS(UtilizationdrivenPower-AwareparalleljobScheduler)策略,周期性的计算第j周期CPU的利用率,基于第j周期CPU利用率,对CPU的主频进行调整,达到节能目的。本文不同于其它实现的是,提出了一个基于计算系统层的能耗管理方法,将考虑更多的系统组件,而且独立于具体的高性能计算应用,不需要对应用程序做任何修改。动态的监控应用在运行行为,由于在大部分时间时,计算系统不会对系统的全部组件的利用率达到最大情况,所以可以调节利用率较低的组件功耗状态,在减小对性能的影响下实现节能目的。
技术实现思路
为了克服现有能耗管理方法只考虑单一系统组件和需要修改高性能计算应用的缺陷,本专利技术提出了一种针对存在大量迭代的高性能计算应用能耗管理方法。该方法包括监控步骤、标识步骤、调节步骤、预测步骤、反馈步骤。监控步骤是根据预测的结果对作业的运行行为进行监控;标识步骤是将当前监控周期的运行行为进行标签标识;调节步骤是根据当前周期标识的标签对组件进行功耗调整;预测步骤是利用知识库中作业最近行为序列和当前作业的标签的变化模式来预测作业在下一阶段的运行行为;反馈步骤是根据调节后作业的运行情况,寻找适合当前作业运行的最佳调整规则,达到性能与节能两者之间的平衡。一种针对大量迭代的高性能计算应用能耗管理方法,包括以下步骤:A)控步骤:对高性能计算作业的运行行为进行监控;B)识步骤:根据监控步骤获得的监控指标和知识库中的标签标识规则,对作业的当前运行行为进行标签标识;C)调节步骤:当标识作业的运行行为的标签发生变化时,根据标签对应的调节规则对系统组件的功耗状态进行调整;D)预测步骤:根据知识库中作业的运行行为序列和当前作业运行行为,来预测作业在下一阶段的运行行为;E)反馈步骤:根据调整后作业运行状态,优化标签对应的调节规则。一种针对大量迭代的高性能计算应用能耗管理方法,在该方法中不同作业的运行行为对应不同的标签,在运行过程中被标识为不同的阶段,一个阶段包含一个或多个监控周期。标签包括计算密集型,内存密集型,I/O密集型,网络密集型,混合型,全高型,空闲型。在该方法中系统组件包括CPU,内存,硬盘,网卡,这四部分是整个节点能耗消耗的主要部分,而且硬件厂商也提供了相应的能耗管理接口,通过调节各个系统组件的功耗状态达到节能目的。该方法用到知识库,知识库包括三个部分:1)标识规则:包含组件利用状态度量表和标签标识规则表。组件利用状态度量表记录组件名,对应组件的评价指标,该指标的最大值、最小值,以及标识组件使用状态的区间上限值、下限值。标签标识表记录每个标签对应组件的使用状态。评价指标包括CPI,CPU利用率,cache-references,cache-misses,硬盘的读写速率,网速的发送/接收速率。2)行为序列:保存作业在运行过程中标识作业运行行为的标签序列,每个标签序列包括标签名,处于当前标签阶段的周期数,以及该阶段各监控指标的平均值和能耗-性能指标值。3)调节规则:存储在不同标签下对应系统组件的功耗状态,包括标签名称,CPU功耗状态,内存功耗状态,硬盘功耗状态,网卡功耗状态。所述步骤A首先判断当前周期是否处于监控周期,如果是则利用工具采集监控指标,否则进入下一周期的判断。所述标识步骤B包括以下几个步骤:B.1)将得到的监控指标标准化,标准化公式为:θmetric为对应指标标准化值,c为当前周期得到的监控指标值,β为该指标的最大值,α为该指标的最小值,然后计算组件所对应的多个评价指标的标准化值θmetric的平均值,即组件的利用率μ。B.2)通过比较μ值与相应状态区间[low,high]得到组件使用状态,比较方法如下:μ≤low即当前组件处于空闲状态;low<μ≤high即当前组件处于中间状态;μ≥high即当前组件处于忙碌状态。B.3)根据各组件的使用状态和标签标识规则,得到当前作业运行行为的标签。B.4)判断标签是否发生变化,如果是则执行调节步骤C,反之执行预测步骤D。调节步骤C按照知识库中标识标签对应的调节规则对系统组件的功耗状态进行调整。所述预测步骤D具体包括以下步骤:D.1)如果步骤B中得到的标签与当前阶段相同,则重新计算并更新当前阶段指标的平均值,平均值的计算公式为:A′代表计算得到新的指标平均值,A代表旧的指标平均值,n代表处于该阶段的周期数,c代表当前周期得到的监控指标值。D.1.a)将当前阶段的周期数加1,判断当前阶段持续周期数是否超过阈值δ,如果没有超过δ,则预测作业接下来的一个周期也将有同样运行行为,预测结束。D.1.b)预测程序行为在一定周期窗口ω内不会改变,在周期窗口内不用监控作业运行行为标签是否发生变化,预测结束。D.2)在步骤B中得到的标签发生了变化,表明作业进入一个新的行为阶段,将当前周期的监控数据添加到行为序列中。D.2.a)将作业当前运行行为的变化模式与作业最近的运行情况进行阶段匹配。匹配方法是将当前周期标签label的变化模式和知识库中最近L个行为序列进行匹配,如果匹配成功,则进入非监控阶段,周期窗口大小为对应匹配成功的阶段标签label的周期数,预测结束。D.2.b)如果在最近的L个行为序列中没有匹配成功,则预测作业在下周期和当前周期有着相同的运行行为,即标识标签相同,预测结束。在预测步骤中所述δ和L取值分别为21,14。在预测步骤中所述周期窗口ω设为当前阶段周期数N的50%,即如果在处监控到标签没有发生变化,则依次增加窗口大小为N。撰述反馈步骤E包括以下步骤:E.1)计算能耗--性能指标,计算公式为:μcpu为cpu的利用率,μmem为内存的利用率,μnet为网卡的利用率,.μdisk为硬盘的利用率,其中εcpu+εmem+εdisk+εnet=1,本文档来自技高网
...
一种针对存在大量迭代的高性能计算应用的能耗管理方法

【技术保护点】
一种针对存在大量迭代的高性能计算应用的能耗管理方法,其特征在于包括以下步骤:A)监控步骤:对高性能计算作业的运行行为进行监控;B)标识步骤:根据监控步骤获得的监控指标和知识库中的标签标识规则,对作业当前周期运行行为进行标签标识;C)调节步骤:当标识作业运行行为的标签发生变化时,根据标签对应的调节规则对系统组件的功耗状态进行调整;D)预测步骤:根据知识库中作业的行为序列和当前作业运行行为,来预测作业在下一阶段的运行行为;E)反馈步骤:根据调整后作业运行情况,优化标签对应的调节规则。

【技术特征摘要】
1.一种针对存在大量迭代的高性能计算应用的能耗管理方法,其特征在于包括以下步骤:A)监控步骤:对高性能计算作业的运行行为进行监控;B)标识步骤:根据监控步骤获得的监控指标和知识库中的标签标识规则,对作业当前周期运行行为进行标签标识;C)调节步骤:当标识作业运行行为的标签发生变化时,根据标签对应的调节规则对系统组件的功耗状态进行调整;D)预测步骤:根据知识库中作业的行为序列和当前作业运行行为,来预测作业在下一阶段的运行行为;E)反馈步骤:根据调整后作业运行情况,优化标签对应的调节规则。2.根据权利要求1所述的一种针对存在大量迭代的高性能计算应用的能耗管理方法,其特征在于,作业在运行过程中,每个监控周期作业的运行行为用相应的标签标识,连续被相同标签标识的周期被合并成一个阶段,即一个阶段包括一个或多个监控周期。3.根据权利要求1所述的一种针对存在大量迭代的高性能计算应用的能耗管理方法,其特征在于,在该方法中标签包括计算密集型,内存密集型,I/O密集型,网络密集型,混合型,全高型,空闲型。4.根据权利要求1所述的一种针对存在大量迭代的高性能计算应用能耗管理方法,其特征在于,系统组件包括CPU,内存,硬盘,网卡,这四部分是整个节点能耗消耗的主要部分,而且硬件厂商也提供了相应的功耗管理接口,当组件利用率比较低时,通过调节各个系统组件的功耗状态达到节能目的。5.根据权利要求1所述的一种针对存在大量迭代的高性能计算应用能耗管理方法,其特征在于,该方法包括一个知识库,知识库具有三个部分:5.1)标识规则:包含组件利用状态度量表和标签标识规则表,组件利用状态度量表记录系统组件名,对应组件的评价指标,该指标的最大值、最小值,以及标识组件使用状态的区间上限值、下限值,标签标识表记录每个标签对应组件的使用状态,评价指标包括CPI,CPU利用率,cache-references,cache-misses,硬盘的读写速率,网速的发送/接收速率;5.2)行为序列:保存作业在运行过程中标识作业运行行为的标签阶段序列,每个标签阶段包括标签名,处于当前标签阶段的周期数,以及该阶段各监控指标的平均值和能耗-性能指标值;5.3)调节规则:存储标签对应系统组件的功耗状态,包括标签名称,CPU功耗状态,内存功耗状态,硬盘功耗状态,网卡功耗状态。6.根据权利要求1所述的一种针对存在大量迭代的高性能计算应用能耗管理方法,其特征在于,所述监控步骤A首先判断当前周期是否处于监控周期,如果是则利用工具采集监控指标,否则进入下一周期的判断。7.根据权利要求1所述的一种针对存在大量迭代的高性能计算应用能耗管理方法,其特征在于,所述标识步骤B包括以下步骤:B.1将得到的监控指标标准化,标准化公式为:θmetric为对应指标标准化值,c为当前周期得到的监控指标值,β为该指标的最大值,α为该指标的最小值,然后计算组件所对应的多个评价指标的标准化值θmetric的平均值,即组件的利用率;B.2通过比较μ值与相应状态区间[low,high]得到组件使用状态,比较方法如下:μ≤low即当前组件处于空闲状态,low<μ≤high即当前组件处于中间状...

【专利技术属性】
技术研发人员:王云岚谷建华赵天海王涛侯正雄李秀春李露张妍胡雨桐
申请(专利权)人:浪潮电子信息产业股份有限公司西北工业大学王云岚
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1