一种实现应用性能优化的节点分配方法组成比例

技术编号:11423333 阅读:72 留言:0更新日期:2015-05-07 01:37
本发明专利技术公开了一种实现应用性能优化的节点分配方法,其具体实现过程为:首先监控采集集群中所有节点的系统噪声大小;对并行作业运行的所有计算节点系统噪声进行比较,将比较结果按系统噪声由大到小顺序排列;将排列后的噪声结果写入nodelist文件中;并行作业的mpi程序根据系统噪声排序后得到的nodelist文件启动并行程序,根据该nodelist文件启动的并行程序,进程等级号自动按照由小到大的顺序运行。该一种实现应用性能优化的节点分配方法与现有技术相比,通过监控集群中计算节点的系统噪声分布,优化大规模并行作业的计算节点分配策略,使计算节点系统噪声对并行作业的性能影响降至最低,实用性强,易于推广。

【技术实现步骤摘要】
一种实现应用性能优化的节点分配方法
本专利技术涉及计算机高性能计算作业调度技术,具体地说是一种实用性强、实现应用性能优化的节点分配方法。
技术介绍
系统噪声,也叫操作系统噪声,它反映了操作系统非用户程序cpu利用率的波动,该数值持续保持较小区间,则系统性能较好,运行平稳;反之,系统性能较差,运行不稳定。当前高性能计算领域发展越来越快,由国防科大研制的天河二号超级计算机系统,以峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次双精度浮点运算的优异性能位居榜首,成为全球最快超级计算机;同时,应用的并行规模也越来越大,一个大规模作业经常会并行运行在成百上千个计算节点上。在大型高性能集群系统中,系统噪声对大规模作业性能影响很大,即使是少量节点的系统噪声,也会对应用性能产生很大影响。研究发现,系统噪声节点所处的位置不同,所产生的性能影响差别很大。简单来说,进程等级号(rank值)越靠近根进程(rank0),则进程所在节点的系统噪声对应用影响越小;反之,进程等级号越大,则进程所在节点系统噪声对应用影响越大。基于该现有技术及问题,本专利技术提供一种降低系统噪声对大规模并行作业性能影响的节点分配方法,该方法通过监测集群所有节点的系统噪声分布,在作业调度中,根据监控到的节点系统噪声大小,将待分配的计算节点重新排列,使其系统噪声从大到小,而应用在该组节点上运行时,等级号将从小到大分布,在这样的排列顺序下,同样一组节点的系统噪声,将对应用性能影响最小,从而达到优化应用性能的效果。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、实现应用性能优化的节点分配方法。一种实现应用性能优化的节点分配方法,其具体实现过程为:首先监控采集集群中所有节点的系统噪声大小;对并行作业运行的所有计算节点系统噪声进行比较,将比较结果按系统噪声由大到小顺序排列;将排列后的噪声结果写入nodelist文件中;并行作业的mpi程序根据系统噪声排序后得到的nodelist文件启动并行程序,根据该nodelist文件启动的并行程序,进程等级号自动按照由小到大的顺序运行。所述的监控采集集群所有节点系统噪声使用的是一个分布式的集群系统噪声监控程序,该程序将按指定频率自动采集集群中每个节点的系统噪声,将其保存在数据库中;在系统的数据库文件中,保存系统cpu各个组成成分的占用时间累积,该占用时间积累包括系统使用sys、用户应用使用usr、io等待io、负nice值进程使用ni、空闲idle;对sys、io、nice三个系统成分使用率的统计,得到采集频段中系统噪声的平均波动大小:os_noise=(sys1+io1+ni1-(sys0+io0+ni0))/(total1-total0);以上算法中,sys1、io1、ni1为当前系统、io等待、负nice进程的当前时间累积;sys0、io0、ni0为上一次系统、io等待、负nice进程的时间累积;则(sys1+io1+ni1-(sys0+io0+ni0))为最近频率周期内系统、io等待、负nice进程三项的时间累积统计;而(total1-total0)为最近频率周期内的cpu总时间统计;他们的比值即最近频率周期的系统噪声平均统计。所述系统噪声比较排序的具体过程为:将并行作业运行所在节点从所有节点中选择出来,然后比较采集到的各个计算节点的系统噪声大小,将比较结果按从大到小顺序保存在节点列表文件nodelist中。所述的并行作业根据nodelist文件启动并行程序模块、mpi并行程序,将根据排序产生的nodelist文件,启动并行程序;等级号最小的进程运行在系统噪声最大的节点上,依次排列,等级号最大的进程将运行系统噪声最小的节点上。本专利技术的一种实现应用性能优化的节点分配方法,具有以下优点:该专利技术的一种实现应用性能优化的节点分配方法通过监控集群中计算节点的系统噪声分布,优化大规模并行作业的计算节点分配策略,使计算节点系统噪声对并行作业的性能影响降至最低;可应用在ClusterEngine软件底层作业调度节点分配策略模块,起到优化大规模并行作业性能的效果,实用性强,易于推广。附图说明附图1为实施例中系统噪声比较排序示意图。附图2为实施例中nodelist文件中节点顺序与mpi程序产生等级号rank值的关系示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明。在大规模并行作业中,系统噪声节点所处的位置不同,所产生的性能影响差别很大。简单来说,进程等级号(rank值)越靠近根进程(rank0),则进程所在节点的系统噪声对应用影响越小;反之,进程等级号越大,则进程所在节点系统噪声对应用影响越大。本专利技术提出一种实现应用性能优化的节点分配方法,该方法通过监测集群所有节点的系统噪声分布,在作业调度中,根据监控到的节点系统噪声大小,将待分配的计算节点重新排列,使其系统噪声从大到小,而应用在该组节点上运行时,等级号将从小到大分布。在这样的排列顺序下,同样一组节点的系统噪声,将对应用性能影响最小,从而达到优化应用性能的效果。其具体实现过程为:首先监控采集集群中所有节点的系统噪声大小;对并行作业运行的所有计算节点系统噪声进行比较,将比较结果按系统噪声由大到小顺序排列;将排列后的噪声结果写入nodelist文件中;并行作业的mpi程序根据系统噪声排序后得到的nodelist文件启动并行程序,根据该nodelist文件启动的并行程序,进程等级号自动按照由小到大的顺序运行,这样,nodelist文件中所有节点的系统噪声对整个并行作业的性能影响将会最小。所述的监控采集集群所有节点系统噪声使用的是一个分布式的集群系统噪声监控程序,该程序将按指定频率自动采集集群中每个节点的系统噪声,该指定频率一般为默认3秒钟,将其保存在数据库中。在系统的/proc/stat文件中,保存了系统cpu各个组成成分的占用时间累积,主要包括系统使用(sys),用户应用使用(usr),io等待(io),负nice值进程使用(ni),空闲(idle)等。通过对系统、io、nice三个主要系统成分使用率的统计,可以得到一个采集频段中系统噪声的平均波动大小:os_noise=(sys1+io1+ni1-(sys0+io0+ni0))/(total1-total0);以上算法中,sys1、io1、ni1为当前系统、io等待、负nice进程的当前时间累积;sys0、io0、ni0为上一次系统、io等待、负nice进程的时间累积;则(sys1+io1+ni1-(sys0+io0+ni0))为最近频率周期内系统、io等待、负nice进程三项的时间累积统计;而(total1-total0)为最近频率周期内的cpu总时间统计;他们的比值即最近频率周期的系统噪声平均统计。所述系统噪声比较排序的具体过程为:将并行作业运行所在节点从所有节点中选择出来,然后比较采集到的各个计算节点的系统噪声大小,将比较结果按从大到小顺序保存在节点列表文件nodelist中。所述的并行作业根据nodelist文件启动并行程序模块,mpi并行程序,将根据上述步骤产生的nodelist文件,启动并行程序。由于nodelist文件中,节点的排列顺序为系统噪声从大到小排列;而并行程序启动本文档来自技高网...
一种实现应用性能优化的节点分配方法

【技术保护点】
一种实现应用性能优化的节点分配方法,其特征在于,其具体实现过程为:首先监控采集集群中所有节点的系统噪声大小;对并行作业运行的所有计算节点系统噪声进行比较,将比较结果按系统噪声由大到小顺序排列;将排列后的噪声结果写入nodelist文件中;并行作业的mpi程序根据系统噪声排序后得到的nodelist文件启动并行程序,根据该nodelist文件启动的并行程序,进程等级号自动按照由小到大的顺序运行。

【技术特征摘要】
1.一种实现应用性能优化的节点分配方法,其特征在于,其具体实现过程为:首先监控采集集群中所有节点的系统噪声大小;对并行作业运行的所有计算节点系统噪声进行比较,将比较结果按系统噪声由大到小顺序排列;将排列后的噪声结果写入nodelist文件中;并行作业的mpi程序根据系统噪声排序后得到的nodelist文件启动并行程序,根据该nodelist文件启动的并行程序,进程等级号自动按照由小到大的顺序运行。2.根据权利要求1所述的一种实现应用性能优化的节点分配方法,其特征在于,所述的监控采集集群所有节点系统噪声使用的是一个分布式的集群系统噪声监控程序,该程序将按指定频率自动采集集群中每个节点的系统噪声,将其保存在数据库中;在系统的数据库文件中,保存系统cpu各个组成成分的占用时间累积,该占用时间积累包括系统使用sys、用户应用使用usr、io等待io、负nice值进程使用ni、空闲idle;对sys、io、nice三个系统成分使用率的统计,得到采集频段中系统噪声的平均波动大小:os_noise=(sys1...

【专利技术属性】
技术研发人员:张云
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1