一种高性能计算应用特征的监控组织方法技术

技术编号:9546434 阅读:122 留言:0更新日期:2014-01-08 22:29
本发明专利技术提供一种高性能计算应用特征的监控组织方法,依据高性能计算硬件平台体系架构特点,以高性能计算的应用程序为准,将管理节点和计算节点划分为监控的控制端和客户端,控制端完成对客户端的管理、数据接收、数据审查和入库工作,客户端接收并按照控制端的指令,在指定的时间间隔内完成对运行特征参数的采集工作并发送控制端,该方法全方位监控并提取了应用程序运行时在输入、存储、处理、传输以及输出这五个环节的特征参数,数据采集量大,充分表现了应用对CPU占用、内存容量、内存吞吐、输入/输出以及网络数据交换等方面的资源需求以及相关计算资源的使用水平。此外,该方法还具有系统资源占用率低、可监控集群规模大、数据可重复查询等特点。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,具体地说是。
技术介绍
随着人类社会的不断进步,科学技术的发展,人们不但对自然界的认识越来越广泛,而且对未知世界探索的需求也越来越迫切。这就使得人类撑握的信息数据的量急剧性的增长,而与时同时,这些海量的信息数据都需要及时的分析和处理。例如,一个大型天文射电望远镜阵列一秒钟就能产生100GB以上的宇宙微波数据,这些数据都需要及时得到分析;再如,在粒子物理研究领域,一台大型强子对撞机一次对撞的数据也是以TB为单位来计量的;此外,像人类基因组工程、石油勘探、天气预报等等领域也对计算能力提出了越来越高的要求。在这种大背景下数值计算已然成为了除实验、理论分析之外的第三种极其重要的科学探索手段。正是基于这样的现实,促使了当今世界各个科技强国都在不遗余力的大力发展超级计算机。如,在2012年I月发布的世界T0P500中,排名第一的橡树岭国家实验室的“泰坦(Titan)”就已经达到了 27PFlops的峰值速度,而与此同时新的百亿亿次超级计算机也已经在研究和规划之中了。总的来说,基本上每十年,超级计算机的速度就提升三个量级(1000倍),因此建造超级计算机的能力已经成为一个国家科技水平和综合国力的一个有力体现。虽然超级计算机发展的速度是惊人的,也令人欣慰,但很遗憾的是与之相配套的软件技术却裹足不前,这已经严重的制约了超级计算机应用能力的发挥。现在绝大多数的应用软件所基于的基本原理和数学算法,还是上世纪50飞0年代提出和发展起来的,这些算法与当时的大型机是完全匹配和适应的,以串行或少量进程间并行为主。但经过50多年的发展,现在的超级计算机体系结构已经发生了翻天覆地的变化,动辄拥有几十万乃至上百万的CPU核,而且还有相当一部分超级计算机是使用的混合异构(CPU+GPU/MIC等)的体系架构,这就使得早期的物理模型和数学算法力不从心、无法胜任。这就是现在绝大多数的应用软件效率低下、可扩展性差的主要原因。此外,数以万计的处理器协同工作,如何做到对它们运行性能的把控也是现在超大型集群所面临的难题之一。要破解现在的这些难题,一方面,我们应该大力研究和发展新的与现今超级计算机体系结构相匹配的物理模型和数学算法,这是突破现有瓶颈的终极手段,但这毕竟是一项极其困难的课题,无法在短时间内见到成效并实现大规模应用;另一方面,我们从历史上继承下来大量的优秀应用软件,我们应着手研究这些海量应用软件,合理的表征它们的运行特征,找出它们的性能瓶颈,最大限度的在现有平台上发挥这些应用的性能,此外还能为应用性能的改进和突破提供有力的依据。因此,为这些应用软件做性能分析以及优化将是高性能领域的重要环节。而这其中,如何合理、高效的监控和提取应用在运行时的特征就是本专利技术所要解决的主要问题。从目前的情形来看,业界尚没有一款免费的系统监测工具可以实时监测包括硬件系统微架构指标,如:CPI,实时内存带宽,系统实时浮点计算量等,在内系统指标。且在其他的非微架构的指标中,现有监测工具的支持也不是很好,其中典型的例子是IB网络(rdma)。此外,多数情况下利用其它监测工具无法灵活的满足具体要求,如nmon无法满足精确的多节点监控;Ganglia对于数据采集间隔及保存做的不是很好。因此,在这种情况下,本专利技术的意义就显得十分的重要。
技术实现思路
本专利技术的目的是提供一种合理、快速、实时、高效的监控和提取高性能计算中系统及应用程序运行特征的方法,从而为快速、精确的定位应用程序对计算资源的需求量,最大限度的发挥和优化应用程序的性能提取基本的参数依据。此外,还为监控高性能系统硬件健康水平提供硬件级数据的有效有段。本专利技术的目的是按以下方式实现的,依据高性能计算硬件平台体系架构特点,以高性能计算的应用程序为准,将管理节点和计算节点划分为监控的控制端和客户端,控制端完成对客户端的管理、数据接收、数据审查和入库工作,客户端接收并按照控制端的指令,在指定的时间间隔内完成对运行特征参数的采集工作并发送控制端,基本的分析、组织流程如下: 1)确定高性能计算集群中的计算节点,并在相应的计算节点上启动监控的客户端,客户端也首先完成对相应硬件、系统环境的初始化工作,包括:硬件资源是否存在,是否可以正常获取硬件访问权限,如不能正常完成初始化操作,则应给出相应信息提示并退出,反之,进入正常就续状态,在指定的端口监听控制端指令; 2)确定高性能计算集群中的管理节点,并在相应的管理节点上启动监控的控制端,控制端完成对网络环境、数据库资源的初始化,并与指定的客户端建立通信,如若不能完成正常初始化操作或无法与客户端建立正常的通信模式,则给出相应的错误提示信息并退出; 3)控制端向客户端发送开启指令; 4)客户端接收控制端发送来的开启指令,并开始对设备资源的监控与数据提取,同时在端口监听控制端的其他指令; 5)控制端按指定的时间间隔向客户端发送数据收集指令; 6)客户端接收来自控制端的收集指令,将在该时间段内的监控数据发送控制端; 7)控制端接收来自客户端的监测数据,并完成对数据合理性审查,之后将数据存入到数据库中,从而完成本次数据收集; 8)重复步骤5)至步骤7); 9)监控结束时,控制端向客户端发送采集结束指令; 10客户端接收来自控制端的结束指令,完成清理操作,释放所占用的资源,停止数据的监控,之后继续监听来自控制端的指令。本专利技术的有益效果是:本专利技术提供一种旨在实时监控和提取高性能计算领域各行业应用软件在运行过程中各种特征参数的方法。本专利技术简单、实用、可靠、高效,可以非常直观的、实时的反映一款应用软件对高性能硬件资源的需求量,也可以监控整个计算机集群的运行健康情况。通过对应用特征的监控和提取,一方面,可以深入的了解一款应用程序对硬件资源的需求量,进而量体裁衣,定制合适的平台以使得该应用可以在该平台上最大化发挥其性能的运行。另一方面,依据该实时监控特征,可以有效的反应集群系统的硬件使用情况,以及相应的性能水平,为集群系统的健康评价及性能优化提供指导依据,本专利技术充分利用了高性能计算的特点,不但实现了对宝贵的高性能计算资源的低战胜率,而且实现了管理节点(控制端)与计算节点(客户端)的分离。这样一方面完美实现了对整个高性能计算系统所有节点的监控覆盖,另一方面对保证了完全性,即当有某一或某些计算节点失效时,并不影响对其他节点的有效监控。不但实现了对宝贵的高性能计算资源的低战胜率,而且实现了管理节点(控制端)与计算节点(客户端)的分离。这样一方面完美实现了对整个高性能计算系统所有节点的监控覆盖,另一方面对保证了完全性,即当有某一或某些计算节点失效时,并不影响对其他节点的有效监控。【附图说明】图1是应用特征监控和提取方法的流程图。【具体实施方式】参照说明书附图对本专利技术的方法作以下详细地说明。本专利技术针对现行高性能计算机体系架构及计算应用的特点,大体上将方法流程划分为两个主要部分。其中,一部分是控制端进程;另一部分是客户端进程。控制端进程起主要的控制作用,它负责控制端相关进程的初使化,控制指令的发送,监控数据的收取以及数据的存储等操作。客户端进程主要起数据采集的作用,它接收控制端的命令,在规定的时间间隔内采集所需数据并回传至控制端。由于一般的高性本文档来自技高网
...

【技术保护点】
一种高性能计算应用特征的监控组织方法,其特征在于依据高性能计算硬件平台体系架构特点,以高性能计算的应用程序为准,将管理节点和计算节点划分为监控的控制端和客户端,控制端完成对客户端的管理、数据接收、数据审查和入库工作,客户端接收并按照控制端的指令,在指定的时间间隔内完成对运行特征参数的采集工作并发送控制端,基本的分析、组织流程如下:1)确定高性能计算集群中的计算节点,并在相应的计算节点上启动监控的客户端,客户端也首先完成对相应硬件、系统环境的初始化工作,包括:硬件资源是否存在,是否可以正常获取硬件访问权限,如不能正常完成初始化操作,则应给出相应信息提示并退出,反之,进入正常就续状态,在指定的端口监听控制端指令;2)确定高性能计算集群中的管理节点,并在相应的管理节点上启动监控的控制端,控制端完成对网络环境、数据库资源的初始化,并与指定的客户端建立通信,如若不能完成正常初始化操作或无法与客户端建立正常的通信模式,则给出相应的错误提示信息并退出;3)控制端向客户端发送开启指令;4)客户端接收控制端发送来的开启指令,并开始对设备资源的监控与数据提取,同时在端口监听控制端的其他指令;5)控制端按指定的时间间隔向客户端发送数据收集指令;6)客户端接收来自控制端的收集指令,将在该时间段内的监控数据发送控制端;7)控制端接收来自客户端的监测数据,并完成对数据合理性审查,之后将数据存入到数据库中,从而完成本次数据收集;8)重复步骤5)至步骤7);9)监控结束时,控制端向客户端发送采集结束指令;10客户端接收来自控制端的结束指令,完成清理操作,释放所占用的资源,停止数据的监控,之后继续监听来自控制端的指令。...

【技术特征摘要】
1.一种高性能计算应用特征的监控组织方法,其特征在于依据高性能计算硬件平台体系架构特点,以高性能计算的应用程序为准,将管理节点和计算节点划分为监控的控制端和客户端,控制端完成对客户端的管理、数据接收、数据审查和入库工作,客户端接收并按照控制端的指令,在指定的时间间隔内完成对运行特征参数的采集工作并发送控制端,基本的分析、组织流程如下: 1)确定高性能计算集群中的计算节点,并在相应的计算节点上启动监控的客户端,客户端也首先完成对相应硬件、系统环境的初始化工作,包括:硬件资源是否存在,是否可以正常获取硬件访问权限,如不能正常完成初始化操作,则应给出相应信息提示并退出,反之,进入正常就续状态,在指定的端口监听控制端指令; 2)确定高性能计算集群中的管理节点,并在相应的管理节点上启动监控的控制端,控制端完成对网络环境、数...

【专利技术属性】
技术研发人员:刘羽吕文静金莲于涛
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1