一种高性能计算应用的性能监测系统技术方案

技术编号:26030816 阅读:41 留言:0更新日期:2020-10-23 21:08
本发明专利技术涉及一种高性能计算应用的性能监测系统,包括:数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据;数据收集服务器,用于从数据采集客户端获取所述性能指标数据,并存储至数据存储服务器中;数据存储服务器,用于存储所述性能指标数据;作业信息获取模块,部署在每一集群的边界节点上,用于获取一个或多个待监测作业的作业信息,并根据所述作业信息从所述数据存储服务器中获取待监测作业对应的目标性能指标数据;监测结果确定模块,用于基于待监测作业对应的目标性能指标数据,确定单个作业的监测结果,或者确定多个作业的监测结果。本发明专利技术能够实时监测相同或不同集群上的单个或多个高性能计算应用的性能。

【技术实现步骤摘要】
一种高性能计算应用的性能监测系统
本专利技术涉及高性能计算
,尤其涉及一种高性能计算应用的性能监测系统。
技术介绍
作为数据中心的传统技术,高性能计算技术一直以来都具有举足轻重地位。高性能计算应用的发展很大程度上决定了一个国家在高性能计算的领域的发展高度。如何监测高性能计算应用,来确定一个高性能计算应用是否适合当前高性能计算集群,以及是否能够效率最大化的利用当前平台,是高性能计算领域重要的技术问题,也是高性能计算集群运维人员、应用推广人员以及普通用户所关注的。现有的高性能计算应用的性能监测技术层出不穷,现有的性能监控和调优软件从应用软件层面上对高性能计算应用本身进行性能监控,通过使用这些软件可以监测高性能计算应用在计算集群上的使用效率。但是,这些软件使用起来颇为不便,需要使用人员具有较高的专业度以及对应用代码足够了解,且使用者需要手动插桩或者编译后动态调用,同时,该类软件通常不具备实时监测的功能,即无法在高性能计算应用运行的过程中对软件性能进行检测并展示,需要等待计算应用计算完成后,才可以监测到应用在运行过程中的状态。此外,现有技术仅能监测单个的高性能计算应用,且不能实现在跨集群的高性能计算应用性能监测。
技术实现思路
本专利技术目的在于,提供一种高性能计算应用的性能监测系统,能够实时监测相同或不同集群上的单个或多个高性能计算应用的性能。本专利技术提供了一种高性能计算应用的性能监测系统,包括:数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据;数据收集服务器,用于从所述数据采集客户端获取所述性能指标数据,并存储至数据存储服务器中;数据存储服务器,用于存储所述性能指标数据;作业信息获取模块,部署在每一所述集群的边界节点上,用于获取一个或多个待监测作业的作业信息,并根据所述作业信息从所述数据存储服务器中获取所述待监测作业对应的目标性能指标数据,其中,所述作业是指应用运行的一次过程,每一所述作业由对应集群中的多个节点执行,所述作业信息包括作业id、作业对应的集群id,作业对应的应用信息、作业的起始时间信息;监测结果确定模块,用于基于所述待监测作业对应的目标性能指标数据,确定单个作业的监测结果,或者确定多个作业的监测结果,所述多个作业为不同集群的同类作业、同集群的不同作业、同集群的同类作业或不同集群的不同作业。进一步的,所述数据采集客户端以毫秒级随机时间间隔采集数据,所述数据收集服务器以预设的时间间隔访问所述数据采集客户端的数据接口,获取所述性能指标数据。进一步的,所述数据存储服务器采用三级存储方式来存储所述性能指标数据,包括:第一数据存储单元,设置在所述数据收集服务器内存中,用于存储第一预设时间内的性能指标数据;第二数据存储单元,部署在近端,用于存储大于所述第一预设时间小于第二预设时间内的性能指标数据;第三数据存储单元,部署在远端,用于存储超过所述第二预设时间内的性能指标数据。进一步的,所述第一数据存储单元、第二数据存储单元和第三数据存储单元均为以时序数据的形式存储所述性能数据。进一步的,所述性能指标数据包括:系统指标数据、物理参数指标数据、计算指标数据和文件系统指标数据。进一步的,所述监测结果确定模块包括第一性能监测单元,用于基于单个待监测作业对应的目标性能指标数据确定所述单个作业的监测结果,具体采用改进多层级roofline折线图、雷达图、时序图或节点热力图的方式确定所述单个作业的监测结果。进一步的,当所述第一性能监测单元采用改进多层级roofline折线图监测单个作业时,具体用于:分别采用算力与访存带宽和算力与文件系统访问带宽的关系对单个作业进行监测,设定算力为π,访存带宽为β,访问带宽为γ,则访存计算强度上限为:文件系统计算强度上限为:当小于访存计算强度上限Immax时,则判断所述访存带宽导致的应用性能受限;当小于文件系统计算强度上限Ifmax时,则判断所述访问带宽导致的应用性能受限;当大于等于访存计算强度上限Immax时,则判断所述算力导致应用性能受限;当大于等于文件系统计算强度上限Ifmax时,则判断所述算力导致应用性能受限。进一步的,所述监测结果确定模块包括第二性能监测单元,用于基于多个待监测作业对应的目标性能指标数据确定所述多个作业的监测结果,具体包括:根据所需对比的参数,获取每一作业的每一目标性能数据对应的第一对比参数、第二对比参数、第三对比参数和第四对比参数中的至少一个,其中:在每一作业运行时间段内,设定Metric为指标名称变量,n为节点名称变量,dy为某个时间点的指标数据,每个节点的某一个指标的指标集记为Metricn={d1,d2,d3,d4.....dy-3,dy-2,dy-1,dy},一个作业包含一或多个节点的指标数据,设定job为作业id,cluster为集群id,则每个作业的某个指标的指标集则记为:第一对比参数的计算公式为:minvalue=min(Metriccluster_job);其中,min表示计算一组数据最小值;第二对比参数的计算公式为:maxvalue=max(Metriccluster_job);其中,max表示计算一组数据最大值;第三对比参数的计算公式为:其中,len表示求一组数据的长度;第四对比参数的计算公式为:其中,avg表示avgvalue的简称;将所有待监测作业对应的目标性能指标数据对应的第一对比参数、第二对比参数、第三对比参数和第四对比参数进行综合对比,确定资源利用率最高的应用。进一步的,所述系统还包括前端模块,用于获取用户输入的作业id和集群id,并根据所述用户输入的作业id和集群id确定目标作业。进一步的,所述前端模块还用于输出和显示监测结果。本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本专利技术提供的一种高性能计算应用的性能监测系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:本专利技术既可以监测单个作业,观测该作业的实时运行状态,监测运行中和运行结束的作业,分析作业性能情况和故障原因。又可以选择监测多个作业,观测多个作业的运行情况对比,还可以实现用户在可视化平台上直接选择需要监测的高性能计算作业,帮助用户在不同参数和不同集群之间进行合适的选择。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。附图说明图1为本专利技术一实施例提供的高性能计算应用的性能监测系统示意图;图2为本专利技术另一实施例提供的高性能计算应用的性能监测系统示意图。【符号说明】1:数据本文档来自技高网...

【技术保护点】
1.一种高性能计算应用的性能监测系统,其特征在在于,包括:/n数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据;/n数据收集服务器,用于从所述数据采集客户端获取所述性能指标数据,并存储至数据存储服务器中;/n数据存储服务器,用于存储所述性能指标数据;/n作业信息获取模块,部署在每一所述集群的边界节点上,用于获取一个或多个待监测作业的作业信息,并根据所述作业信息从所述数据存储服务器中获取所述待监测作业对应的目标性能指标数据,其中,所述作业是指应用运行的一次过程,每一所述作业由对应集群中的多个节点执行,所述作业信息包括作业id、作业对应的集群id,作业对应的应用信息、作业的起始时间信息;/n监测结果确定模块,用于基于所述待监测作业对应的目标性能指标数据,确定单个作业的监测结果,或者确定多个作业的监测结果,所述多个作业为不同集群的同类作业、同集群的不同作业、同集群的同类作业或不同集群的不同作业。/n

【技术特征摘要】
1.一种高性能计算应用的性能监测系统,其特征在在于,包括:
数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据;
数据收集服务器,用于从所述数据采集客户端获取所述性能指标数据,并存储至数据存储服务器中;
数据存储服务器,用于存储所述性能指标数据;
作业信息获取模块,部署在每一所述集群的边界节点上,用于获取一个或多个待监测作业的作业信息,并根据所述作业信息从所述数据存储服务器中获取所述待监测作业对应的目标性能指标数据,其中,所述作业是指应用运行的一次过程,每一所述作业由对应集群中的多个节点执行,所述作业信息包括作业id、作业对应的集群id,作业对应的应用信息、作业的起始时间信息;
监测结果确定模块,用于基于所述待监测作业对应的目标性能指标数据,确定单个作业的监测结果,或者确定多个作业的监测结果,所述多个作业为不同集群的同类作业、同集群的不同作业、同集群的同类作业或不同集群的不同作业。


2.根据权利要求1所述的系统,其特征在在于,
所述数据采集客户端以毫秒级随机时间间隔采集数据,所述数据收集服务器以预设的时间间隔访问所述数据采集客户端的数据接口,获取所述性能指标数据。


3.根据权利要求1所述的系统,其特征在在于,
所述数据存储服务器采用三级存储方式来存储所述性能指标数据,包括:
第一数据存储单元,设置在所述数据收集服务器内存中,用于存储第一预设时间内的性能指标数据;
第二数据存储单元,部署在近端,用于存储大于所述第一预设时间小于第二预设时间内的性能指标数据;
第三数据存储单元,部署在远端,用于存储超过所述第二预设时间内的性能指标数据。


4.根据权利要求3所述的系统,其特征在在于,
所述第一数据存储单元、第二数据存储单元和第三数据存储单元均为以时序数据的形式存储所述性能数据。


5.根据权利要求1所述的系统,其特征在在于,
所述性能指标数据包括:系统指标数据、物理参数指标数据、计算指标数据和文件系统指标数据。


6.根据权利要求1所述的系统,其特征在在于,
所述监测结果确定模块包括第一性能监测单元,用于基于单个待监测作业对应的目标性能指标数据确定所述单个作业的监测结果,具体采用改进多层级roofline折线图、雷达图、时序图或节点热力图的方式确定所述单个作业的监测结果。


7.根据权利要求6所述的系统,其特征在在于,
当所述第一性能监测单元采用改进多层级roofline折线图监测单个作业时...

【专利技术属性】
技术研发人员:冯景华刘光明李宇奇谭昕雨徐斌张健
申请(专利权)人:国家超级计算天津中心
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1