【技术实现步骤摘要】
一种高性能计算应用的性能监测系统
本专利技术涉及高性能计算
,尤其涉及一种高性能计算应用的性能监测系统。
技术介绍
作为数据中心的传统技术,高性能计算技术一直以来都具有举足轻重地位。高性能计算应用的发展很大程度上决定了一个国家在高性能计算的领域的发展高度。如何监测高性能计算应用,来确定一个高性能计算应用是否适合当前高性能计算集群,以及是否能够效率最大化的利用当前平台,是高性能计算领域重要的技术问题,也是高性能计算集群运维人员、应用推广人员以及普通用户所关注的。现有的高性能计算应用的性能监测技术层出不穷,现有的性能监控和调优软件从应用软件层面上对高性能计算应用本身进行性能监控,通过使用这些软件可以监测高性能计算应用在计算集群上的使用效率。但是,这些软件使用起来颇为不便,需要使用人员具有较高的专业度以及对应用代码足够了解,且使用者需要手动插桩或者编译后动态调用,同时,该类软件通常不具备实时监测的功能,即无法在高性能计算应用运行的过程中对软件性能进行检测并展示,需要等待计算应用计算完成后,才可以监测到应用在运行过程中的状态。此外,现有技术仅能监测单个的高性能计算应用,且不能实现在跨集群的高性能计算应用性能监测。
技术实现思路
本专利技术目的在于,提供一种高性能计算应用的性能监测系统,能够实时监测相同或不同集群上的单个或多个高性能计算应用的性能。本专利技术提供了一种高性能计算应用的性能监测系统,包括:数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据; ...
【技术保护点】
1.一种高性能计算应用的性能监测系统,其特征在在于,包括:/n数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据;/n数据收集服务器,用于从所述数据采集客户端获取所述性能指标数据,并存储至数据存储服务器中;/n数据存储服务器,用于存储所述性能指标数据;/n作业信息获取模块,部署在每一所述集群的边界节点上,用于获取一个或多个待监测作业的作业信息,并根据所述作业信息从所述数据存储服务器中获取所述待监测作业对应的目标性能指标数据,其中,所述作业是指应用运行的一次过程,每一所述作业由对应集群中的多个节点执行,所述作业信息包括作业id、作业对应的集群id,作业对应的应用信息、作业的起始时间信息;/n监测结果确定模块,用于基于所述待监测作业对应的目标性能指标数据,确定单个作业的监测结果,或者确定多个作业的监测结果,所述多个作业为不同集群的同类作业、同集群的不同作业、同集群的同类作业或不同集群的不同作业。/n
【技术特征摘要】
1.一种高性能计算应用的性能监测系统,其特征在在于,包括:
数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据;
数据收集服务器,用于从所述数据采集客户端获取所述性能指标数据,并存储至数据存储服务器中;
数据存储服务器,用于存储所述性能指标数据;
作业信息获取模块,部署在每一所述集群的边界节点上,用于获取一个或多个待监测作业的作业信息,并根据所述作业信息从所述数据存储服务器中获取所述待监测作业对应的目标性能指标数据,其中,所述作业是指应用运行的一次过程,每一所述作业由对应集群中的多个节点执行,所述作业信息包括作业id、作业对应的集群id,作业对应的应用信息、作业的起始时间信息;
监测结果确定模块,用于基于所述待监测作业对应的目标性能指标数据,确定单个作业的监测结果,或者确定多个作业的监测结果,所述多个作业为不同集群的同类作业、同集群的不同作业、同集群的同类作业或不同集群的不同作业。
2.根据权利要求1所述的系统,其特征在在于,
所述数据采集客户端以毫秒级随机时间间隔采集数据,所述数据收集服务器以预设的时间间隔访问所述数据采集客户端的数据接口,获取所述性能指标数据。
3.根据权利要求1所述的系统,其特征在在于,
所述数据存储服务器采用三级存储方式来存储所述性能指标数据,包括:
第一数据存储单元,设置在所述数据收集服务器内存中,用于存储第一预设时间内的性能指标数据;
第二数据存储单元,部署在近端,用于存储大于所述第一预设时间小于第二预设时间内的性能指标数据;
第三数据存储单元,部署在远端,用于存储超过所述第二预设时间内的性能指标数据。
4.根据权利要求3所述的系统,其特征在在于,
所述第一数据存储单元、第二数据存储单元和第三数据存储单元均为以时序数据的形式存储所述性能数据。
5.根据权利要求1所述的系统,其特征在在于,
所述性能指标数据包括:系统指标数据、物理参数指标数据、计算指标数据和文件系统指标数据。
6.根据权利要求1所述的系统,其特征在在于,
所述监测结果确定模块包括第一性能监测单元,用于基于单个待监测作业对应的目标性能指标数据确定所述单个作业的监测结果,具体采用改进多层级roofline折线图、雷达图、时序图或节点热力图的方式确定所述单个作业的监测结果。
7.根据权利要求6所述的系统,其特征在在于,
当所述第一性能监测单元采用改进多层级roofline折线图监测单个作业时...
【专利技术属性】
技术研发人员:冯景华,刘光明,李宇奇,谭昕雨,徐斌,张健,
申请(专利权)人:国家超级计算天津中心,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。