一种监控数据的展示系统及其方法技术方案

技术编号:17164899 阅读:35 留言:0更新日期:2018-02-01 22:25
本发明专利技术涉及一种监控数据的展示系统及其方法,该系统包括:环境监控平台、监控数据接口和监控数据展示平台;环境监控平台包括用于获取集群和服务器的各种插件,通过各种插件获取相应的监控数据;监控数据接口,用于将环境监控平台获取的监控数据以接口的形式对外提供数据;监控数据展示平台,用于获取监控数据接口对外提供的数据,以及对该数据从不同维度进行展示。本发明专利技术提供的一种监控数据的展示系统及其方法,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。

A display system and its method for monitoring data

The invention relates to a display system and method of monitoring data, the system includes: environmental monitoring platform, monitoring data and monitoring data display platform; environmental monitoring platform for various clusters and access server plug-ins, the monitoring data obtaining corresponding through various plug-ins; monitoring data interface for monitoring data acquisition of environmental monitoring platform in the form of interface provides data; display platform for obtaining monitoring data, monitoring data interface to provide data, and the data from different dimensions show. A display system and method for monitoring data is provided by the invention. The operation and maintenance data of clusters are obtained through the environmental monitoring platform, and the whole super computing environment is displayed through monitoring data display platform, and the operation status of clusters is reflected in detail and accurately.

【技术实现步骤摘要】
一种监控数据的展示系统及其方法
本专利技术涉及超级计算环境运行状况展示技术,特别是涉及一种监控数据的展示系统及其方法。
技术介绍
超级计算环境主要为用户提供计算服务,同时对用户提出的问题及时响应并提供技术支持。衡量一个超级计算环境主要关注环境的资源信息、使用情况和用户数目等。管理员及时有效地获取环境的运行情况,了解环境的资源使用信息可更好地调度用户作业,为用户提供更好的服务。基于Nagios搭建的监控平台中,针对集群主要考虑了系统利用率(CPU占用率)和节点占用率两个指标。为获取这两项数据按照Nagios已有插件的实现方式,编写了获取集群CPU和节点占用率的插件。在现有的监控平台中处于当时的需求只考虑了系统利用率这一指标,集群的其它运行数据并没有展示。
技术实现思路
本专利技术目的在于解决现有技术涉及的超级计算环境监控平台存在的上述问题,提出一种监控数据的展示系统及其方法,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。为实现上述目的,一方面,本专利技术提供了一种监控数据的展示系统,该系统包括:监控数据展示平台、监控数据接口和环境监控平台;其中,环境监控平台,包括用于获取集群和服务器的各种插件,通过各种插件获取相应的监控数据,监控数据包括集群信息;集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种;监控数据接口,用于将环境监控平台获取的监控数据以接口的形式对外提供数据;监控数据展示平台,用于获取监控数据接口对外提供的数据,以及对该数据从不同维度进行展示。另一方面,本专利技术提供了一种监控数据的展示方法,该方法步骤包括:通过环境监控平台获取相应的监控数据,监控数据包括集群信息;集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种;通过监控数据接口将环境监控平台获取的监控数据以接口的形式对外提供数据;通过监控数据展示平台获取监控数据接口对外提供的数据,以及对该数据从不同维度进行展示。本专利技术提供的一种监控数据的展示系统及其方法,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。附图说明图1是本专利技术实施例提供的一种监控数据的展示系统结构示意图;图2是图1所示展示系统的环境监控平台结构部署示意图;图3是图1所示展示系统的监控数据登录流程示意图;图4是图1所示展示系统的环境监控平台的权限控制图;图5是本专利技术实施例提供的一种监控数据的展示系统的首页示意图;图6是本专利技术实施例提供的一种监控数据的展示系统的集群示意图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。图1是本专利技术实施例提供的一种监控数据的展示系统结构示意图。如图1所示,监控数据的展示系统包括:监控数据展示平台101、监控数据接口102和环境监控平台103。环境监控平台103包括用于获取集群和服务器的各种插件,通过各种插件获取相应的监控数据,监控数据包括集群信息;集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种。监控数据接口102用于将环境监控平台103获取的监控数据以接口的形式对外提供数据。监控数据展示平台101用于获取监控数据接口102对外提供的数据,以及对该数据从不同维度进行展示。本专利技术实施例提供的一种监控数据的展示系统,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。图2是本专利技术实施例提供的一种监控数据的展示系统的环境监控平台结构部署示意图。如图2所示,超级计算环境以三层架构超级计算网格中间件SCE作为核心支撑软件,根据部署和管理的要求,设计有登录客户端Client、中央服务器CS(centerserver)以及前端服务器FS(frontserver)三大模块。其中FS负责中央服务器CS与超级计算机HPC之间的连接,对到HPC的连接进行访问控制,以保证访问的安全性和合法性。考虑到超级计算环境的三层架构特点,采用Nagios的分布式监控方式部署监控平台。服务器的具体含义如表1所示。监控主服务是部署在网络中心的一台服务器,收集所有信息并集中显示;监控中转服务器是指与超级计算环境(HPC)相连的前端FS服务器。由于安全等因素,主服务无法直接获取HPC的相应信息,只能通过FS中转服务器获取。FS是分布在分中心的网格服务器,为了方便获取信息,这里采用分布式监控的方式实现对FS以及相连的HPC的监控。表1服务器描述超级计算环境HPC的作业系统主要包括LSF、Torque、Pbspro和Slurm四种,所以需要根据各自的使用方式编写插件获取集群信息。获取的集群信息包括利用率、计算节点、账号、作业以及CPU核。其中利用率的定义如下:系统利用率(CPU占有率)=(运行作业占用的CPU核数/开机总CPU核数)节点占有率=(运行作业占用的节点数/开机总节点数)开机率=(开机总节点数/总节点数)计算节点数据包括总节点数、离线节点数、管理员关闭的节点数、运行作业占用的节点数、预留节点数、空闲节点数;账号数据包括总数、有作业运行的账号、有作业排队的账号;作业数据包括总作业数、运行作业数;CPU核数包括可用总核数、运行作业占用的核数、排队作业核数。实现这些插件后,在监控中转服务和监控主服务定义好各项监控内容,验证配置后启动Nagios进程,监控信息会发送到监控主服务。在中国科学院超级计算环境监控平台中,前端服务器(监控平台中的监控中转服务)以五分钟一次的频率采集集群数据并汇报给监控主服务的服务器。部署监控主服务的服务器存放有所有集群的信息,可对这些信息进行分析处理。在环境监控平台103中,总中心部署监控主服务的服务器收集到的监控数据借助RRDTool(RoundRobinDatabasetool)将数据存储在对应的RRD文件中。“RoundRobin“指使用固定大小的空间来存储数据,并有一个指针指向最新的数据的位置。一段时间后,当所有的空间都存满了数据,又从头开始存放。整个存储空间的大小是一个固定的数值,RRDTool就是使用类似的方式来存放数据的工具,该工具存储数据的一个缺点是存储空间大小固定,当所有空间都存满时会覆盖原有的数据。在保存的数据中,如集群的利用率信息,很多情况下希望可以保留几个周期,以便于进行对比分析。借助RRDTool存储数据只能保留一段时间,所以在监控平台中引入了NDOUTILES将Nagios监控数据存入MySQL数据库。利用MySQL数据库中集群的原始数据,根据需求设计不同的表存储不同时间间隔的数据以便统计数据时使用。表2是针对中科院超级计算环境设计的数据表,其中scgrid表存储每个集群的原始数据,每五分钟增加一个数据项;scgridhalf、scgridtwo是通过scgrid数据表生成,主要用于提供集群最近半月或一月的数据;Dayinfo存储集群每天的系统利用率数据,通过scgrid数据累计求和取均值获得,用于计算每月的系统利用率数据。表2数据表描述本文档来自技高网...
一种监控数据的展示系统及其方法

【技术保护点】
一种监控数据的展示系统,其特征在于,包括:监控数据展示平台(101)、监控数据接口(102)和环境监控平台(103);其中,环境监控平台(103),包括用于获取集群和服务器的各种插件,通过所述各种插件获取相应的监控数据,所述监控数据包括集群信息;所述集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种;监控数据接口(102),用于将所述环境监控平台(103)获取的监控数据以接口的形式对外提供数据;监控数据展示平台(101),用于获取所述监控数据接口(102)对外提供的数据,以及对该数据从不同维度实行展示。

【技术特征摘要】
1.一种监控数据的展示系统,其特征在于,包括:监控数据展示平台(101)、监控数据接口(102)和环境监控平台(103);其中,环境监控平台(103),包括用于获取集群和服务器的各种插件,通过所述各种插件获取相应的监控数据,所述监控数据包括集群信息;所述集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种;监控数据接口(102),用于将所述环境监控平台(103)获取的监控数据以接口的形式对外提供数据;监控数据展示平台(101),用于获取所述监控数据接口(102)对外提供的数据,以及对该数据从不同维度实行展示。2.根据权利要求1所述的展示系统,其特征在于,所述环境监控平台(103)采用分布式监控方式部署监控平台,所述分布式监控方式部署监控平台包括Nagios监控平台。3.根据权利要求1所述的展示系统,其特征在于,所述监控数据展示平台(101)针对不同的用户设置多个角色,所述多个角色包括超级管理员、集群管理员和普通用户。4.根据权利要求3所述的展示系统,其特征在于,所述监控数据展示平台(101)设计有首页、集群展示和集群月报利用率三个页面,其中,普通用户只能查看首页内容;集群管理员除首页外,可查看自己的集群利用信息;超级管理员可查看所有集群的信息。5.根据权利要求1所述的展示系统,其特征在于,所述环境监控平台(103)通过NDOUtils将监控数据存入Mysql数据库,利用MySQL数据库中...

【专利技术属性】
技术研发人员:和荣肖海力武虹
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1