资源管理系统监控方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:27009478 阅读:18 留言:0更新日期:2021-01-08 17:17
本申请涉及一种资源管理系统监控方法、装置、计算机设备和存储介质。所述方法包括:获取系统状态参数;根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;根据系统状态图中各集群节点的集群节点值,确定异常集群节点;根据异常集群节点,确定与系统状态图对应的故障节点信息。采用本方法能够通过有向图结构来描述和度量资源管理系统的状态,实现对资源管理系统的实时监控,利用系统状态图来分析系统异常原因,实现快速故障定位。

【技术实现步骤摘要】
资源管理系统监控方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种资源管理系统监控方法、装置、计算机设备和存储介质。
技术介绍
随着大数据技术的发展,基于通用硬件构建的Hadoop(HadoopDistributedFileSystem,分布式文件系统)大数据平台越来越流行,作为解决海量数据计算的资源管理系统,如YARN(YetAnotherResourceNegotiator,另一种资源协调者),在Hadoop生态系统中占据着非常重要的位置,因此需要对资源管理系统进行实时监控。传统技术中,在对资源管理系统进行实时监控时,采用的方式主要包括以资源管理(ResourceManager)和节点管理(NodeManager)所在服务器节点为维度的基础监控、以资源管理和节点管理进程状态为维度的健康状态检查以及以资源队列调度状态为维度的资源状态监控。然而,传统方法,只能够根据分散的监控状态来推测资源管理系统的服务状态,当服务能力下降时,无法快速定位问题出现的原因。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够在资源管理系统的服务能力下降时,实现快速定位问题出现的原因的资源管理系统监控方法、装置、计算机设备和存储介质。一种资源管理系统监控方法,所述方法包括:获取系统状态参数;根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;根据系统状态图中各集群节点的集群节点值,确定异常集群节点;根据异常集群节点,确定与系统状态图对应的故障节点信息。一种资源管理系统监控装置,所述装置包括:获取模块,用于获取系统状态参数;更新模块,用于根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;处理模块,用于根据系统状态图中各集群节点的集群节点值,确定异常集群节点;查询模块,用于根据异常集群节点,确定与系统状态图对应的故障节点信息。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取系统状态参数;根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;根据系统状态图中各集群节点的集群节点值,确定异常集群节点;根据异常集群节点,确定与系统状态图对应的故障节点信息。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取系统状态参数;根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;根据系统状态图中各集群节点的集群节点值,确定异常集群节点;根据异常集群节点,确定与系统状态图对应的故障节点信息。上述资源管理系统监控方法、装置、计算机设备和存储介质,通过获取系统状态参数,根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图,根据系统状态图中各集群节点的集群节点值,确定异常集群节点,根据异常集群节点,确定与系统状态图对应的故障节点信息,整个过程,能够通过有向图结构来描述和度量资源管理系统的状态,实现对资源管理系统的实时监控,利用系统状态图来分析系统异常原因,实现快速故障定位。附图说明图1为一个实施例中资源管理系统监控方法的应用环境图;图2为一个实施例中资源管理系统监控方法的流程示意图;图3为一个实施例中系统有向图的示意图;图4为一个实施例中系统状态图的示意图;图5为另一个实施例中资源管理系统监控方法的流程示意图;图6为一个实施例中资源管理系统监控装置的结构框图;图7为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的资源管理系统监控方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取终端102的系统状态参数,根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图,根据系统状态图中各集群节点的集群节点值,确定异常集群节点,根据异常集群节点,确定与系统状态图对应的故障节点信息。其中,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。在一个实施例中,如图2所示,提供了一种资源管理系统监控方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:步骤202,获取系统状态参数。其中,系统状态参数是指用于表征资源管理系统中各系统设备的状态的参数。比如,系统状态参数具体可以是指CPU(centralprocessingunit,中央处理器)使用率、内存占用率、磁盘剩余空间、磁盘IO(Input/Output,输入/输出)能力、网络能力等。具体的,服务器会监控资源管理系统中各系统设备,获取系统设备的系统状态参数。步骤204,根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图。其中,系统有向图是指描述资源管理系统中各子系统之间关系的有向图。在实际应用中,通过系统有向图能够可视化资源管理系统中各子系统之间的逻辑结构,使运维工程师通过查看系统有向图即可了解复杂系统的逻辑结构,降低了运维工程师能力要求,并加快了运维工程师对资源管理系统的理解。节点值用于表征各子系统的可服务度,与各子系统对应,利用节点值来描述系统的服务能力,能够为服务调用者提供调用建议参考,避免任务风暴引起服务超载,甚至引起系统瘫痪。系统状态图是指更新节点值后的系统有向图,利用系统状态图可实现可服务性度量化,系统状态图中的可服务性度量值可根据资源管理系统的资源状态与作业状态实时更新,能够显著提升对资源管理系统的服务能力监控。比如,假设CPU使用率的采样周期为1次/s,则获取到CPU使用率发生变化后直接对系统有向图中各节点值进行更新,得到系统状态图。举例说明,系统有向图的结构具体可以如图3所示。其中,YARN是指资源管理系统,中间层代表可抽象的独立子系统,比如,ZK代表代表YARN资源框架依赖的zookeeper集群(分布式的、开放源码的分布式应用程序协调服务,是Hadoop的重要组件),对于zookeeper集群本身,也可以建立类似YARN的可服务型描述系统来直接反映zookeeper集群对外的服务能力。RM代表ResourceMana本文档来自技高网...

【技术保护点】
1.一种资源管理系统监控方法,其特征在于,所述方法包括:/n获取系统状态参数;/n根据所述系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;/n根据所述系统状态图中各集群节点的集群节点值,确定异常集群节点;/n根据所述异常集群节点,确定与所述系统状态图对应的故障节点信息。/n

【技术特征摘要】
1.一种资源管理系统监控方法,其特征在于,所述方法包括:
获取系统状态参数;
根据所述系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;
根据所述系统状态图中各集群节点的集群节点值,确定异常集群节点;
根据所述异常集群节点,确定与所述系统状态图对应的故障节点信息。


2.根据权利要求1所述的方法,其特征在于,在所述获取系统状态参数之前,还包括:
获取资源管理系统的逻辑结构图;
根据所述逻辑结构图和预设节点约束信息,生成系统有向图,所述系统有向图为描述所述资源管理系统中各子系统之间关系的有向图;
将所述系统有向图存储至预设图数据库中。


3.根据权利要求1所述的方法,其特征在于,所述预设系统有向图包括底层节点、中间节点和资源管理系统节点;
所述根据所述系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图包括:
从所述系统状态参数中获取与各底层节点对应的底层节点参数,根据所述底层节点参数,计算各所述底层节点的底层节点值;
从所述系统状态参数中获取与各中间节点对应的中间节点参数,根据所述中间节点参数和所述底层节点值,计算各所述中间节点的中间节点值;
根据所述中间节点值中的集群节点值,计算资源管理系统节点的资源管理系统节点值;
根据所述底层节点值、所述中间节点值、所述资源管理系统节点值,更新预设系统有向图中各系统节点的节点值,得到系统状态图。


4.根据权利要求1所述的方法,其特征在于,在所述根据所述系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图之后,还包括:
显示所述系统状态图。


5.根据权利要求1所述的方法,其特征在于,在所述根据所...

【专利技术属性】
技术研发人员:陈本华段丁瑞赵明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1