集群中NodeManager状态管理方法、装置及计算设备制造方法及图纸

技术编号:26342168 阅读:31 留言:0更新日期:2020-11-13 20:30
本发明专利技术实施例涉及分布式资源管理及调度系统技术领域,公开了一种集群中NodeManager状态管理方法、装置及计算设备。该方法包括:搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估;根据评估的结果确定所述集群中节点的健康状态;当所述节点的状态不健康时对NodeManager进行下线操作。通过上述方式,本发明专利技术实施例实现了NodeManager故障前预判和自动下线,保障了系统的稳定运行,同时避免了节点主机有多个应用程序抢占时所造成Container分配失败进而导致任务失败的情况。

【技术实现步骤摘要】
集群中NodeManager状态管理方法、装置及计算设备
本专利技术实施例涉及分布式资源管理及调度系统
,具体涉及一种集群中NodeManager状态管理方法、装置及计算设备。
技术介绍
随着计算机技术的发展,各种基于数据密集型的应用计算框架不断涌现,如MpaReduce,Spark,S4,Storm等。在采用计算框架时,一般都会考虑资源利用率、运维成本、数据共享等因素,应用者一般希望将所有这些计算框架均部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用。这样,便诞生了资源统一管理与调度平台,其典型代表是YARN(YetAnotherResourceNegotiator,另一种资源协调者)。YARN中分为ResouceManager(全局资源管理器,RM)和NodeManager(节点管理器,NM)角色,其中ResouceManager主要负责全局的分配和管理。NodeManager负责单个节点的资源分配和管理。NodeManager接受任务后可以分配ApplicationMaster和Container,当主机资源不是YARN独占的时候可能会造成ResouceManager资源申请失败的情况。现有技术中,YARN资源分配只会将CPU和内存作为计算的资源,在集群启动时以yarn-site.xml配置的形式提前划分,ResouceManager和NodeManager之间通过心跳来维持连接,无法对网络做出判断从而进行资源分配。此外,MPP架构的Impala同样会部署在Hadoop集群的主机上,但是资源分配并不根据YARN管理,当执行MPP聚合查询时,会在内存中积累大量的数据,此时如果继续按照配置中的内存和CPU来申请的话,会造成Container分配失败进而导致任务失败。即时查询占用的内存比较高,但是使用时间比较短。如果全部预留会造成YARN的浪费。因此,这种方式无法适应节点主机有多个应用程序抢占的情况。
技术实现思路
鉴于上述问题,本专利技术实施例提供了一种基于TimesTen内存库的订阅数据库伸缩方法、装置及计算设备,克服了上述问题或者至少部分地解决了上述问题。根据本专利技术实施例的一个方面,提供了一种集群中NodeManager状态管理方法,所述方法包括:搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估;根据评估的结果确定所述集群中节点的健康状态;当所述节点的状态不健康时对NodeManager进行下线操作。在一种可选的方式中,所述搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估,进一步包括:搜集集群的网络负载信息;根据所述网络负载信息对所述集群的网络延迟进行评估,以及对所述集群的磁盘状态进行评估。在一种可选的方式中,当主机资源不是YARN独占时,所述方法还包括:对CPU使用率和内存使用率进行评估;所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:根据所述网络延迟、磁盘状态、CPU使用率和内存使用率的评估的结果确定所述集群中节点的健康状态。在一种可选的方式中,当主机资源是YARN独占时,所述方法还包括:当所述网络延迟超过预设值时,结合历史的网络延迟及其对应的节点的健康状态记录,对所述集群的网络延迟进行评估。在一种可选的方式中,所述方法还包括:重新配置CPU资源和内存资源;当根据对所述集群的硬件状态的评估确定所述集群中节点的状态健康时,修改NodeManager配置文件的参数为所述重新配置后的值;对所述NodeManager进行上线操作。在一种可选的方式中,所述根据所述网络负载信息对所述集群的网络延迟进行评估,进一步包括:通过Hadoop中的JMX监控的JMX接口采集RPC队列的请求排队时间和处理时间;对所有节点的请求排队时间求和后取平均值,得到基准队列时间,将第一主机的处理时间作为基准处理时间;判断所述第一主机的网络延迟是否大于所述基准队列时间,或者所述第二主机的网络延迟是否大于所述基准处理时间;所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:当所述第一主机的网络延迟大于所述基准队列时间,或者所述第二主机的网络延迟大于所述基准处理时间时,确定所述节点的状态不健康。在一种可选的方式中,所述对所述集群的磁盘状态进行评估,进一步包括:通过脚本查看磁盘运行状况;判断所述磁盘是否报错;所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:当所述集群的磁盘中某块磁盘报错时,确定所述节点的状态不健康。在一种可选的方式中,所述对CPU使用率进行评估,进一步包括:通过脚本计算当前CPU的总核心数N,确定当前非YARN使用的CPU的使用率p,以及NodeManager分配的CPU的核心数M;将M减去N与(1-p)的乘积,得到所述CPU使用率的评估的分值;所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:当所述CPU使用率的评估的分值超过预设CPU使用率阈值时,确定所述节点的状态不健康。在一种可选的方式中,所述对内存使用率进行评估,进一步包括:通过脚本获得内存总量,NodeManager中分配的内存总量以及系统进程使用量;判断所述内存总量与所述系统进程使用量的差值是否大于所述NodeManager中分配的内存总量;所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:当所述内存总量与所述系统进程使用量的差值不大于所述NodeManager中分配的内存总量时,确定所述节点的状态不健康。根据本专利技术实施例的另一方面,提供了一种集群中NodeManager状态管理装置,所述装置包括:评估模块,用于搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估;确定模块,用于根据评估的结果确定所述集群中节点的健康状态;管理模块,用于当所述节点的状态不健康时对NodeManager进行下线操作。根据本专利技术实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的集群中NodeManager状态管理方法的操作。根据本专利技术实施例的另一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上所述的集群中NodeManager状态管理方法。本专利技术实施例通过自动采集和评估集群的硬件状态,根据评估的结果确定所述集群中节点的健康状态,当所述节点的状态不健康时对NodeManager进行下线操作,实现了NodeManager故障前预判和自动下线,保障了系统的稳定运行;同时本文档来自技高网
...

【技术保护点】
1.一种集群中NodeManager状态管理方法,其特征在于,所述方法包括:/n搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估;/n根据评估的结果确定所述集群中节点的健康状态;/n当所述节点的状态不健康时对NodeManager进行下线操作。/n

【技术特征摘要】
1.一种集群中NodeManager状态管理方法,其特征在于,所述方法包括:
搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估;
根据评估的结果确定所述集群中节点的健康状态;
当所述节点的状态不健康时对NodeManager进行下线操作。


2.根据权利要求1所述的方法,其特征在于,所述搜集集群的网络负载信息,根据所述网络负载信息对所述集群的硬件状态进行评估,进一步包括:
搜集集群的网络负载信息;
根据所述网络负载信息对所述集群的网络延迟进行评估,以及对所述集群的磁盘状态进行评估。


3.根据权利要求2所述的方法,其特征在于,当主机资源不是YARN独占时,所述方法还包括:
对CPU使用率和内存使用率进行评估;
所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:
根据所述网络延迟、磁盘状态、CPU使用率和内存使用率的评估的结果确定所述集群中节点的健康状态。


4.根据权利要求2所述的方法,其特征在于,当主机资源是YARN独占时,所述方法还包括:
当所述网络延迟超过预设值时,结合历史的网络延迟及其对应的节点的健康状态记录,对所述集群的网络延迟进行评估。


5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
重新配置CPU资源和内存资源;
当根据对所述集群的硬件状态的评估确定所述集群中节点的状态健康时,修改NodeManager配置文件的参数为所述重新配置后的值;
对所述NodeManager进行上线操作。


6.根据权利要求2所述的方法,其特征在于,所述根据所述网络负载信息对所述集群的网络延迟进行评估,进一步包括:
通过Hadoop中的JMX监控的JMX接口采集RPC队列的请求排队时间和处理时间;
对所有节点的请求排队时间求和后取平均值,得到基准队列时间,将第一主机的处理时间作为基准处理时间;
判断所述第一主机的网络延迟是否大于所述基准队列时间,或者所述第二主机的网络延迟是否大于所述基准处理时间;
所述根据评估的结果确定所述集群中节点的健康状态,进一步包括:
当所述第一主机的网络延迟大于所述基准队列时间,或者所述第二主机的网络延迟大于所述基准处理时间时,确定所述节点的状态不健康。


7.根据权利要求...

【专利技术属性】
技术研发人员:李瑶许佳
申请(专利权)人:中国移动通信集团湖北有限公司中国移动通信集团有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1