集群中NodeManager状态管理方法、装置及计算设备制造方法及图纸

技术编号：26342168 阅读：31 留言：0更新日期：2020-11-13 20:30

本发明专利技术实施例涉及分布式资源管理及调度系统技术领域，公开了一种集群中NodeManager状态管理方法、装置及计算设备。该方法包括：搜集集群的网络负载信息，根据所述网络负载信息对所述集群的硬件状态进行评估；根据评估的结果确定所述集群中节点的健康状态；当所述节点的状态不健康时对NodeManager进行下线操作。通过上述方式，本发明专利技术实施例实现了NodeManager故障前预判和自动下线，保障了系统的稳定运行，同时避免了节点主机有多个应用程序抢占时所造成Container分配失败进而导致任务失败的情况。

全部详细技术资料下载

【技术实现步骤摘要】
集群中NodeManager状态管理方法、装置及计算设备
本专利技术实施例涉及分布式资源管理及调度系统
，具体涉及一种集群中NodeManager状态管理方法、装置及计算设备。
技术介绍
随着计算机技术的发展，各种基于数据密集型的应用计算框架不断涌现，如MpaReduce，Spark，S4，Storm等。在采用计算框架时，一般都会考虑资源利用率、运维成本、数据共享等因素，应用者一般希望将所有这些计算框架均部署到一个公共的集群中，让它们共享集群的资源，并对资源进行统一使用。这样，便诞生了资源统一管理与调度平台，其典型代表是YARN(YetAnotherResourceNegotiator，另一种资源协调者)。YARN中分为ResouceManager(全局资源管理器，RM)和NodeManager(节点管理器，NM)角色，其中ResouceManager主要负责全局的分配和管理。NodeManager负责单个节点的资源分配和管理。NodeManager接受任务后可以分配ApplicationMaster和Container，当主机资源不是YARN独占的时候可能会造成ResouceManager资源申请失败的情况。现有技术中，YARN资源分配只会将CPU和内存作为计算的资源，在集群启动时以yarn-site.xml配置的形式提前划分，ResouceManager和NodeManager之间通过心跳来维持连接，无法对网络做出判断从而进行资源分配。此外，MPP架构的Impala同样会部署在Had...

【技术保护点】
1.一种集群中NodeManager状态管理方法，其特征在于，所述方法包括：/n搜集集群的网络负载信息，根据所述网络负载信息对所述集群的硬件状态进行评估；/n根据评估的结果确定所述集群中节点的健康状态；/n当所述节点的状态不健康时对NodeManager进行下线操作。/n

【技术特征摘要】
1.一种集群中NodeManager状态管理方法，其特征在于，所述方法包括：
搜集集群的网络负载信息，根据所述网络负载信息对所述集群的硬件状态进行评估；
根据评估的结果确定所述集群中节点的健康状态；
当所述节点的状态不健康时对NodeManager进行下线操作。

2.根据权利要求1所述的方法，其特征在于，所述搜集集群的网络负载信息，根据所述网络负载信息对所述集群的硬件状态进行评估，进一步包括：
搜集集群的网络负载信息；
根据所述网络负载信息对所述集群的网络延迟进行评估，以及对所述集群的磁盘状态进行评估。

3.根据权利要求2所述的方法，其特征在于，当主机资源不是YARN独占时，所述方法还包括：
对CPU使用率和内存使用率进行评估；
所述根据评估的结果确定所述集群中节点的健康状态，进一步包括：
根据所述网络延迟、磁盘状态、CPU使用率和内存使用率的评估的结果确定所述集群中节点的健康状态。

4.根据权利要求2所述的方法，其特征在于，当主机资源是YARN独占时，所述方法还包括：
当所述网络延迟超过预设值时，结合历史的网络延迟及其对应的节点的健康状态记录，对所述集群的网络延迟进行评估。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：
重新配置CPU资源和内存资源；
当根据对所述集群的硬件状态的评估确定所述集群中节点的状态健康时，修改NodeManager配置文件的参数为所述重新配置后的值；
对所述NodeManager进行上线操作。

6.根据权利要求2所述的方法，其特征在于，所述根据所述网络负载信息对所述集群的网络延迟进行评估，进一步包括：
通过Hadoop中的JMX监控的JMX接口采集RPC队列的请求排队时间和处理时间；
对所有节点的请求排队时间求和后取平均值，得到基准队列时间，将第一主机的处理时间作为基准处理时间；
判断所述第一主机的网络延迟是否大于所述基准队列时间，或者所述第二主机的网络延迟是否大于所述基准处理时间；
所述根据评估的结果确定所述集群中节点的健康状态，进一步包括：
当所述第一主机的网络延迟大于所述基准队列时间，或者所述第二主机的网络延迟大于所述基准处理时间时，确定所述节点的状态不健康。

7.根据权利要求...

【专利技术属性】
技术研发人员：李瑶，许佳，
申请(专利权)人：中国移动通信集团湖北有限公司，中国移动通信集团有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人