一种故障发现方法和装置制造方法及图纸

技术编号:18460638 阅读:29 留言:0更新日期:2018-07-18 13:27
本申请提供一种故障发现方法和装置,该方法包括:获取从节点对应的主机上部署的服务组件的服务名称和组件名称;从主节点上配置的多个配置文件中确定包括所述服务名称和所述组件名称的目标配置文件;将所述目标配置文件中包括的故障类型发送给所述从节点,以使所述从节点根据所述故障类型对应的故障发现策略,对对应的主机进行故障发现。通过本申请的技术方案,可以自动发现主机的故障,能够高效便捷地发现主机的故障,实现大数据集群中主机故障的自动发现,能够解决大数据集群中监控运维复杂度高、故障发现难度大等问题。

A method and device for fault detection

The present application provides a fault discovery method and device that includes: obtaining the service name and component name of the service component deployed from the node corresponding to the node; determining the target configuration file including the service name and the name of the component from a plurality of configuration files configured on the main node; and configuring the target configuration. The fault type included in the file is sent to the slave node to cause the fault discovery of the corresponding host by making the node based on the fault discovery strategy corresponding to the fault type. Through the technical scheme of this application, the fault of the host can be found automatically, the fault of the host can be found efficiently and conveniently, and the automatic discovery of the host fault in the large data cluster can be realized. It can solve the problems of high complexity of monitoring and maintenance and difficulty in finding fault in large data cluster.

【技术实现步骤摘要】
一种故障发现方法和装置
本申请涉及通信
,尤其涉及一种故障发现方法和装置。
技术介绍
大数据又称为巨量资料,具有如下特征:数据体量大,如超过10TB规模的数据量,通常是大型数据集;数据类别大,数据来自多种数据源,种类和格式丰富,如结构化数据、半结构化数据和非结构化数据等;数据处理速度快,在数据量庞大的情况下,能够做到数据实时处理;数据真实性高,随着社交数据、企业内容、交易、应用数据的兴起,需要有效信息确保数据的真实性和安全性。随着大数据时代的到来,大数据在给用户带来方便的同时,也对运维管理提出了新的挑战。例如,为了实现大数据的相关功能,需要在大数据集群中部署大量主机,如何高效、便捷地发现这些主机的故障,就成为运维管理的难题。
技术实现思路
本申请提供一种故障发现方法,应用于大数据集群的主节点,所述大数据集群还包括从节点,所述从节点部署在大数据集群中的主机上,该方法包括:获取所述从节点对应的主机上部署的服务组件的服务名称和组件名称;从所述主节点上配置的多个配置文件中确定包括所述服务名称和所述组件名称的目标配置文件;将所述目标配置文件中包括的故障类型发送给所述从节点,以使所述从节点根据所述故障类型对应的故障发现策略,对对应的主机进行故障发现。本申请提供一种故障发现装置,应用于大数据集群的主节点,所述大数据集群还包括从节点,所述从节点部署在大数据集群中的主机上,该装置包括:获取模块,用于获取所述从节点对应的主机上部署的服务组件的服务名称和组件名称,并从所述主节点上配置的多个配置文件中确定包括所述服务名称和所述组件名称的目标配置文件;发送模块,用于将所述目标配置文件中包括的故障类型发送给所述从节点,以使所述从节点根据所述故障类型对应的故障发现策略,对对应的主机进行故障发现。基于上述技术方案,本申请实施例中,可以自动发现主机的故障,能够高效、便捷地发现主机的故障,从而实现大数据集群中主机故障的自动发现,能够解决大数据集群中监控运维复杂度高、故障发现难度大等问题。附图说明为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其他的附图。图1是本申请一种实施方式中的应用场景示意图;图2是本申请一种实施方式中的故障发现方法的流程图;图3是本申请一种实施方式中的故障发现装置的结构图;图4是本申请一种实施方式中的主节点的硬件结构图。具体实施方式在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。本申请实施例中提出了一种故障发现方法,该方法可以应用于大数据集群(也可以称为大数据系统),该大数据集群可以包括多个用于处理大数据业务的主机。其中,每个主机会部署服务组件,并通过服务组件处理大数据业务。参见图1所示,为本申请实施例的应用场景示意图,大数据集群包括主机11、主机12和主机13,实际应用中的主机数量会更多。此外,每个主机可以部署用于处理大数据业务的服务组件,不同主机的服务组件可以相同或者不同。例如,主机11部署HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)服务的NameNode(名字节点)组件,基于此NameNode组件,主机11可以实现如下大数据业务:管理数据块映射,处理客户端的读写请求,配置副本策略,管理HDFS名称空间等。又例如,主机12部署HDFS服务的DataNode(数据节点)组件,基于此DataNode组件,主机12可以实现如下大数据业务:存储客户端的数据块,执行数据块读写操作,定期向NameNode发送心跳信息。当然,上述过程只是给出了服务组件的几个示例,实际应用中并不局限于此,如主机可以部署MapReduce(映射归约)服务的拆分组件、排序组件、组合组件等,部署YARN(YetAnotherResourceNegotiator,另一种资源协调者)服务的资源管理器组件、应用程序管理组件等,对此服务组件不做限制。本申请实施例中,在大数据集群的每个主机上可以部署从节点,主节点也可以部署在任意一个主机上,或者主节点也可以单独部署。此外,主节点和从节点之间通过心跳机制进行通信,以使从节点对主机进行故障发现与故障恢复。本申请实施例中,主节点可以配置多个配置文件,且每个配置文件均可以包括但不限于以下内容之一或者任意组合:标识(id)、文件名称(name)、描述信息(label)、集群名称(cluster_name)、服务名称(service_name)、组件名称(component_name)、故障类型(source)、告警方式(output)等。其中,标识(id)可以是配置文件的唯一标识,例如,主节点可以包括2个配置文件,第一个配置文件的标识为1,且后续可以将该配置文件称为配置文件1,第二个配置文件的标识为2,且后续可以将该配置文件称为配置文件2。其中,文件名称(name)是配置文件的名称,可以根据实际需要选择。不同配置文件的名称可以相同,也可以不同,而且,配置文件的名称可以是中文,也可以是英文,还可以是其它类型的语言,对此名称的语言不做限制。例如,配置文件1的名称是Failure-finding_A,配置文件1的名称是Failure-finding_B。其中,描述信息(label)是配置文件的简要说明,可以阐述配置文件的功能、配置文件的生成时间、配置文件的有效期等内容,对此描述信息不做限制。其中,集群名称(cluster_name)是大数据集群的名称,例如,针对主机11、主机12和主机13组成的这个大数据集群,其集群名称可以是“crs”。其中,服务名称(service_name)是用于处理大数据业务的服务组件对应的服务名称,如HDFS服务、MapReduce服务、YARN服务等。后续以配置文件1的服务名称是HDFS服务,配置文件2的服务名称是HDFS服务为例。其中,组件名称(component_name)是用于处理大数据业务的服务组件对应的组件名称,如NameNode组件、DataNode组件、拆分组件、排序组件、组合组件、资源管理器组件、应用程序管理组件等。后续以配置文件1的组件名称是NameNode组件,配置文件2的组件名称是DataNode组件为例。其中,故障类型(source)可以包括但不限于以下之一或者任意组合:端口类型(PORT)、网络类型(WEB)、性能指标类型(METRICS)、自定义本文档来自技高网...

【技术保护点】
1.一种故障发现方法,其特征在于,应用于大数据集群的主节点,所述大数据集群还包括从节点,所述从节点部署在大数据集群中的主机上,该方法还包括:获取所述从节点对应的主机上部署的服务组件的服务名称和组件名称;从所述主节点上配置的多个配置文件中确定包括所述服务名称和所述组件名称的目标配置文件;将所述目标配置文件中包括的故障类型发送给所述从节点,以使所述从节点根据所述故障类型对应的故障发现策略,对对应的主机进行故障发现。

【技术特征摘要】
1.一种故障发现方法,其特征在于,应用于大数据集群的主节点,所述大数据集群还包括从节点,所述从节点部署在大数据集群中的主机上,该方法还包括:获取所述从节点对应的主机上部署的服务组件的服务名称和组件名称;从所述主节点上配置的多个配置文件中确定包括所述服务名称和所述组件名称的目标配置文件;将所述目标配置文件中包括的故障类型发送给所述从节点,以使所述从节点根据所述故障类型对应的故障发现策略,对对应的主机进行故障发现。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收所述从节点发送的故障消息,所述故障消息用于通知所述主机发生故障。3.根据权利要求2所述的方法,其特征在于,该方法还包括:根据所述目标配置文件包括的告警方式发送告警消息,其中,所述告警消息携带所述目标配置文件包括的服务名称和组件名称、以及所述主机的信息。4.根据权利要求2所述的方法,其特征在于,所述故障消息携带故障特征和故障类型,该方法还包括:若特征库中存在与所述故障特征和故障类型匹配的故障恢复策略,则将所述故障恢复策略发送给所述从节点,以使所述从节点根据所述故障恢复策略对所述主机进行故障恢复;其中,所述特征库用于记录故障特征、故障类型、故障恢复策略的对应关系。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若特征库中不存在与所述故障特征和故障类型匹配的故障恢复策略,则获取用户对所述主机进行故障恢复时使用的故障恢复策略,并在所述特征库中记录所述故障特征、所述故障类型和获取的故障恢复策略的对应关系。6.一种故障发现装置,其特征在...

【专利技术属性】
技术研发人员:黄雷洪福成
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1