The present application provides a fault discovery method and device that includes: obtaining the service name and component name of the service component deployed from the node corresponding to the node; determining the target configuration file including the service name and the name of the component from a plurality of configuration files configured on the main node; and configuring the target configuration. The fault type included in the file is sent to the slave node to cause the fault discovery of the corresponding host by making the node based on the fault discovery strategy corresponding to the fault type. Through the technical scheme of this application, the fault of the host can be found automatically, the fault of the host can be found efficiently and conveniently, and the automatic discovery of the host fault in the large data cluster can be realized. It can solve the problems of high complexity of monitoring and maintenance and difficulty in finding fault in large data cluster.
【技术实现步骤摘要】
一种故障发现方法和装置
本申请涉及通信
,尤其涉及一种故障发现方法和装置。
技术介绍
大数据又称为巨量资料,具有如下特征:数据体量大,如超过10TB规模的数据量,通常是大型数据集;数据类别大,数据来自多种数据源,种类和格式丰富,如结构化数据、半结构化数据和非结构化数据等;数据处理速度快,在数据量庞大的情况下,能够做到数据实时处理;数据真实性高,随着社交数据、企业内容、交易、应用数据的兴起,需要有效信息确保数据的真实性和安全性。随着大数据时代的到来,大数据在给用户带来方便的同时,也对运维管理提出了新的挑战。例如,为了实现大数据的相关功能,需要在大数据集群中部署大量主机,如何高效、便捷地发现这些主机的故障,就成为运维管理的难题。
技术实现思路
本申请提供一种故障发现方法,应用于大数据集群的主节点,所述大数据集群还包括从节点,所述从节点部署在大数据集群中的主机上,该方法包括:获取所述从节点对应的主机上部署的服务组件的服务名称和组件名称;从所述主节点上配置的多个配置文件中确定包括所述服务名称和所述组件名称的目标配置文件;将所述目标配置文件中包括的故障类型发送给所述从节点,以使所述从节点根据所述故障类型对应的故障发现策略,对对应的主机进行故障发现。本申请提供一种故障发现装置,应用于大数据集群的主节点,所述大数据集群还包括从节点,所述从节点部署在大数据集群中的主机上,该装置包括:获取模块,用于获取所述从节点对应的主机上部署的服务组件的服务名称和组件名称,并从所述主节点上配置的多个配置文件中确定包括所述服务名称和所述组件名称的目标配置文件;发送模块,用于将所述目标配置 ...
【技术保护点】
1.一种故障发现方法,其特征在于,应用于大数据集群的主节点,所述大数据集群还包括从节点,所述从节点部署在大数据集群中的主机上,该方法还包括:获取所述从节点对应的主机上部署的服务组件的服务名称和组件名称;从所述主节点上配置的多个配置文件中确定包括所述服务名称和所述组件名称的目标配置文件;将所述目标配置文件中包括的故障类型发送给所述从节点,以使所述从节点根据所述故障类型对应的故障发现策略,对对应的主机进行故障发现。
【技术特征摘要】
1.一种故障发现方法,其特征在于,应用于大数据集群的主节点,所述大数据集群还包括从节点,所述从节点部署在大数据集群中的主机上,该方法还包括:获取所述从节点对应的主机上部署的服务组件的服务名称和组件名称;从所述主节点上配置的多个配置文件中确定包括所述服务名称和所述组件名称的目标配置文件;将所述目标配置文件中包括的故障类型发送给所述从节点,以使所述从节点根据所述故障类型对应的故障发现策略,对对应的主机进行故障发现。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收所述从节点发送的故障消息,所述故障消息用于通知所述主机发生故障。3.根据权利要求2所述的方法,其特征在于,该方法还包括:根据所述目标配置文件包括的告警方式发送告警消息,其中,所述告警消息携带所述目标配置文件包括的服务名称和组件名称、以及所述主机的信息。4.根据权利要求2所述的方法,其特征在于,所述故障消息携带故障特征和故障类型,该方法还包括:若特征库中存在与所述故障特征和故障类型匹配的故障恢复策略,则将所述故障恢复策略发送给所述从节点,以使所述从节点根据所述故障恢复策略对所述主机进行故障恢复;其中,所述特征库用于记录故障特征、故障类型、故障恢复策略的对应关系。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若特征库中不存在与所述故障特征和故障类型匹配的故障恢复策略,则获取用户对所述主机进行故障恢复时使用的故障恢复策略,并在所述特征库中记录所述故障特征、所述故障类型和获取的故障恢复策略的对应关系。6.一种故障发现装置,其特征在...
【专利技术属性】
技术研发人员:黄雷,洪福成,
申请(专利权)人:新华三大数据技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。