集群服务器的故障修复方法和装置制造方法及图纸

技术编号:15639070 阅读:126 留言:0更新日期:2017-06-15 21:11
本申请公开了一种集群服务器的故障修复方法和装置。其中,该方法包括:获取集群服务器中目标服务的运行日志,其中,目标服务为集群服务器中运行的服务程序;将获取到的运行日志与故障信息库中的故障特征信息进行匹配;当匹配到与运行日志相同的故障特征信息的情况下,确定集群服务器存在故障;按照预设修复方式对集群服务器进行故障修复。本申请解决了现有技术中修复集群服务器故障效率较低的技术问题。

【技术实现步骤摘要】
集群服务器的故障修复方法和装置
本申请涉及计算机领域,具体而言,涉及一种集群服务器的故障修复方法和装置。
技术介绍
随着大数据时代的到来,需要分析的数据越来越多。Hadoop作为最好的大数据分析工具之一,被很多公司广泛使用。数据量的不断增长,Hadoop的集群规模也不断扩大,很多公司内部的Hadoop集群规模已经发展到100台服务器以上。Hadoop集群中运行的服务有Hadoop分布式文件系统(DistributedFileSystem,简称HDFS)、Hadoop数据仓库工具(Hive)、分布式存储系统(Hadoop-Database,简称Hbase)、另一种资源协调者(YetAnotherResourceNegotiator,简称Yarn)、企业级搜索应用服务器(Solr)和Impala等。通过现有技术中的方法,在超过100台服务器的大规模集群中排查集群故障,是非常困难的一件事。例如,发现HBase服务变慢或意外停止服务,运维人员需要登录集群的每一台服务器查看Hbase运行日志,分析问题,然后解决故障。上述通过人工排查集群故障的方法,不仅效率低下,而且准确率低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种集群服务器的故障修复方法和装置,以至少解决现有技术中修复集群服务器故障效率较低的技术问题。根据本申请实施例的一个方面,提供了一种集群服务器的故障修复方法,包括:获取所述集群服务器中目标服务的运行日志,其中,所述目标服务为所述集群服务器中运行的服务程序;将获取到的所述运行日志与故障信息库中的故障特征信息进行匹配;当匹配到与所述运行日志相同的故障特征信息的情况下,确定所述集群服务器存在故障;以及按照预设修复方式对所述集群服务器进行故障修复。进一步地,所述预设修复方式为自动修复方式,按照预设修复方式对所述集群服务器进行故障修复包括:根据目标故障特征信息调用所述故障信息库中对应的故障解决方案,其中,所述目标故障特征信息为所述故障信息库中与所述运行日志相匹配的故障特征信息,并且在所述故障信息库中一个所述故障特征信息对应一个所述故障解决方案;以及通过与所述目标故障特征信息对应的故障解决方案对所述集群服务器进行故障修复。进一步地,所述预设修复方式为手动修复方式,按照预设修复方式对所述集群服务器进行故障修复包括:根据目标故障特征信息调用所述故障信息库中对应的故障解决方案,其中,所述目标故障特征信息为所述故障信息库中与所述运行日志相匹配的故障特征信息,并且在所述故障信息库中一个所述故障特征信息对应一个所述故障解决方案;以及发送与所述目标故障特征信息对应的故障解决方案至用户终端,以通知用户根据所述故障解决方案对所述集群服务器进行修复。进一步地,在获取所述集群服务器中目标服务的运行日志之前,所述方法还包括:爬取目标网页中的信息,并从所述信息中提取所述故障特征信息和所述故障特征信息的故障解决方案。进一步地,所述集群服务器包括多个服务器,在获取所述集群服务器中目标服务的运行日志之前,所述方法还包括:存储程序包于每个所述服务器中,其中,所述程序包为获取每个所述服务器的所述运行日志的包;以及获取所述集群服务器中每个服务器的运行日志包括:通过所述程序包获取所述集群服务器中所述目标服务的运行日志。根据本申请实施例的另一方面,还提供了一种集群服务器的故障修复装置,包括:获取单元,用于获取所述集群服务器中目标服务的运行日志,其中,所述目标服务为所述集群服务器中运行的服务程序;匹配单元,用于将获取到的所述运行日志与故障信息库中的故障特征信息进行匹配;确定单元,用于当匹配到与所述运行日志相同的故障特征信息的情况下,确定所述集群服务器存在故障;以及修复单元,用于按照预设修复方式对所述集群服务器进行故障修复。进一步地,所述预设修复方式为自动修复方式,所述修复单元包括:第一调用模块,用于根据目标故障特征信息调用所述故障信息库中对应的故障解决方案,其中,所述目标故障特征信息为所述故障信息库中与所述运行日志相匹配的故障特征信息,并且在所述故障信息库中一个所述故障特征信息对应的一个所述故障解决方案;以及第一修复模块,用于通过与所述目标故障特征信息对应的故障解决方案对所述集群服务器进行故障修复。进一步地,所述预设修复方式为手动修复方式,所述修复单元包括:第二调用模块,用于根据目标故障特征信息调用所述故障信息库中对应的故障解决方案,其中,所述目标故障特征信息为所述故障信息库中与所述运行日志相匹配的故障特征信息,并且在所述故障信息库中一个所述故障特征信息对应一个所述故障解决方案;以及发送与所述目标故障特征信息对应的模块,用于发送所述故障解决方案至用户终端,以通知用户根据所述故障解决方案对所述集群服务器进行修复。进一步地,所述装置还包括:爬取单元,用于在所述获取单元获取所述集群服务器中目标服务的运行日志之前,爬取目标网页中的信息,并从所述信息中提取所述故障特征信息和所述故障特征信息的故障解决方案。进一步地,所述集群服务器包括多个服务器,所述装置还包括:存储单元,用于在所述获取单元获取所述集群服务器中目标服务的运行日志之前,存储程序包于每个所述服务器中,其中,所述程序包为获取每个所述服务器的所述运行日志的包;以及所述获取单元包括:获取模块,用于通过所述程序包获取所述集群服务器中所述目标服务的运行日志。在本申请实施例中,采用获取所述集群服务器中目标服务的运行日志,其中,所述目标服务为所述集群服务器中运行的服务程序;将获取到的所述运行日志与故障信息库中的故障特征信息进行匹配;当匹配到与所述运行日志相同的故障特征信息的情况下,确定所述集群服务器存在故障;按照预设修复方式对所述集群服务器进行故障修复的方式。通过将实时获取到的集群服务器的运行日志与故障信息库中的故障特征信息进行匹配,再根据匹配结果确定集群服务器存在故障的情况下,按照预设修复方式实现集群服务器的故障修复,达到了及时发现集群服务器故障并修复故障的目的,从而实现了集群服务器自愈修复的技术效果,进而解决了现有技术中修复集群服务器故障效率较低的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种集群服务器的故障修复方法的流程图;图2是根据本申请可选实施例的一种集群服务器的故障修复方法的流程图;以及图3是根据本申请实施例的一种集群服务器的故障修复装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以本文档来自技高网
...
集群服务器的故障修复方法和装置

【技术保护点】
一种集群服务器的故障修复方法,其特征在于,包括:获取所述集群服务器中目标服务的运行日志,其中,所述目标服务为所述集群服务器中运行的服务程序;将获取到的所述运行日志与故障信息库中的故障特征信息进行匹配;当匹配到与所述运行日志相同的故障特征信息的情况下,确定所述集群服务器存在故障;以及按照预设修复方式对所述集群服务器进行故障修复。

【技术特征摘要】
1.一种集群服务器的故障修复方法,其特征在于,包括:获取所述集群服务器中目标服务的运行日志,其中,所述目标服务为所述集群服务器中运行的服务程序;将获取到的所述运行日志与故障信息库中的故障特征信息进行匹配;当匹配到与所述运行日志相同的故障特征信息的情况下,确定所述集群服务器存在故障;以及按照预设修复方式对所述集群服务器进行故障修复。2.根据权利要求1所述的方法,其特征在于,所述预设修复方式为自动修复方式,按照预设修复方式对所述集群服务器进行故障修复包括:根据目标故障特征信息调用所述故障信息库中对应的故障解决方案,其中,所述目标故障特征信息为所述故障信息库中与所述运行日志相匹配的故障特征信息,并且在所述故障信息库中一个所述故障特征信息对应一个所述故障解决方案;以及通过与所述目标故障特征信息对应的故障解决方案对所述集群服务器进行故障修复。3.根据权利要求1所述的方法,其特征在于,所述预设修复方式为手动修复方式,按照预设修复方式对所述集群服务器进行故障修复包括:根据目标故障特征信息调用所述故障信息库中对应的故障解决方案,其中,所述目标故障特征信息为所述故障信息库中与所述运行日志相匹配的故障特征信息,并且在所述故障信息库中一个所述故障特征信息对应一个所述故障解决方案;以及发送与所述目标故障特征信息对应的故障解决方案至用户终端,以通知用户根据所述故障解决方案对所述集群服务器进行修复。4.根据权利要求3所述的方法,其特征在于,在获取所述集群服务器中目标服务的运行日志之前,所述方法还包括:爬取目标网页中的信息,并从所述信息中提取所述故障特征信息和所述故障特征信息的故障解决方案。5.根据权利要求1所述的方法,其特征在于,所述集群服务器包括多个服务器,在获取所述集群服务器中目标服务的运行日志之前,所述方法还包括:存储程序包于每个所述服务器中,其中,所述程序包为获取每个所述服务器的所述运行日志的包;以及获取所述集群服务器中每个服务器的运行日志包括:通过所述程序包获取所述集群服务器中所述目标服务的运行日志。6.一种集群服务器的故障修复装置,其特征在于,包括:获...

【专利技术属性】
技术研发人员:谢宁
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1