云系统中服务故障的处理方法和装置制造方法及图纸

技术编号:16236044 阅读:25 留言:0更新日期:2017-09-19 16:10
本发明专利技术公开了一种云系统中服务故障的处理方法和装置,所述方法包括:在云系统中服务发生故障后,获取故障的描述信息;根据故障的描述信息,查找所述故障的解决策略;如果查找到解决策略,执行所述解决策略;根据所述解决策略对所述故障的处理结果,对解决策略进行管理。

Method and device for handling service failure in cloud system

The invention discloses a processing method and device of fault service cloud system, the method includes: service failure in the cloud system, describe the information acquisition fault; according to the description information of fault, the fault to find solutions to find solutions; if the decision slightly, executing the solving strategies; according to the results of the strategy to solve the fault, management solutions.

【技术实现步骤摘要】
云系统中服务故障的处理方法和装置
本专利技术涉及云计算技术,尤指一种云系统中服务故障的处理方法和装置。
技术介绍
随着云操作系统OS管理系统应用的广泛应用,云海OS的后台服务不断增多,运行环境越来越复杂,云海OS的各项服务会遇到各种各样的问题无法启动。现在云海采用微服务架构,服务总共有30个,任何一个模块出现问题都会造成我们的云海无法使用,我们现在采用人工的方式修复,由于云海部署的机器一般是内网机器,这就要求去现场解决问题,开发人员到现场后,需要对每个模块逐一排查,找出问题进行修复。特别当我们的系统越来越大,客户越来越多,这个工作量是巨大的,而且有些问题还可能是重复出现的,这样会浪费大量的人力、物力和财力,此问题急需解决。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种云系统中服务故障的处理方法和装置,能够自动处理故障,减少服务故障的复杂度。为了达到本专利技术目的,本专利技术提供了一种云系统中服务故障的处理方法,包括:在云系统中服务发生故障后,获取故障的描述信息;根据故障的描述信息,查找所述故障的解决策略;如果查找到解决策略,执行所述解决策略;根据所述解决策略对所述故障的处理结果,对解决策略进行管理。其中,所述获取故障的描述信息包括:按照预先设置的时间管理策略,读取服务器的日志信息;根据所述日志信息中记录的服务器发生故障的记录,获取日志中对故障的描述信息。其中,所述根据故障的描述信息,查找所述故障的解决策略,包括:获取故障的描述信息的关键词;在预先设置的解决策略中,根据所述关键词查找所述故障的解决策略,其中每个解决策略是以该解决策略能够处理的故障的关键词来标识;如果查找到以所述关键字标识的解决策略,根据所述解决策略的匹配度的数值,选择解决策略。其中,所述根据所述解决策略对所述故障的处理结果,对解决策略进行管理,包括:如果所述解决策略能够解决所述故障,则增加所述解决策略与故障的匹配度的数值;否则,输出所述故障的告警信息。其中,所述方法还包括:如果没有查找到对应的解决策略,或者,查找到解决策略但该解决策略不能解决所述故障时,记录对所述故障的解决策略;建立所述故障和所述解决策略的对应关系,并设置所述解决策略设置对应的标识和匹配度。一种云系统中服务故障的处理装置,包括:获取模块,用于在云系统中服务发生故障后,获取故障的描述信息;查找模块,用于根据故障的描述信息,查找所述故障的解决策略;执行模块,用于如果查找到解决策略,执行所述解决策略;管理模块,用于根据所述解决策略对所述故障的处理结果,对解决策略进行管理。其中,所述获取模块包括:读取单元,用于按照预先设置的时间管理策略,读取服务器的日志信息;第一获取单元,用于根据所述日志信息中记录的服务器发生故障的记录,获取日志中对故障的描述信息。其中,所述查找模块包括:第二获取单元,用于获取故障的描述信息的关键词;查找单元,用于在预先设置的解决策略中,根据所述关键词查找所述故障的解决策略,其中每个解决策略是以该解决策略能够处理的故障的关键词来标识;选择单元,用于如果查找到以所述关键字标识的解决策略,则根据所述解决策略的匹配度的数值,选择解决策略。其中,所述管理模块具体用于:如果所述解决策略能够解决所述故障,则增加所述解决策略与故障的匹配度的数值;否则,输出所述故障的告警信息。其中,所述装置还包括:记录模块,用于如果没有查找到对应的解决策略,或者,查找到解决策略但该解决策略不能解决所述故障时,记录对所述故障的解决策略;建立模块,建立所述故障和所述解决策略的对应关系,并设置所述解决策略设置对应的标识和匹配度。本专利技术提供的实施例,获取故障的描述信息,根据故障的描述信息,查找所述故障的解决策略,如果查找到解决策略,执行所述解决策略,再对解决策略进行管理,能够自主对故障进行处理,并对解决策略进行学习,实现自动处理故障,减少服务故障的复杂度,能够自主对故障进行处理,减少服务故障的复杂度。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术提供的云系统中服务故障的处理方法的流程图;图2为本专利技术提供的基于机器自主学习的服务异常自动修复方法的流程图;图3为本专利技术提供的云系统中服务故障的处理装置的结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1为本专利技术提供的云系统中服务故障的处理方法的流程图。图1所示方法包括:步骤101、在云系统中服务发生故障后,获取故障的描述信息;步骤102、根据故障的描述信息,查找所述故障的解决策略;步骤103、如果查找到解决策略,执行所述解决策略;步骤104、根据所述解决策略对所述故障的处理结果,对所述解决策略进行管理。本专利技术提供的方法实施例,获取故障的描述信息,根据故障的描述信息,查找所述故障的解决策略,如果查找到解决策略,执行所述解决策略,再对解决策略进行管理,能够自主对故障进行处理,并对解决策略进行学习,实现自动处理故障,减少服务故障的复杂度,能够自主对故障进行处理,减少服务故障的复杂度。下面对本专利技术提供的方法实施例作进一步说明:由于云海服务器之间是相互联系的,一旦其中一个服务器模块出现问题,可能会影响其他多个服务器也不能继续工作,因此,向该服务器查询故障是很难实现的,因此,本专利技术提供如下方式来获取服务器的故障:按照预先设置的时间管理策略,读取服务器的日志信息;根据所述日志信息中记录的服务器发生故障的记录,获取日志中对故障的描述信息。在云系统中,可以设置一进程用于负责扫描系统中服务中的状态,分析错误日志,执行错误处理方法利用服务器的日志,通过查询日志记录的内容,可以确定的服务器的故障的描述信息。在得到故障的描述信息后,提取该描述信息中的关键词;在预先设置的解决策略中,根据所述关键词查找所述故障的解决策略,其中每个解决策略是以该解决策略能够处理的故障的关键词来标识;如果查找到以所述关键字标识的解决策略,则根据所述解决策略的匹配度的数值,选择解决策略。在实际应用中,可以设置解决策略的数据库,其中每个解决策略以解决策略能够处理的故障的关键词来标识,从而方便根据故障查询该解决策略,在确定解决策略后,如果发现解决策略有多个时,可以按照匹配度从高到低的顺序依次执行该解决策略,其中匹配度是根据该解决策略成功处理故障的次数来确定的。其中,如果所述解决策略能够解决所述故障,则增加所述解决策略与故障的匹配度的数值;否则,输出所述故障的告警信息,让管理人员处理该故障。当然,如果没有查找到对应的解决策略,或者,查找到解决策略但该解决策略不能解决所述故障时,记录对本文档来自技高网...
云系统中服务故障的处理方法和装置

【技术保护点】
一种云系统中服务故障的处理方法,其特征在于,包括:在云系统中服务发生故障后,获取故障的描述信息;根据故障的描述信息,查找所述故障的解决策略;如果查找到解决策略,执行所述解决策略;根据所述解决策略对所述故障的处理结果,对解决策略进行管理。

【技术特征摘要】
1.一种云系统中服务故障的处理方法,其特征在于,包括:在云系统中服务发生故障后,获取故障的描述信息;根据故障的描述信息,查找所述故障的解决策略;如果查找到解决策略,执行所述解决策略;根据所述解决策略对所述故障的处理结果,对解决策略进行管理。2.根据权利要求1所述的方法,其特征在于,所述获取故障的描述信息包括:按照预先设置的时间管理策略,读取服务器的日志信息;根据所述日志信息中记录的服务器发生故障的记录,获取日志中对故障的描述信息。3.根据权利要求1或2所述的方法,其特征在于,所述根据故障的描述信息,查找所述故障的解决策略,包括:获取故障的描述信息的关键词;在预先设置的解决策略中,根据所述关键词查找所述故障的解决策略,其中每个解决策略是以该解决策略能够处理的故障的关键词来标识;如果查找到以所述关键字标识的解决策略,根据所述解决策略的匹配度的数值,选择解决策略。4.根据权利要求1所述的方法,其特征在于,所述根据所述解决策略对所述故障的处理结果,对解决策略进行管理,包括:如果所述解决策略能够解决所述故障,则增加所述解决策略与故障的匹配度的数值;否则,输出所述故障的告警信息。5.根据权利要求5所述的方法,其特征在于,所述方法还包括:如果没有查找到对应的解决策略,或者,查找到解决策略但该解决策略不能解决所述故障时,记录对所述故障的解决策略;建立所述故障和所述解决策略的对应关系,并设置所述解决策略设置对应的标识和匹配度。6.一种云系统中服务故障的处理装置...

【专利技术属性】
技术研发人员:何万县
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1