故障处理方法、故障处理的装置和存储介质制造方法及图纸

技术编号:25091169 阅读:51 留言:0更新日期:2020-07-31 23:35
本申请的实施方式提供了一种故障处理方法、故障处理的装置和存储介质。该方法包括判断第一终端设备在执行分布式业务的第一部分业务过程中是否出现故障;在出现故障的情况下,将第一终端设备的调用信息存储在分布式文件系统中,将第一终端设备的分布式业务日志集合存储在分布式文件系统中,第一终端设备的分布式业务日志集合包括第一终端设备在与发生故障的时间相关联的预定时间段内所产生的多个日志。本申请可以使用调用链标识将调用链进行记录,为业务故障的追踪定位提供了主线,提高了对设备发生故障后的定界定位能力。通过由分布式故障触发相关日志的采集,不用设置心跳机制来检测设备的异常状态,减少对正常业务的影响。

【技术实现步骤摘要】
故障处理方法、故障处理的装置和存储介质
本申请的一个或多个实施例通常涉及分布式系统的故障处理领域,具体涉及一种终端设备的故障处理方法、故障处理的装置和存储介质。
技术介绍
分布式系统是一个硬件或软件组件分布在不同的网络设备上,彼此之间仅仅通过消息传递进行通信和协调的系统。现有的分布式网络的故障检测和恢复方法,一般是在指定的服务器中执行,例如,在分布式系网络的一台指定的服务器上设置分布式故障检测和恢复相关的功能模块,例如功能模块可能包括故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块等,故障检测模块对分布式系统中各个服务器的分布式故障进行检测,并采集服务器故障信息;配置中心模块配置服务器的基础信息并对故障检测模块、中央控制模块、故障恢复模块等模块进行配置;中央控制模块接收采集的故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发。因此,在现有技术中,分布式网络的故障检测和恢复方法通常在服务器端执行,而非在终端执行,此外,在分布式网络中,如果该网络的业务模式是主从模式(Master-SlaveMode),那么,通常在主设备中设置中央控制模块接收检测故障信息,如果主设备的中央控制模块发生故障将无法接收故障信息。进一步地,对于执行分布式业务的终端来说,它们通常无法在本地准确地获得调用链的信息,这些信息通常需要在服务器端(云端)对业务日志进行大数据分析后才能得到,由此,在终端很难存储和回溯分布式网络内设备间的调用链信息,这样导致日志的实时性和准确性比较差。专利技术内容本申请的一些实施方式提供了一种故障处理方法、故障处理的装置和存储介质。以下从多个方面介绍本申请,以下多个方面的实施方式和有益效果可互相参考。为了应对上述场景,第一方面,本申请的实施方式提供了一种用于第一终端设备的故障处理的方法,该方法包括判断第一终端设备在执行分布式业务的第一部分业务过程中是否出现故障;在出现故障的情况下,将第一终端设备的调用信息存储在分布式文件系统中,其中第一终端设备的调用信息包括第一终端设备被第二终端设备调用的信息以及第一终端设备调用第三终端设备的信息中的至少一个,其中第二终端设备和第三终端设备中的至少一个执行分布式业务的第二和第三部分业务中的至少一个。从上述第一方面的实施方式中可以看出,本申请的实施方式可以在故障发生时,使用调用链标识(TraceID)将调用链进行记录,为业务故障的追踪定位提供了主线,提高了对设备的诸如系统、应用等方面发生故障后的定界定位能力。此外,通过由分布式故障触发相关日志的采集,不用设置心跳机制来检测设备的异常状态,减少对正常业务的影响。结合第一方面,在一些实施方式中,还包括:在出现故障的情况下,将第一终端设备的分布式业务日志集合存储在分布式文件系统中,其中第一终端设备的分布式业务日志集合包括第一终端设备在与发生故障的时间相关联的预定时间段内所产生的多个日志,并且其中预定时间段包括发生故障的时间。本申请的实施方式可以实现在终端侧的分布式业务故障检测及日志自动收集,保证了分布式业务故障日志的时间顺序,减少上传的日志量,减少了云端分析的难度,从而提高软件的稳定性。结合第一方面,在一些实施方式中,还包括:在未出现故障的情况下,确定分布式文件系统中是否存在至少部分指示第一终端设备调用第三终端设备的第三终端设备的调用信息;在存在第三终端设备的调用信息的情况下,将第一终端设备的调用信息存储在分布式文件系统中。结合第一方面,在一些实施方式中,还包括:在未出现故障的情况下,将第一终端设备执行第一部分业务所产生的第一终端设备的分布式业务日志集合存储在分布式文件系统中。结合第一方面,在一些实施方式中,分布式文件系统至少由执行分布式业务的多个终端设备共享,其中多个终端设备包括第一终端设备,第二终端设备和/或第三终端设备。结合第一方面,在一些实施方式中,多个分布式业务日志集合中的每个分布式业务日志和/或调用信息包括标识分布式业务的标识信息。结合第一方面,在一些实施方式中,调用信息还包括执行分布式业务的多个终端设备的数量,并且第一终端设备在执行第一部分业务的情况下,将数量加1。结合第一方面,在一些实施方式中,基于分布式文件系统中的调用信息,确定分布式业务的调用链信息,其中调用链信息指示执行分布式业务的多个终端设备之间的调用顺序;以及将调用链信息存储在分布式文件系统中。本申请的实施方式通过在终端侧设备间进行了日志关联,提高了日志收集的时效性和可靠性,减少了故障日志的大小,减少了对系统资源的消耗,尤其提高了诸如第三方应用开发者的商用用户对故障的定界定位效率,降低了研发成本。结合第一方面,在一些实施方式中,至少部分地基于执行分布式业务的多个终端设备中的每个终端设备的设备基础信息、每个终端设备的故障率、每个终端设备与多个终端设备通信的故障率中的至少一个,在多个终端设备中选出预备日志收集设备。结合第一方面,在一些实施方式中,将表示选出的预备日志收集设备的信息存储在分布式文件系统中。结合第一方面,在一些实施方式中,在出现故障的情况下,根据每个终端设备选出的预备日志收集设备,选出最终日志收集设备用于收集与故障相关的分布式业务日志集合。结合第一方面,在一些实施方式中,在第一终端设备为最终日志收集设备的情况下,从分布式文件系统获取每个终端设备的分布式业务日志集合并发送到服务器。结合第一方面,在一些实施方式中,将每个终端设备的分布式业务日志集合发送到服务器,还包括:根据调用链信息的调用顺序,将每个终端设备的分布式业务日志集合发送到服务器。结合第一方面,在一些实施方式中,在第一终端设备为最终日志收集设备的情况下,将调用链信息发送到服务器。第二方面,本申请的实施方式提供了一种用于第一终端设备的故障处理的方法,方法包括:判断第一终端设备在执行分布式业务的第一部分业务过程中是否出现故障;在出现故障的情况下,将第一终端设备的调用信息存储在分布式文件系统中,其中第一终端设备的调用信息包括第一终端设备被第二终端设备调用的信息以及第一终端设备调用第三终端设备的信息中的至少一个,其中第二终端设备和第三终端设备中的至少一个执行分布式业务的第二和第三部分业务中的至少一个;以及至少部分地基于执行分布式业务的多个终端设备中的每个终端设备的设备基础信息、每个终端设备的故障率、每个终端设备与多个终端设备通信的故障率中的至少一个,在多个终端设备中选出预备日志收集设备。从上述第二方面的实施方式中可以看出,本申请的实施方式可以在故障发生时,使用调用链标识(TraceID)将调用链进行记录,为业务故障的追踪定位提供了主线,提高了对设备的诸如系统、应用等方面发生故障后的定界定位能力。此外,通过由分布式故障触发相关日志的采集,不用设置心跳机制来检测设备的异常状态,减少对正常业务的影响。结合第二方面,在一些实施方式中,将表示选出的预备日志收集设备的信息存储在分布式文件系统中。结合第二方面,在一些实施方式本文档来自技高网...

【技术保护点】
1.一种用于第一终端设备的故障处理的方法,其特征在于,所述方法包括:/n判断所述第一终端设备在执行分布式业务的第一部分业务过程中是否出现所述故障;/n在出现所述故障的情况下,将所述第一终端设备的调用信息存储在分布式文件系统中,其中所述第一终端设备的所述调用信息包括所述第一终端设备被第二终端设备调用的信息以及所述第一终端设备调用第三终端设备的信息中的至少一个,其中所述第二终端设备和第三终端设备中的至少一个执行所述分布式业务的第二和第三部分业务中的至少一个。/n

【技术特征摘要】
1.一种用于第一终端设备的故障处理的方法,其特征在于,所述方法包括:
判断所述第一终端设备在执行分布式业务的第一部分业务过程中是否出现所述故障;
在出现所述故障的情况下,将所述第一终端设备的调用信息存储在分布式文件系统中,其中所述第一终端设备的所述调用信息包括所述第一终端设备被第二终端设备调用的信息以及所述第一终端设备调用第三终端设备的信息中的至少一个,其中所述第二终端设备和第三终端设备中的至少一个执行所述分布式业务的第二和第三部分业务中的至少一个。


2.如权利要求1所述的方法,其特征在于,还包括:
在出现所述故障的情况下,将所述第一终端设备的分布式业务日志集合存储在分布式文件系统中,其中所述第一终端设备的所述分布式业务日志集合包括所述第一终端设备在与发生所述故障的时间相关联的预定时间段内所产生的多个日志,并且其中所述预定时间段包括发生所述故障的所述时间。


3.如权利要求1或2所述的方法,其特征在于,还包括:
在未出现所述故障的情况下,
确定所述分布式文件系统中是否存在至少部分指示所述第一终端设备调用所述第三终端设备的所述第三终端设备的调用信息;
在存在所述第三终端设备的所述调用信息的情况下,将所述第一终端设备的所述调用信息存储在所述分布式文件系统中。


4.如权利要求2所述的方法,其特征在于,还包括:
在未出现所述故障的情况下,将所述第一终端设备执行所述第一部分业务所产生的所述第一终端设备的分布式业务日志集合存储在所述分布式文件系统中。


5.如权利要求1-4中任一项所述的方法,其特征在于,所述分布式文件系统至少由执行所述分布式业务的多个终端设备共享,其中所述多个终端设备包括所述第一终端设备,所述第二终端设备和/或所述第三终端设备。


6.如权利要求1-4中任一项所述的方法,其特征在于,所述多个分布式业务日志集合中的每个分布式业务日志和/或所述调用信息包括标识所述分布式业务的标识信息。


7.如权利要求6所述的方法,其特征在于,所述调用信息还包括执行所述分布式业务的多个终端设备的数量,并且所述第一终端设备在执行所述第一部分业务的情况下,将所述数量加1。


8.如权利要求6所述的方法,其特征在于,还包括:
基于所述分布式文件系统中的所述调用信息,确定所述分布式业务的调用链信息,其中所述调用链信息指示执行所述分布式业务的所述多个终端设备之间的调用顺序;以及
将所述调用链信息存储在所述分布式文件系统中。


9.如权利要求1-8所述的方法,其特征在于,还包括:
至少部分地基于执行所述分布式业务的多个终端设备中的每个终端设备的设备基础信息、所述每个终端设备的故障率、所述每个终端设备与所述多个终端设备通信的故障率中的至少一个,在所述多个终端设备中选出预备日志收集设备。


10.如权利要求9所述的方法,还包括:将表示选出的所述预备日志收集设备的信息存储在所述分布式文件系统中。


11.如权利要求9或10所述的方法,其特征在...

【专利技术属性】
技术研发人员:李煜张亮余亮
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1